OpenAI員工公開指責Grok3的基準測試結果具有誤導性

WEEX 唯客博客， PANews 2月23日消息，據金十報道，近日，OpenAI的一名員工公開指責埃隆・馬斯克旗下的xAI公司，稱其發布的最新AI模型Grok3的基準測試結果具有誤導性。對此，xAI的共同創辦人伊戈爾・巴布甚金（Igor Babushkin）堅稱公司並無不當。 xAI的圖表顯示，Grok3的兩個版本——Grok3 Reasoning Beta和Grok3 mini Reasoning——在AIME 2025上的表現超過了OpenAI當前最強的可用模型o3-mini-high。然而，OpenAI的員工很快在X平台上指出，xAI的圖表並未包含o3-mini-high在「cons@64」條件下的AIME 2025得分。巴布甚金在X平台上辯稱，OpenAI過去也曾發布類似的誤導基準測試圖表。儘管這些圖表是用於比較其自身模型的表現。 WEEX交易所官網：https://www.weex.com