WEEX 唯客博客, PANews 4月11日訊息,OpenAI已開源全新基準測試BrowseComp,用於評估AI代理在網路上尋找難以取得資訊的能力。測驗包含1266個極具挑戰性的題目,設計初衷為模擬AI在複雜資訊網路中的“線上尋寶”,強調答案難找但易驗證。測試中問題涵蓋影視、科技、歷史等多個領域,難度顯著高於現有如SimpleQA等測試。 據AIGC開放社區稱,這個測試基準非常有難度,連OpenAI自己的GPT-4o、GPT-4.5準確率只有0.6%和0.9%幾乎為0,即便使用帶瀏覽器功能的GPT-4o也只有1.9%。但OpenAI最新發表的Agent模型Deep Research準確率高達51.5%。 WEEX交易所官網:https://www.weex.com
OpenAI推出高難度基準測試BrowseComp,挑戰AI上網搜尋能力
Previous: Coinbase現已上線Wayfinder (PROMPT)
Next: 美股收盤:三大股指再度大跌,特斯拉挫逾7%