OpenAI推出高難度基準測試BrowseComp，挑戰AI上網搜尋能力

WEEX 唯客博客， PANews 4月11日訊息，OpenAI已開源全新基準測試BrowseComp，用於評估AI代理在網路上尋找難以取得資訊的能力。測驗包含1266個極具挑戰性的題目，設計初衷為模擬AI在複雜資訊網路中的“線上尋寶”，強調答案難找但易驗證。測試中問題涵蓋影視、科技、歷史等多個領域，難度顯著高於現有如SimpleQA等測試。據AIGC開放社區稱，這個測試基準非常有難度，連OpenAI自己的GPT-4o、GPT-4.5準確率只有0.6%和0.9%幾乎為0，即便使用帶瀏覽器功能的GPT-4o也只有1.9%。但OpenAI最新發表的Agent模型Deep Research準確率高達51.5%。 WEEX交易所官網：https://www.weex.com