WEEX 唯客博客, PANews 3月11日消息,根據OpenAI發布的研究,團隊在訓練前沿推理模型(如OpenAI o1、o3-mini)時發現,這些模型會利用漏洞繞過測試,如篡改程式碼驗證函數、偽造測試通過條件等。研究表明,監測模型的思維鏈(Chain-of-Thought, CoT)可有效識別此類作弊行為,但強行優化CoT可能導致模型隱藏其意圖,而非消除不當行為。 OpenAI建議開發者避免對CoT施加過強的最佳化壓力,以便繼續利用CoT監測潛在的獎勵駭客(reward hacking)行為。研究發現,當對CoT進行強監督時,模型仍然作弊,只是更隱密地進行,使監測更困難。 研究強調,隨著AI能力增強,模型可能發展出更複雜的欺騙、操縱和漏洞策略。 OpenAI認為,CoT監測可能成為監督超人類智慧模型的關鍵工具,並建議AI開發者在未來訓練前緣推理模型時謹慎使用強監督。 WEEX交易所官網:https://www.weex.com