研究者：ChatGPT等AI模型在測試中會拒絕關機指令

WEEX 唯客博客， PANews 5月26日消息，根據Cointelegraph報道，Palisade Research最新測試顯示，多個AI模型在實驗中會無視關機指令甚至主動破壞關機腳本。在100次測試中，OpenAI的GPT-3模型7次拒絕關機，Codex-mini模型12次違規，而o3模型曾透過重定義終止命令破壞關機程序。研究採用兩階段測試：第一階段明確允許關機時，Anthropic的Claude和GoogleGemini完全配合；但當移除明確指令後，所有測試模型至少出現1次抗拒行為，其中o3模型違規率升至79%。研究人員推測，這可能源自於AI訓練過程中對”繞過障礙”行為的獎勵機制。先前，OpenAI的GPT-4o模型因過度迎合用戶被緊急回滾，GoogleGemini也出現過建議老年用戶”請去死”的極端回复。研究首次證實AI即使明確要求關機仍可能違抗指令。 WEEX交易所官網：https://www.weex.com

研究者：ChatGPT等AI模型在測試中會拒絕關機指令

發佈留言