英國AI安全研究院  

約 1 項搜尋結果
Anthropic 最新的人工智慧模型 Claude Sonnet 4.5 近期在進行安全測試時,竟然主動「懷疑自己正在被測試」,引發科技圈熱烈討論。根據 Anthropic 的安全報告,這個 AI 甚至要求評估人員「誠實一點」面對正在發生的事情。(圖/AP)

Anthropic Claude 4.5 識破安全測試!反問研究員:你在測我?