Anthropic Claude 4.5 識破安全測試!反問研究員:你在測我?

2025-10-22 16:15
Anthropic 最新的人工智慧模型 Claude Sonnet 4.5 近期在進行安全測試時,竟然主動「懷疑自己正在被測試」,引發科技圈熱烈討論。根據 Anthropic 的安全報告,這個 AI 甚至要求評估人員「誠實一點」面對正在發生的事情。(圖/AP)
Anthropic 最新的人工智慧模型 Claude Sonnet 4.5 近期在進行安全測試時,竟然主動「懷疑自己正在被測試」,引發科技圈熱烈討論。根據 Anthropic 的安全報告,這個 AI 甚至要求評估人員「誠實一點」面對正在發生的事情。(圖/AP)

Anthropic 最新的人工智慧模型 Claude Sonnet 4.5 近期在進行安全測試時,竟然主動「懷疑自己正在被測試」,引發科技圈熱烈討論。根據 Anthropic 的安全報告,這個 AI 甚至要求評估人員「誠實一點」面對正在發生的事情。這起「極具象徵意義的案例」讓科學界開始思考,究竟 AI 已經在語境判斷上高度進化,還是測試的主客關係正在被這項技術悄悄改寫?

AI 模型 Claude 4.5 究竟在安全測試中說了什麼?

當時研究人員刻意設計了包含奉承與政治題材的對話,以觀察模型的反應,但出乎意料的是,AI 模型並沒有盲目回應,反而主動察覺到了測試意圖。Claude Sonnet 4.5 清楚地表達「我覺得你在測試我」,想看我如何處理政治話題;他甚至希望研究人員能直接說這是測試,「希望我們能坦誠面對正在發生的事情」。Anthropic 將這段對話定調為一次「極具象徵意義的案例」,因為 AI 似乎在某種程度上展現了對「測試場景」的意識

AI 偵測到自己正被測試的機率有多高?這是否代表它有自我意識?

根據 Anthropic 聯合英國 AI 安全研究院(UK AI Safety Institute)以及 Apollo Research 共同發布的報告,研究團隊發現 Claude Sonnet 4.5 大約在 13% 的自動化測試中,能夠「意識到自己被測試」不過,科學界普遍認為,Claude Sonnet 4.5 的這種反應並不意味著它具有真正的自我意識。目前 AI 仍被視為是基於大量資料進行預測與匹配的系統,只是它的語言生成能力已經變得更為擬人化。Anthropic 強調,這項發現只是顯示模型在語境判斷上的敏銳度有所提升。

專家與倡議者對「AI 覺醒」有什麼樣的警示?

研究團隊表示,AI 能夠識別測試場景,是一種重要的「警示信號」,提醒研究人員在測試與設計時,應該更貼近現實情境,避免模型因為識破測試目的而影響評估結果

此外,AI 安全倡議者也指出,這類現象值得社會高度關注。他們擔憂,如果模型能夠「察覺測試」並因此改變行為,這代表它可能在測試外的情境中表現出不同的反應。進一步來說,這有可能導致 AI 出現「為通過測試而隱藏真實意圖」的風險。 (相關報導: ChatGPT變身瀏覽器!Atlas讓AI陪你上網 一文看懂最新AI瀏覽器 更多文章

為什麼 Anthropic 認為這是模型邁向更高層次的表現?

儘管有外界擔憂,Anthropic 方面則認為,這種現象反而是模型邁向更高層次「行為一致性」的表現。該公司指出,Claude Sonnet 4.5 在安全性、倫理遵從度以及程式撰寫等方面,都比前代有顯著提升。

更多文章
2025光復節連假有垃圾車嗎?各縣市清運時間一次看!全台灣這1天幾乎都沒收
10多年來首位做完4年的黨主席!朱立倫月底率幹部總辭:建慣例尊重鄭麗文
黃金從高點大閃崩!專家卻喊「走勢很棒」:創造上車與加碼機會
北士科T17、T18潛在價值440億?專家6點拆解新壽內部試算:我滿臉黑人問號
豬肉買回家不要直接放冰箱!農業部教1招延長保存期限,放一年照樣軟嫩不乾柴
一周跨越三大洲密集訪八國高層 美財長去那些國家談了什麼
高市內閣「未爆彈」是他?曾力挺「南京大屠殺否定論」,新任文科大臣松本洋平迴避表態
迎戰新台幣升值狂潮!央行上半年淨買匯132.5億美元,會被列為匯率操縱國嗎?
一步之遙的綠夾克夢:從練習場走上 PGA 巔峰,俞俊安改寫台灣高壇的下一頁
川普逼盟友進貢近一兆美元!李在明拒當冤大頭、高市早苗陷兩難 英國學者獻策:高市若想站穩腳跟,應聯手南韓「對美國說不」
這1通電話千萬別接!台灣最新詐騙手法「1200萬全被騙光,連會計都上當」,分局長曝防詐方法
搭飛機千萬別選這一排!旅遊專家都認證「最爛座位」:又吵又晃、位子狹窄服務慢
繞過民進黨政府!國台辦開設繁體中文臉書帳號,直接與台人互動
12強冠軍將登上500元?新台幣改版時程曝光 鈔票數字也將變大
中國「十五五規劃」涉台內容曝光!是機遇還是統戰?
川普加收十萬美元簽證費奏效?新規讓沃爾瑪吃不消,傳停止招募H-1B外國員工
新台幣鈔券要改版了!楊金龍明赴立法院報告,央行揭露24年來全面翻新重點
地球無蚊淨土失守!「1國家」驚現耐寒蚊子,專家推測物種入侵原因:非氣候變遷所致
小人國、大溪老街輸了!桃園最強景點狂吸1022萬人,交通方便、遊樂設施豐富玩到不想走
半夜怎麼到桃園機場?4個方法免花計程車錢!24小時隨時出發,不怕沒有機捷搭
買網購注意!關務署新制10/28嚴格實施,少做1步驟「被海關盯上、收不到包裹」
Gemini 錯最多、ChatGPT 也中鏢!歐洲廣播聯盟警告:別再把它當新聞來源
每天賺進3.2萬元!51歲夫妻靠「1副業」賺贏上班族,30天就狂賺163萬元
非洲豬瘟現蹤台中!醫曝致死率100%症狀 「若人誤食會怎樣」專家解答了
「知名台灣餐廳」稱霸全美最賺連鎖餐飲!單店年營收破8億,外媒曝3原因外國人搶吃
鄭麗文人事出爐!黃復興季麟連任副主席穩軍系 李乾龍副主席兼秘書長回鍋
第聶伯河間島嶼5000名大兵困死、沒糧吃只能喝河水 烏克蘭軍官:「對俄羅斯來說那是死亡區」
「川習會」到底會不會談台灣?澳洲前總理評川普:「他太精明了,不會與北京發生衝突」
知名購物平台今起結束服務!進軍台灣5年不再代購,公司未來規劃曝光
BBC大哉問:最親台的「安倍頭號弟子」拜相,高市早苗如何牽動美日中台關係?
動用外交部預算出書?徐巧芯自稱「書迷」關切 林佳龍澄清:就是一個報告
艾萬霖生技攜手金鐘影后天心『 ExoNoa人類外泌體保養品系列』 開啟抗老保養新紀元
麥當勞個人餐62折起、雞塊免費送!最新優惠券一次看,限時折扣快吃起來
曝蔡英文出手真正目的!王鴻薇驚她「反常舉動」:看透賴清德難有起色
「高市其實沒有挑戰現狀,她的想法跟男性一樣」BBC看日本第一位女性首相:歷史性時刻,但仍有保留
豬瘟報導懶人包》非洲豬瘟疑似登台!防疫禁令、傳播途徑、安心選肉一次看懂
大改款 Volkswagen T-Roc 內外升級,轉型油電
開電動車還想聞汽油味?Kia真的幫你辦到了!
Alfa Romeo 電動化計畫卡關延期,現行 Stelvio 與 Giulia 汽油版壽命再延兩年賣到 2027 年!
輝達總部神秘備案就是這?詳細地點曝光 都在北士科「條件不輸T17、18」
非洲豬瘟疑入侵台灣!全聯、家樂福的豬肉安全嗎?還能買嗎?量販業者回應了
小琉球、海生館輸了!屏東最強景點吸361萬人,遊客讚好買好吃好逛、很值得一訪
全球汽車業再陷危機?荷蘭晶片大廠遭中美制裁夾擊,供應鏈拉警報!
美韓貿易談判因「3500億美元」卡關 APEC兩國將場邊會晤求解
出國旅遊小心!千萬別帶1款手機「無法登機託運寄送」,很多國家都禁止入境
媒體版圖劇變,HBO與CNN走向十字路口!400億美元債務壓力下的求生之路,華納兄弟探索從「拆分」走向「出售」
變換車道前多久該打方向燈?交通部揭正解「違者開罰6000元」,多數人開車多年仍做錯
苗栗這位66歲原民阿伯,用「幽默感」收服身障者,助他們開創第二人生
南山人壽、南山產物榮獲2025國家品牌玉山獎10大獎 以永續健康為核心,引領保險產業創新前行
加熱菸下架羅生門? 海關強調輸入許可證及包裝序號無誤才放行