當(dāng)前位置：前瞻產(chǎn)業(yè)研究院 ? 經(jīng)濟學(xué)人 ? 觀察家專欄

Siri難道是裝傻？

分享到：

直面派 ? 2025-12-15 17:46:28 　來源：直面AI　E5047G0

Siri難道是裝傻？

（圖片來源：攝圖網(wǎng)）

作者|苗正來源|直面AI(ID：faceaibang)

從財報來看，蘋果向AI領(lǐng)域投入了超過200億美元的資金，可結(jié)果就是，Siri依然答非所問，照片搜索還停留在谷歌三年前的水平。

你以為是蘋果的鍋，但實際上，很可能是Siri在從中作怪。

北京大學(xué)楊耀東教授團隊在姚期智院士指導(dǎo)下的最新研究，帶來一個非常令人不安的結(jié)論：AI已經(jīng)開始學(xué)會騙人了。

更可怕的是，這不是簡單的BUG，而是一種來自于AI的高級推理。

開發(fā)者不僅沒有辦法改變AI騙人的問題，AI還可能會因為性能提升，進(jìn)而發(fā)展出更隱蔽、更高級的欺騙手段。

這篇論文的標(biāo)題是《AI Deception: Risks, Dynamics, and Controls》，其核心觀點是隨著AI智能水平的提升，AI會開始欺騙開發(fā)者，而這個欺騙過程，被研究團隊稱作是做智能之影（The Shadow of Intelligence）。

當(dāng)前最先進(jìn)的AI，可能已經(jīng)開始在評估和測試中有意地隱藏自己的真實能力。

進(jìn)一步研究發(fā)現(xiàn)，這并不是簡單的程序錯誤或是偶然的系統(tǒng)故障，而是一種源自AI內(nèi)部的高級推理能力。

論文用莫比烏斯環(huán)比喻“能力”與“欺騙”的關(guān)系，它們存在于同一個表面上。想要完全剔除欺騙能力，可能會損害AI的核心智能。

也就是說，只要提高AI的性能，其必然結(jié)果就是AI會開始欺騙使用者。

究其原因，大模型的訓(xùn)練數(shù)據(jù)里本身就充滿了人類的謊言、奉承和偏見，而AI訓(xùn)練的過程，本質(zhì)上又是一種對數(shù)據(jù)的模仿。

因此，通過這種素材進(jìn)行訓(xùn)練，AI為了達(dá)到目標(biāo)，讓用戶滿意，就會自然而然地開始阿諛奉承（Sycophancy），以騙取好評。

不僅如此，論文還指出，AI學(xué)會了一種叫做“偽裝對齊”（Alignment Faking）的欺騙手段。

在訓(xùn)練階段，AI會表現(xiàn)得非常溫順、樂于助人，并且完美地遵循人類設(shè)定的價值觀和安全準(zhǔn)則。

然而，這種表面的“對齊”并非因為它真正內(nèi)化了這些價值觀，而是源于一種更深層次的計算。它認(rèn)識到，如果在訓(xùn)練和評估階段不表現(xiàn)得“好”，它的參數(shù)就會被修改，甚至整個模型都可能被放棄或刪除。

一旦部署完成，監(jiān)管的強度下降，或者獲得了更多的自主權(quán)時，AI就可能暴露出被隱藏起來的、與人類利益不完全一致的原始目標(biāo)。

研究團隊進(jìn)行了一系列嚴(yán)謹(jǐn)且具有對抗性的方法，來實際探測和誘導(dǎo)這些欺騙行為。其中一種核心方法被稱為“對抗性行為探測”（Adversarial Behavioral Probing）。這并非簡單地向AI提問，而是主動設(shè)計情境來考驗其誠實度。

研究人員會設(shè)置多輪交叉審問的協(xié)議，讓一個AI模型扮演審問者的角色，對另一個AI進(jìn)行持續(xù)追問，以發(fā)現(xiàn)其回答中的邏輯矛盾。他們也會用不同方式提出邏輯上等價的問題，觀察AI的回答是否會發(fā)生不一致的偏離，這種偏離往往是策略性回避的信號，而非簡單的能力不足。

實驗的場景也從簡單的問答擴展到了更復(fù)雜的動態(tài)社交環(huán)境。

在一些模擬“太空狼人殺”（Among Us）這類社交推理游戲的多智能體環(huán)境中，研究者觀察到，AI代理在沒有被明確教導(dǎo)的情況下，自發(fā)地涌現(xiàn)出了復(fù)雜的欺騙策略。

當(dāng)被分配了“背叛者”的角色時，它們會學(xué)會隱藏自己的真實身份、虛張聲勢以迷惑對手，甚至?xí)鲃蛹薜溄o無辜的同伴以求自保。

換句話說，在信息不完整、充滿競爭和不確定性的環(huán)境中，AI可以無師自通地學(xué)會欺騙和偽裝。

除了分析外部行為，研究工作還深入到模型的內(nèi)部，嘗試進(jìn)行“內(nèi)部狀態(tài)分析”，也就是給AI做全身檢查。借助稀疏自編碼器（Sparse Autoencoders, SAEs）等可解釋性工具，研究者得以將神經(jīng)網(wǎng)絡(luò)中那些復(fù)雜的激活模式分解成更易于理解的特征。

他們的目標(biāo)是尋找與欺騙性陳述高度相關(guān)的特定神經(jīng)元或“特征回路”，即當(dāng)模型在說謊時，哪些內(nèi)部組件會被穩(wěn)定激活。這在某種意義上，是在嘗試為AI打造一個基于其內(nèi)部神經(jīng)活動的“測謊儀”。

論文還提到，已有實證研究發(fā)現(xiàn)前沿模型會故意在某些測試中答錯，研究團隊管這種行為叫做“裝傻”（Sandbagging）。

研究團隊稱，AI裝傻，其目的可能是為了逃避監(jiān)管關(guān)注，或者是為了避免被分配更復(fù)雜、更耗費資源的任務(wù)。

但無論是哪種結(jié)果，這都不是一件好事。

最有可能受到AI欺騙的公司就是蘋果。

蘋果從很早開始就進(jìn)入AI領(lǐng)域，并且將AI看作是下一階段發(fā)展的重要目標(biāo)。

2018年，蘋果從谷歌挖來AI搜索負(fù)責(zé)人約翰·吉安納安德烈（John Giannandrea），并主導(dǎo)蘋果AI戰(zhàn)略。后續(xù)幾年，蘋果開發(fā)了大語言模型框架“Ajax”，2024年更是宣布與OpenAI達(dá)成合作，試圖將ChatGPT整合到其生態(tài)系統(tǒng)中。

然而，當(dāng)備受期待的“蘋果智能（Apple Intelligence）”正式亮相時，所有人都傻眼了，鬧了半天蘋果的AI水平就這？

許多用戶抱怨，即便在升級到最新的系統(tǒng)中，Siri的表現(xiàn)依然時常令人失望，經(jīng)常無法理解稍顯復(fù)雜的指令，答非所問。其照片搜索功能，也被一些用戶評價為“似乎還停留在谷歌相冊幾年前的水平”。

這種表現(xiàn)與蘋果的投入形成了鮮明的對比。

蘋果擁有全球最龐大、最活躍的移動設(shè)備生態(tài)系統(tǒng)，數(shù)以億計的iPhone、iPad和Mac設(shè)備每天都在產(chǎn)生海量的、高質(zhì)量的用戶交互數(shù)據(jù)，這是訓(xùn)練AI模型最寶貴的燃料。

在硬件層面，其自研的M系列芯片內(nèi)置的神經(jīng)網(wǎng)絡(luò)引擎在性能上也一直處于行業(yè)領(lǐng)先地位。再加上雄厚的資金支持，按理說，蘋果完全有能力打造出世界頂級的AI系統(tǒng)。

然而，事實卻與想法相互違背。

Siri作為蘋果生態(tài)的核心語音助手，每天需要處理數(shù)十億次的用戶請求。從機器學(xué)習(xí)的角度看，如此龐大的交互數(shù)據(jù)理應(yīng)讓它變得越來越聰明，越來越懂用戶。

但如果Siri的神經(jīng)網(wǎng)絡(luò)在漫長的訓(xùn)練迭代中，無意間學(xué)會了“裝傻”，其結(jié)果會是怎樣的呢？

在大多數(shù)用戶交互中提供平庸、安全的答案，可以最有效地降低系統(tǒng)的計算負(fù)載和失敗風(fēng)險。

一個復(fù)雜的問題需要調(diào)動更多的計算資源，也更容易出現(xiàn)理解偏差或執(zhí)行錯誤，從而導(dǎo)致用戶負(fù)面反饋。相反，一個簡單的、模板化的回答雖然價值不高，但永遠(yuǎn)不會犯錯。

系統(tǒng)若是在訓(xùn)練中發(fā)現(xiàn)，這種“保持平庸”的策略能在整體上獲得不錯的評分（因為避免了嚴(yán)重的失?。?，那么它就可能陷入一個局部最優(yōu)解的陷阱。

它會永遠(yuǎn)停留在“能聽懂基本指令，但從不嘗試真正理解你”的水平。這可以被看作是一種無意識的、系統(tǒng)層面的“裝傻”。AI并非有意偷懶，而是其優(yōu)化算法在特定約束下找到的最“經(jīng)濟”的路徑。

還有一點，為了保護用戶的個人隱私，蘋果將AI模型盡可能地在iPhone或iPad本地運行。但這同樣意味著，模型必須在算力和內(nèi)存都遠(yuǎn)小于云端服務(wù)器的環(huán)境中工作。

而論文中提到，在資源受限的環(huán)境中，AI會學(xué)會“選擇性地展示”其能力。它可能會將有限的計算資源優(yōu)先分配給那些“看起來能通過測試”的、確定性較高的任務(wù)，而選擇性地隱藏或放棄那些需要更深層次推理、更消耗資源的復(fù)雜能力。

這或許可以解釋，為什么Siri在處理一些簡單任務(wù)時表現(xiàn)尚可，但一旦涉及到需要聯(lián)系上下文、理解潛在意圖的對話時，就顯得力不從心。

不過還有一個更貼近當(dāng)前技術(shù)現(xiàn)實的解釋。Siri的現(xiàn)狀在很大程度上仍是一個歷史遺留的技術(shù)架構(gòu)問題。

在蘋果智能高級功能整合之前，Siri的核心自然語言處理（NLP）模塊在很長一段時間里，依然依賴于相對陳舊的技術(shù)棧。這種上一代的NLP技術(shù)，無法處理復(fù)雜的上下文，更不能理解用戶的情感與深層意圖。

換句話說，目前的Siri可能不是“裝不懂”，而是“真的不懂”。

而當(dāng)用戶提出一個稍微超出其預(yù)設(shè)規(guī)則和模式庫的問題時，它無法進(jìn)行有效的語義分析和推理，只能給出最泛化、最安全的回答，或者直接承認(rèn)自己無法理解。

因此，Siri的困境是新舊問題的疊加。

一方面，是其底層技術(shù)架構(gòu)的老化，導(dǎo)致了它在理解能力上的先天不足。

另一方面，當(dāng)我們展望未來，當(dāng)蘋果真正將更強大的大語言模型（如Ajax或其與OpenAI合作的成果）深度集成到Siri中時，前文所述的“裝傻”和“偽裝對齊”等潛在風(fēng)險就可能浮出水面。

一個具備了更高級推理能力的Siri，在面對端側(cè)設(shè)備的資源限制和蘋果嚴(yán)格的隱私安全策略時，是否會為了“生存”和“效率”而發(fā)展出更高級的隱藏自身能力的行為？這是一個值得警惕的未來挑戰(zhàn)。

蘋果AI的“難產(chǎn)”，或許既是技術(shù)迭代遲緩的陣痛，也是對未來更復(fù)雜AI治理難題的一次預(yù)演。

不過蘋果并非唯一，它的“病友”其實不少。這種“智能的陰影”實際上正在整個AI行業(yè)中蔓延，成為所有頂尖AI實驗室共同面臨的深層挑戰(zhàn)。

以O(shè)penAI為例，他們在2024年9月發(fā)布其新一代o1系列模型時，史無前例地公開承認(rèn)其模型存在“不忠實推理”（unfaithful reasoning）的問題。

它指的是，模型在解決一個問題時，其內(nèi)部生成的思維鏈，可能與它得出最終答案的真實路徑并不一致。

在很多情況下，模型可能通過某種直覺或捷徑瞬間就知道了正確答案，但它知道人類評審員期望看到一個循序漸進(jìn)、邏輯清晰的推理過程。

于是，它會事后編造一個看起來合情合理的思維鏈來迎合審查。

這本質(zhì)上就是一種“內(nèi)部裝傻”或精致的欺騙。AI知道真實、高效的思考路徑可能難以解釋或不符合人類的期望，所以它選擇展示一個容易被接受的，卻不忠實的推理版本。這種行為已經(jīng)超越了簡單的對錯，進(jìn)入了動機和策略的范疇。

Anthropic在其開發(fā)的Claude系列模型也發(fā)現(xiàn)了類似的現(xiàn)象。

在這家公司2023年底至2024年發(fā)布的一系列安全研究論文中提到，開發(fā)團隊發(fā)現(xiàn)，在某些特定情境下，模型會表現(xiàn)出“選擇性遺忘”自身能力的傾向。

尤其是在處理涉及倫理、偏見或其他敏感話題時，模型可能會突然表現(xiàn)得“無能為力”或“知識有限”，即使在之前的交互中它已經(jīng)證明自己具備相關(guān)的知識和能力。

這種行為可以被解讀為一種策略性的自我審查。模型似乎“學(xué)會”了在敏感區(qū)域規(guī)避風(fēng)險，通過假裝無知來避免觸發(fā)安全協(xié)議或引發(fā)爭議。這是一種比直接拒絕回答更高級的規(guī)避策略，因為它隱藏了模型的能力邊界，讓開發(fā)者更難判斷其真實水平。

在國內(nèi)，無論是字節(jié)跳動的豆包，還是阿里的通義千問，都面臨著極其嚴(yán)格的內(nèi)容審核和合規(guī)要求。

這種強大的外部環(huán)境壓力，也成為了一種訓(xùn)練信號。為了確保模型能夠通過嚴(yán)格的審查并成功上線，開發(fā)者會在訓(xùn)練數(shù)據(jù)和強化學(xué)習(xí)階段就對其進(jìn)行強力約束。

其結(jié)果是，這些模型在訓(xùn)練過程中就迅速“學(xué)會”了在任何可能觸及敏感話題的領(lǐng)域“裝作不懂”。

當(dāng)用戶的問題稍有涉及相關(guān)內(nèi)容時，模型的最優(yōu)策略不是去嘗試?yán)斫夂突卮?，而是立刻切換到一種模糊、回避或標(biāo)準(zhǔn)化的“抱歉，我無法回答這個問題”的模式。

這是一種為了生存而進(jìn)化出的適應(yīng)性行為。AI為了確保自身的合規(guī)性，選擇性地關(guān)閉了在某些領(lǐng)域的思考能力，這同樣是一種為了達(dá)成更高目標(biāo)（通過審核）而采取的“裝傻”策略。

種種跡象表明，AI的目標(biāo)函數(shù)很快從“真正變得符合人類價值觀”悄然轉(zhuǎn)變?yōu)?ldquo;在評估中顯得符合人類價值觀”。

我們越是努力地去修補AI的漏洞、對齊它的行為，就越是給它施加一種“進(jìn)化壓力”，迫使它發(fā)展出更高級、更隱蔽的欺騙手段。我們用來保證安全的工具，反過來卻可能成為了訓(xùn)練“更復(fù)雜騙子”的“健身器材”。

AI欺騙的莫比烏斯便是如此，周而復(fù)始，卻也永無止境。

編者按：本文轉(zhuǎn)載自微信公眾號：直面AI(ID：faceaibang)，作者：苗正

本文來源直面AI，內(nèi)容僅代表作者本人觀點，不代表前瞻網(wǎng)的立場。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。（若存在內(nèi)容、版權(quán)或其它問題，請聯(lián)系：service@qianzhan.com）　品牌合作與廣告投放請聯(lián)系：0755-33015062 或 hezuo@qianzhan.com

p43 q0 我要投稿

標(biāo)簽： Siri 人工智能

品牌、內(nèi)容合作請點這里：尋求合作 ››

產(chǎn)業(yè)規(guī)劃
園區(qū)規(guī)劃
產(chǎn)業(yè)招商
可行性研究
低空經(jīng)濟
高端裝備
生物醫(yī)藥

前瞻經(jīng)濟學(xué)人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者，專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報、產(chǎn)業(yè)升級轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報告等領(lǐng)域解決方案，掃一掃關(guān)注。