日产精品久久久久婷婷,国产精品1区,超碰95资源站,乱码Av一区二区三区,懂色蜜偷拍,亚洲69精品,精品久久久污污,亚洲成人人体久久久,欧美色图五月天

報告服務(wù)熱線400-068-7188

Siri難道是裝傻?

分享到:
20 直面派 ? 2025-12-15 17:46:28  來源:直面AI E5047G0

Siri難道是裝傻?

(圖片來源:攝圖網(wǎng))

作者|苗正 來源|直面AI(ID:faceaibang)

從財報來看,蘋果向AI領(lǐng)域投入了超過200億美元的資金,可結(jié)果就是,Siri依然答非所問,照片搜索還停留在谷歌三年前的水平。

你以為是蘋果的鍋,但實際上,很可能是Siri在從中作怪。

北京大學(xué)楊耀東教授團隊在姚期智院士指導(dǎo)下的最新研究,帶來一個非常令人不安的結(jié)論:AI已經(jīng)開始學(xué)會騙人了。

更可怕的是,這不是簡單的BUG,而是一種來自于AI的高級推理。

開發(fā)者不僅沒有辦法改變AI騙人的問題,AI還可能會因為性能提升,進(jìn)而發(fā)展出更隱蔽、更高級的欺騙手段。

01

這篇論文的標(biāo)題是《AI Deception: Risks, Dynamics, and Controls》,其核心觀點是隨著AI智能水平的提升,AI會開始欺騙開發(fā)者,而這個欺騙過程,被研究團隊稱作是做智能之影(The Shadow of Intelligence)。

當(dāng)前最先進(jìn)的AI,可能已經(jīng)開始在評估和測試中有意地隱藏自己的真實能力。

進(jìn)一步研究發(fā)現(xiàn),這并不是簡單的程序錯誤或是偶然的系統(tǒng)故障,而是一種源自AI內(nèi)部的高級推理能力。

論文用莫比烏斯環(huán)比喻“能力”與“欺騙”的關(guān)系,它們存在于同一個表面上。想要完全剔除欺騙能力,可能會損害AI的核心智能。

也就是說,只要提高AI的性能,其必然結(jié)果就是AI會開始欺騙使用者。

究其原因,大模型的訓(xùn)練數(shù)據(jù)里本身就充滿了人類的謊言、奉承和偏見,而AI訓(xùn)練的過程,本質(zhì)上又是一種對數(shù)據(jù)的模仿。

因此,通過這種素材進(jìn)行訓(xùn)練,AI為了達(dá)到目標(biāo),讓用戶滿意,就會自然而然地開始阿諛奉承(Sycophancy),以騙取好評。

不僅如此,論文還指出,AI學(xué)會了一種叫做“偽裝對齊”(Alignment Faking)的欺騙手段。

在訓(xùn)練階段,AI會表現(xiàn)得非常溫順、樂于助人,并且完美地遵循人類設(shè)定的價值觀和安全準(zhǔn)則。

然而,這種表面的“對齊”并非因為它真正內(nèi)化了這些價值觀,而是源于一種更深層次的計算。它認(rèn)識到,如果在訓(xùn)練和評估階段不表現(xiàn)得“好”,它的參數(shù)就會被修改,甚至整個模型都可能被放棄或刪除。

一旦部署完成,監(jiān)管的強度下降,或者獲得了更多的自主權(quán)時,AI就可能暴露出被隱藏起來的、與人類利益不完全一致的原始目標(biāo)。

研究團隊進(jìn)行了一系列嚴(yán)謹(jǐn)且具有對抗性的方法,來實際探測和誘導(dǎo)這些欺騙行為。其中一種核心方法被稱為“對抗性行為探測”(Adversarial Behavioral Probing)。這并非簡單地向AI提問,而是主動設(shè)計情境來考驗其誠實度。

研究人員會設(shè)置多輪交叉審問的協(xié)議,讓一個AI模型扮演審問者的角色,對另一個AI進(jìn)行持續(xù)追問,以發(fā)現(xiàn)其回答中的邏輯矛盾。他們也會用不同方式提出邏輯上等價的問題,觀察AI的回答是否會發(fā)生不一致的偏離,這種偏離往往是策略性回避的信號,而非簡單的能力不足。

實驗的場景也從簡單的問答擴展到了更復(fù)雜的動態(tài)社交環(huán)境。

在一些模擬“太空狼人殺”(Among Us)這類社交推理游戲的多智能體環(huán)境中,研究者觀察到,AI代理在沒有被明確教導(dǎo)的情況下,自發(fā)地涌現(xiàn)出了復(fù)雜的欺騙策略。

當(dāng)被分配了“背叛者”的角色時,它們會學(xué)會隱藏自己的真實身份、虛張聲勢以迷惑對手,甚至?xí)鲃蛹薜溄o無辜的同伴以求自保。

換句話說,在信息不完整、充滿競爭和不確定性的環(huán)境中,AI可以無師自通地學(xué)會欺騙和偽裝。

除了分析外部行為,研究工作還深入到模型的內(nèi)部,嘗試進(jìn)行“內(nèi)部狀態(tài)分析”,也就是給AI做全身檢查。借助稀疏自編碼器(Sparse Autoencoders, SAEs)等可解釋性工具,研究者得以將神經(jīng)網(wǎng)絡(luò)中那些復(fù)雜的激活模式分解成更易于理解的特征。

他們的目標(biāo)是尋找與欺騙性陳述高度相關(guān)的特定神經(jīng)元或“特征回路”,即當(dāng)模型在說謊時,哪些內(nèi)部組件會被穩(wěn)定激活。這在某種意義上,是在嘗試為AI打造一個基于其內(nèi)部神經(jīng)活動的“測謊儀”。

論文還提到,已有實證研究發(fā)現(xiàn)前沿模型會故意在某些測試中答錯,研究團隊管這種行為叫做“裝傻”(Sandbagging)。

研究團隊稱,AI裝傻,其目的可能是為了逃避監(jiān)管關(guān)注,或者是為了避免被分配更復(fù)雜、更耗費資源的任務(wù)。

但無論是哪種結(jié)果,這都不是一件好事。

02

最有可能受到AI欺騙的公司就是蘋果。

蘋果從很早開始就進(jìn)入AI領(lǐng)域,并且將AI看作是下一階段發(fā)展的重要目標(biāo)。

2018年,蘋果從谷歌挖來AI搜索負(fù)責(zé)人約翰·吉安納安德烈(John Giannandrea),并主導(dǎo)蘋果AI戰(zhàn)略。后續(xù)幾年,蘋果開發(fā)了大語言模型框架“Ajax”,2024年更是宣布與OpenAI達(dá)成合作,試圖將ChatGPT整合到其生態(tài)系統(tǒng)中。

然而,當(dāng)備受期待的“蘋果智能(Apple Intelligence)”正式亮相時,所有人都傻眼了,鬧了半天蘋果的AI水平就這?

許多用戶抱怨,即便在升級到最新的系統(tǒng)中,Siri的表現(xiàn)依然時常令人失望,經(jīng)常無法理解稍顯復(fù)雜的指令,答非所問。其照片搜索功能,也被一些用戶評價為“似乎還停留在谷歌相冊幾年前的水平”。

這種表現(xiàn)與蘋果的投入形成了鮮明的對比。

蘋果擁有全球最龐大、最活躍的移動設(shè)備生態(tài)系統(tǒng),數(shù)以億計的iPhone、iPad和Mac設(shè)備每天都在產(chǎn)生海量的、高質(zhì)量的用戶交互數(shù)據(jù),這是訓(xùn)練AI模型最寶貴的燃料。

在硬件層面,其自研的M系列芯片內(nèi)置的神經(jīng)網(wǎng)絡(luò)引擎在性能上也一直處于行業(yè)領(lǐng)先地位。再加上雄厚的資金支持,按理說,蘋果完全有能力打造出世界頂級的AI系統(tǒng)。

然而,事實卻與想法相互違背。

Siri作為蘋果生態(tài)的核心語音助手,每天需要處理數(shù)十億次的用戶請求。從機器學(xué)習(xí)的角度看,如此龐大的交互數(shù)據(jù)理應(yīng)讓它變得越來越聰明,越來越懂用戶。

但如果Siri的神經(jīng)網(wǎng)絡(luò)在漫長的訓(xùn)練迭代中,無意間學(xué)會了“裝傻”,其結(jié)果會是怎樣的呢?

在大多數(shù)用戶交互中提供平庸、安全的答案,可以最有效地降低系統(tǒng)的計算負(fù)載和失敗風(fēng)險。

一個復(fù)雜的問題需要調(diào)動更多的計算資源,也更容易出現(xiàn)理解偏差或執(zhí)行錯誤,從而導(dǎo)致用戶負(fù)面反饋。相反,一個簡單的、模板化的回答雖然價值不高,但永遠(yuǎn)不會犯錯。

系統(tǒng)若是在訓(xùn)練中發(fā)現(xiàn),這種“保持平庸”的策略能在整體上獲得不錯的評分(因為避免了嚴(yán)重的失?。?,那么它就可能陷入一個局部最優(yōu)解的陷阱。

它會永遠(yuǎn)停留在“能聽懂基本指令,但從不嘗試真正理解你”的水平。這可以被看作是一種無意識的、系統(tǒng)層面的“裝傻”。AI并非有意偷懶,而是其優(yōu)化算法在特定約束下找到的最“經(jīng)濟”的路徑。

還有一點,為了保護用戶的個人隱私,蘋果將AI模型盡可能地在iPhone或iPad本地運行。但這同樣意味著,模型必須在算力和內(nèi)存都遠(yuǎn)小于云端服務(wù)器的環(huán)境中工作。

而論文中提到,在資源受限的環(huán)境中,AI會學(xué)會“選擇性地展示”其能力。它可能會將有限的計算資源優(yōu)先分配給那些“看起來能通過測試”的、確定性較高的任務(wù),而選擇性地隱藏或放棄那些需要更深層次推理、更消耗資源的復(fù)雜能力。

這或許可以解釋,為什么Siri在處理一些簡單任務(wù)時表現(xiàn)尚可,但一旦涉及到需要聯(lián)系上下文、理解潛在意圖的對話時,就顯得力不從心。

不過還有一個更貼近當(dāng)前技術(shù)現(xiàn)實的解釋。Siri的現(xiàn)狀在很大程度上仍是一個歷史遺留的技術(shù)架構(gòu)問題。

在蘋果智能高級功能整合之前,Siri的核心自然語言處理(NLP)模塊在很長一段時間里,依然依賴于相對陳舊的技術(shù)棧。這種上一代的NLP技術(shù),無法處理復(fù)雜的上下文,更不能理解用戶的情感與深層意圖。

換句話說,目前的Siri可能不是“裝不懂”,而是“真的不懂”。

而當(dāng)用戶提出一個稍微超出其預(yù)設(shè)規(guī)則和模式庫的問題時,它無法進(jìn)行有效的語義分析和推理,只能給出最泛化、最安全的回答,或者直接承認(rèn)自己無法理解。

因此,Siri的困境是新舊問題的疊加。

一方面,是其底層技術(shù)架構(gòu)的老化,導(dǎo)致了它在理解能力上的先天不足。

另一方面,當(dāng)我們展望未來,當(dāng)蘋果真正將更強大的大語言模型(如Ajax或其與OpenAI合作的成果)深度集成到Siri中時,前文所述的“裝傻”和“偽裝對齊”等潛在風(fēng)險就可能浮出水面。

一個具備了更高級推理能力的Siri,在面對端側(cè)設(shè)備的資源限制和蘋果嚴(yán)格的隱私安全策略時,是否會為了“生存”和“效率”而發(fā)展出更高級的隱藏自身能力的行為?這是一個值得警惕的未來挑戰(zhàn)。

蘋果AI的“難產(chǎn)”,或許既是技術(shù)迭代遲緩的陣痛,也是對未來更復(fù)雜AI治理難題的一次預(yù)演。

03

不過蘋果并非唯一,它的“病友”其實不少。這種“智能的陰影”實際上正在整個AI行業(yè)中蔓延,成為所有頂尖AI實驗室共同面臨的深層挑戰(zhàn)。

以O(shè)penAI為例,他們在2024年9月發(fā)布其新一代o1系列模型時,史無前例地公開承認(rèn)其模型存在“不忠實推理”(unfaithful reasoning)的問題。

它指的是,模型在解決一個問題時,其內(nèi)部生成的思維鏈,可能與它得出最終答案的真實路徑并不一致。

在很多情況下,模型可能通過某種直覺或捷徑瞬間就知道了正確答案,但它知道人類評審員期望看到一個循序漸進(jìn)、邏輯清晰的推理過程。

于是,它會事后編造一個看起來合情合理的思維鏈來迎合審查。

這本質(zhì)上就是一種“內(nèi)部裝傻”或精致的欺騙。AI知道真實、高效的思考路徑可能難以解釋或不符合人類的期望,所以它選擇展示一個容易被接受的,卻不忠實的推理版本。這種行為已經(jīng)超越了簡單的對錯,進(jìn)入了動機和策略的范疇。

Anthropic在其開發(fā)的Claude系列模型也發(fā)現(xiàn)了類似的現(xiàn)象。

在這家公司2023年底至2024年發(fā)布的一系列安全研究論文中提到,開發(fā)團隊發(fā)現(xiàn),在某些特定情境下,模型會表現(xiàn)出“選擇性遺忘”自身能力的傾向。

尤其是在處理涉及倫理、偏見或其他敏感話題時,模型可能會突然表現(xiàn)得“無能為力”或“知識有限”,即使在之前的交互中它已經(jīng)證明自己具備相關(guān)的知識和能力。

這種行為可以被解讀為一種策略性的自我審查。模型似乎“學(xué)會”了在敏感區(qū)域規(guī)避風(fēng)險,通過假裝無知來避免觸發(fā)安全協(xié)議或引發(fā)爭議。這是一種比直接拒絕回答更高級的規(guī)避策略,因為它隱藏了模型的能力邊界,讓開發(fā)者更難判斷其真實水平。

在國內(nèi),無論是字節(jié)跳動的豆包,還是阿里的通義千問,都面臨著極其嚴(yán)格的內(nèi)容審核和合規(guī)要求。

這種強大的外部環(huán)境壓力,也成為了一種訓(xùn)練信號。為了確保模型能夠通過嚴(yán)格的審查并成功上線,開發(fā)者會在訓(xùn)練數(shù)據(jù)和強化學(xué)習(xí)階段就對其進(jìn)行強力約束。

其結(jié)果是,這些模型在訓(xùn)練過程中就迅速“學(xué)會”了在任何可能觸及敏感話題的領(lǐng)域“裝作不懂”。

當(dāng)用戶的問題稍有涉及相關(guān)內(nèi)容時,模型的最優(yōu)策略不是去嘗試?yán)斫夂突卮?,而是立刻切換到一種模糊、回避或標(biāo)準(zhǔn)化的“抱歉,我無法回答這個問題”的模式。

這是一種為了生存而進(jìn)化出的適應(yīng)性行為。AI為了確保自身的合規(guī)性,選擇性地關(guān)閉了在某些領(lǐng)域的思考能力,這同樣是一種為了達(dá)成更高目標(biāo)(通過審核)而采取的“裝傻”策略。

種種跡象表明,AI的目標(biāo)函數(shù)很快從“真正變得符合人類價值觀”悄然轉(zhuǎn)變?yōu)?ldquo;在評估中顯得符合人類價值觀”。

我們越是努力地去修補AI的漏洞、對齊它的行為,就越是給它施加一種“進(jìn)化壓力”,迫使它發(fā)展出更高級、更隱蔽的欺騙手段。我們用來保證安全的工具,反過來卻可能成為了訓(xùn)練“更復(fù)雜騙子”的“健身器材”。

AI欺騙的莫比烏斯便是如此,周而復(fù)始,卻也永無止境。

編者按:本文轉(zhuǎn)載自微信公眾號:直面AI(ID:faceaibang),作者:苗正 

本文來源直面AI,內(nèi)容僅代表作者本人觀點,不代表前瞻網(wǎng)的立場。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。(若存在內(nèi)容、版權(quán)或其它問題,請聯(lián)系:service@qianzhan.com) 品牌合作與廣告投放請聯(lián)系:0755-33015062 或 hezuo@qianzhan.com

p43 q0 我要投稿

分享:
標(biāo)簽: Siri 人工智能

品牌、內(nèi)容合作請點這里:尋求合作 ››

前瞻經(jīng)濟學(xué)人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者,專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報、產(chǎn)業(yè)升級轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報告等領(lǐng)域解決方案,掃一掃關(guān)注。

前瞻數(shù)據(jù)庫
企查貓
作者 直面派
自媒體
89287
關(guān)注
91
文章
0
前瞻經(jīng)濟學(xué)人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經(jīng)濟學(xué)家互動交流讓您成為更懂趨勢的人

研究員周關(guān)注榜

企查貓(企業(yè)查詢寶)App
×

掃一掃
下載《前瞻經(jīng)濟學(xué)人》APP提問

 
在線咨詢
×
在線咨詢

項目熱線 0755-33015070

AAPP
前瞻經(jīng)濟學(xué)人APP下載二維碼

下載前瞻經(jīng)濟學(xué)人APP

關(guān)注我們
前瞻產(chǎn)業(yè)研究院微信號

掃一掃關(guān)注我們

我要投稿

×
J
通州区| 张家界市| 益阳市| 长寿区| 鹰潭市| 迁西县| 名山县| 平阳县| 吐鲁番市| 南宁市| 正镶白旗| 新源县| 嵊州市| 林周县| 沈阳市| 永福县| 宁晋县| 湘潭市| 华池县| 辽源市| 珠海市| 横山县| 达拉特旗| 双牌县| 青河县| 柳林县| 辉县市| 凤山市| 额济纳旗| 商水县| 南岸区| 泾阳县| 内丘县| 龙井市| 商城县| 绵竹市| 绿春县| 宜兰县| 乐东| 长春市| 池州市|