你是不是也遇到過這樣的情況:問AI一個問題,它給了你一個特別詳細、豐富,看上去好有邏輯的答案。
但當我們?nèi)ズ藢崟r,卻發(fā)現(xiàn)這些信息完全是虛構(gòu)的?
這就是著名的“AI幻覺”現(xiàn)象。
上下滑動查看更多,圖源:河森堡新浪微博
為什么會出現(xiàn)AI幻覺呢?今天就讓我們一起來揭開這個謎題。
為什么會出現(xiàn)AI幻覺?
AI幻覺指的是AI會生成看似合理但實際確實錯誤的信息,常見的表現(xiàn)就是會編造一些不存在的事實或者細節(jié)。
就像在考試時遇到不會的題目,我們會試圖用已知的知識去推測答案一樣。
AI在遇到信息缺失或不確定的情況時,會基于自己的“經(jīng)驗”(訓(xùn)練數(shù)據(jù))進行填補和推理。
這不是因為它想要欺騙我們,而是因為它在試圖用自己理解的模式來完成這個任務(wù)。
1、基于統(tǒng)計關(guān)系的預(yù)測
因為AI(尤其是像ChatGPT這樣的語言模型)通過大量的訓(xùn)練數(shù)據(jù)學(xué)習(xí)文字之間的統(tǒng)計關(guān)系。它的核心目標是根據(jù)上下文預(yù)測可能出現(xiàn)的下一個詞,并不是對問題或內(nèi)容進行真正的理解。
所以,AI本質(zhì)上是通過概率大化來生成內(nèi)容,而不是通過邏輯推理來生成內(nèi)容的。
簡單來說,AI就像是一個博覽群書的智者,通過學(xué)習(xí)海量的文本和資料來獲取知識。但是它并不是真正理解這些知識,而是通過找到文字之間的統(tǒng)計關(guān)系和模式來“預(yù)測”下一個合適的詞。
換言之,AI是根據(jù)之前學(xué)到的大量例子,來猜測接下來有可能出現(xiàn)的詞。
不過有時候,模型也會“猜錯”。如果前面出現(xiàn)一點偏差,后面的內(nèi)容就會像滾雪球一樣越滾越大。
這就是為什么AI有時會從一個小錯誤開始,后編織出一個完全虛構(gòu)的故事。
2、訓(xùn)練數(shù)據(jù)的局限性
由于AI并沒有真實世界的體驗,它的所有“認知”都來自訓(xùn)練數(shù)據(jù)。
可是訓(xùn)練數(shù)據(jù)不可能包含世界上所有的信息,有時候甚至還會包含錯誤信息。這就像是一個人只能根據(jù)自己讀過的書來回答問題。
如果書里有錯誤信息,或者某些領(lǐng)域的知識缺失,就容易產(chǎn)生錯誤的判斷。
舉個例子:早期AI幻覺較大的時候,可能會出現(xiàn)AI學(xué)過“北京是中國的首都”和“巴黎有埃菲爾鐵塔”這兩個知識點。
當我們問它“北京有什么著名建筑”時,它可能會把這些知識錯誤地混合在一起,說“北京有埃菲爾鐵塔”。
3、過擬合問題
因為大模型的訓(xùn)練參數(shù)量非常龐大,大模型會在訓(xùn)練數(shù)據(jù)上產(chǎn)生“過擬合”的問題。
也就是因為記住了太多錯誤或者無關(guān)緊要的東西,從而讓 AI對訓(xùn)練數(shù)據(jù)中的噪聲過于敏感,終導(dǎo)致幻覺產(chǎn)生。
4、有限的上下文窗口
受限于技術(shù)原因,雖然現(xiàn)在大模型的上下文窗口越來越大(比如可以處理64k或128k個tokens),但它們?nèi)匀皇窃谝粋€有限的范圍內(nèi)理解文本。
這就像是隔著一個小窗口看書,看不到整本書的內(nèi)容,容易產(chǎn)生理解偏差。
5、生成流暢回答的設(shè)計
現(xiàn)在很多大模型被設(shè)計成要給出流暢的回答,當它對某個問題不太確定時,與其說“我不知道”,它更傾向于基于已有知識編造看起來合理的答案。
上面的種種情況疊加在一起,造成了現(xiàn)在非常嚴重的AI幻覺問題。
如何才能降低AI幻覺?
AI看起來很方便,但 AI 一本正經(jīng)的“胡說八道”有時候真的讓人非常頭疼,給的信息經(jīng)常需要反復(fù)核實,有時反而不如直接上網(wǎng)搜索來得實在。
那么,如何應(yīng)對AI幻覺呢?我們總結(jié)了下面這些方法幫助大家。
1、優(yōu)化提問
想要獲得準確答案,提問方式很關(guān)鍵。與AI交流也需要明確和具體,避免模糊或開放性的問題,提問越具體、清晰,AI的回答越準確。
同時,我們在提問的時候要提供足夠多的上下文或背景信息,這樣也可以減少AI胡亂推測的可能性??偨Y(jié)成提示詞技巧就是下面四種問法:
1.設(shè)定邊界:“請嚴格限定在2022年《自然》期刊發(fā)表的研究范圍內(nèi)”;
示例:“介紹ChatGPT的發(fā)展歷程”→“請僅基于OpenAI官方2022-2023年的公開文檔,介紹ChatGPT的發(fā)展歷程”
2.標注不確定:“對于模糊信息,需要標注‘此處為推測內(nèi)容’”;
示例:“分析特斯拉2025年的市場份額”→“分析特斯拉2025年的市場份額,對于非官方數(shù)據(jù)或預(yù)測性內(nèi)容,請標注[推測內(nèi)容]”
3.步驟拆解:“第一步列舉確定的事實依據(jù),第二步展開詳細分析”;
示例:“評估人工智能對就業(yè)的影響”→“請分兩步評估AI對就業(yè)的影響:
1)先列出目前已發(fā)生的具體影響案例;
2)基于這些案例進行未來趨勢分析”。
4.明確約束:明確告訴AI要基于已有事實回答,不要進行推測。
示例:“預(yù)測2024年房地產(chǎn)市場走勢”→“請僅基于2023年的實際房地產(chǎn)數(shù)據(jù)和已出臺的相關(guān)政策進行分析,不要加入任何推測性內(nèi)容”。
2、分批輸出
因為AI內(nèi)容是根據(jù)概率來進行生成的,一次性生成的內(nèi)容越多,出現(xiàn)AI幻覺的概率就越大,我們可以主動限制它的輸出數(shù)量。
比如:如果我要寫一篇長文章,就會這么跟AI說:“咱們一段一段來寫,先把開頭寫好。等這部分滿意了,再繼續(xù)寫下一段。”
這樣不僅內(nèi)容更準確,也更容易把控生成內(nèi)容的質(zhì)量。
3、交叉驗證
想要提高AI回答的可靠性,還有一個實用的方法是采用“多模型交叉驗證”。
使用的一個AI聚合平臺:可以讓多個AI模型同時回答同一個問題。
當遇到需要嚴謹答案的問題時,就會啟動這個功能,讓不同的大模型一起參與討論,通過對比它們的答案來獲得更全面的認識。
點擊可放大,圖片來源:作者提供
再比如納米AI搜索平臺的“多模型協(xié)作”功能,它能讓不同的AI模型各司其職,形成一個高效的協(xié)作團隊。
讓擅長推理的DeepSeek-R1負責(zé)分析規(guī)劃,再由通義千問進行糾錯補充,后交給豆包AI來梳理總結(jié)。
這種“專家組”式的協(xié)作模式,不僅能提升內(nèi)容的可信度,還能帶來更加全面和深入的見解。
上下滑動查看更多,圖源:作者提供
4、RAG技術(shù)
AI是一個聰明但健忘的人,為了讓他表現(xiàn)更靠譜,我們可以給他配一個超級百科全書,他可以隨時查閱里面的內(nèi)容來回答問題。
這本“百科全書”就是RAG的核心,它讓AI在回答問題之前,先從可靠的資料中找到相關(guān)信息,再根據(jù)這些信息生成答案。
這樣一來,AI就不容易“胡說八道”了。
目前RAG技術(shù)多用在醫(yī)療、法律、金融等專業(yè)領(lǐng)域,通過構(gòu)建知識庫來提升回答的準確性。
當然實際使用中像醫(yī)療、法律、金融這樣的高風(fēng)險領(lǐng)域,AI生成的內(nèi)容還是必須要經(jīng)過專業(yè)人士的審查的。
5、巧用AI幻覺
后再說一個AI幻覺的好處。很多時候AI幻覺也是天馬行空的創(chuàng)意火花!
就像一個異想天開的藝術(shù)家,不受常規(guī)思維的束縛,能蹦出令人驚喜的點子。
看看DeepSeek就知道了,它確實比ChatGPT和Claude更容易出現(xiàn)幻覺,但是今年DeepSeek能火得如此出圈也離不開其強大的創(chuàng)造能力。
有時候與其把AI幻覺當成缺陷,不如把它看作創(chuàng)意的源泉!在寫作、藝術(shù)創(chuàng)作或頭腦風(fēng)暴時,這些“跳躍性思維”反而可能幫我們打開新世界的大門。
AI幻覺的本質(zhì)——AI在知識的迷霧中,有時會創(chuàng)造出看似真實,實則虛幻的“影子”。
但就像任何工具一樣,關(guān)鍵在于如何使用。當我們學(xué)會用正確的方式與AI對話,善用它的創(chuàng)造力,同時保持獨立思考,AI就能成為我們得力的助手,而不是一個“能言善辯的謊言家”。
畢竟,在這個AI與人類共同進步的時代,重要的不是責(zé)備AI的不完美,而是學(xué)會與之更好地協(xié)作。
本文鏈接:http://www.zh1234.com/news43801.htmlAI幻覺:它真的會一本正經(jīng)胡說八道!