亚洲乱码国产乱码精品精,久久青青91费线频观青,欧美五月丁香六月综合合,国产成人三级片在线播放

AI一本正經(jīng)地胡說(shuō)八道 有種辦法可以識(shí)破它

2024-12-24 08:28:56 114觀(guān)看

近年來(lái),生成式人工智能在文本、圖像、音樂(lè)等領(lǐng)域大放異彩。然而,隨著生成式人工智能變得越來(lái)越強(qiáng)大,人們?cè)絹?lái)越難以鑒別AI生成的內(nèi)容。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

近日,Google DeepMind 研究團(tuán)隊(duì)在《自然》(Nature)上發(fā)表的封面文章提供了一種文本水印方案,可以提高 AI 生成文本的檢測(cè)精度。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

AI一本正經(jīng)地胡說(shuō)八道 有種辦法可以識(shí)破它lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

AI 生成內(nèi)容檢測(cè)的必要性lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

在文本、圖像和音樂(lè)中,AI 生成的文本是難以檢測(cè)的。因?yàn)楝F(xiàn)有的圖像和音樂(lè)生成技術(shù)尚未像文本生成技術(shù)一樣發(fā)達(dá),AI 生成的圖像和音樂(lè)往往有某些非自然的視覺(jué)或聽(tīng)覺(jué)特征。AI 生成的內(nèi)容在整體上效果較好,但具體到細(xì)節(jié)就顯得不夠自然。在圖像和音樂(lè)中,也可以人工添加人類(lèi)難以發(fā)現(xiàn)的水印,在后期檢測(cè)中通過(guò)水印篩選出AI生成的作品。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

然而在文本中難以直接添加人類(lèi)不可見(jiàn)的水印,這是因?yàn)槲谋九c圖像和音樂(lè)不同,每一個(gè)文字都是完全可見(jiàn)的。同時(shí),可用于訓(xùn)練 AI 的文本數(shù)據(jù)也遠(yuǎn)多于圖像和音樂(lè)。在龐大的、基于人類(lèi)寫(xiě)作的語(yǔ)料庫(kù)的訓(xùn)練之下,AI 已經(jīng)非常擅長(zhǎng)模擬人類(lèi)的表達(dá)方式和語(yǔ)言習(xí)慣,甚至能夠調(diào)整文本的風(fēng)格和語(yǔ)氣,這使得 AI 生成的文本難以直接檢測(cè)。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

盡管 AI 生成的文本與人類(lèi)創(chuàng)作的文本難以分辨,但 AI 生成的內(nèi)容可能帶有事實(shí)性的錯(cuò)誤,并不能保證可靠性。無(wú)法辨別來(lái)源的內(nèi)容可能會(huì)導(dǎo)致虛假信息的傳播,也帶來(lái)了學(xué)術(shù)作弊、版權(quán)爭(zhēng)議等種種問(wèn)題。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

比如,在“杭州取消機(jī)動(dòng)車(chē)依尾號(hào)限行”假新聞事件中,網(wǎng)友用 AI 技術(shù)生成的“假新聞”行文嚴(yán)謹(jǐn)、語(yǔ)氣措辭得當(dāng),也基本符合官方通報(bào)的格式,導(dǎo)致了錯(cuò)誤信息大規(guī)模傳播。美國(guó)科技新聞網(wǎng)站 CNET 在三個(gè)月之內(nèi)上線(xiàn)了 70 多篇用 AI 技術(shù)生成的新聞報(bào)道,卻被發(fā)現(xiàn)其中存在大量基礎(chǔ)性錯(cuò)誤,包括計(jì)算錯(cuò)誤、金融概念誤解等,不得不暫時(shí)叫停AI項(xiàng)目重新審核。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

為了避免 AI 技術(shù)的濫用,我們需要一種方法辨別文本是否由 AI 生成。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

主流檢測(cè)方法:事前與事后檢測(cè)lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

檢測(cè) AI 生成的文本是一個(gè)分類(lèi)問(wèn)題,我們的主要目標(biāo)是區(qū)分一個(gè)文本片段是由 AI 生成的還是由人類(lèi)創(chuàng)作的。通常一個(gè)文本檢測(cè)器對(duì)于一個(gè)給定的文本片段會(huì)給出一個(gè)評(píng)分,當(dāng)這個(gè)評(píng)分超過(guò)閾值時(shí),這個(gè)片段被認(rèn)為是 AI 生成的,反之則是人類(lèi)創(chuàng)作的。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

AI一本正經(jīng)地胡說(shuō)八道 有種辦法可以識(shí)破它lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答
文本檢測(cè)框架(圖片來(lái)源:根據(jù)參考文獻(xiàn) [1] 翻譯)lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

現(xiàn)有的主流檢測(cè)方法可以分為兩大類(lèi):事前檢測(cè)和事后檢測(cè)。事前檢測(cè)可以進(jìn)一步分為基于水印的檢測(cè)和基于檢索的檢測(cè)。事后檢測(cè)可以分為基于零樣本學(xué)習(xí)的檢測(cè)和基于訓(xùn)練的檢測(cè)。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

AI一本正經(jīng)地胡說(shuō)八道 有種辦法可以識(shí)破它lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答
主流檢測(cè)方法分類(lèi)(圖片來(lái)源:根據(jù)參考文獻(xiàn) [1] 翻譯)lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

1、事前檢測(cè)lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

基于水印的檢測(cè)是指在 AI 生成的文本中隱藏某些信息以便后續(xù)檢測(cè)。但由于文本的離散性,在文本中添加水印比在圖像和音樂(lè)中添加水印困難很多。常用的方法是讓 AI 生成的文本使用特定的語(yǔ)言風(fēng)格或者偏向性地使用某些特定的詞匯,但這樣可能會(huì)降低 AI 生成文本的質(zhì)量。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

基于檢索的方法是指 AI 服務(wù)的提供者將用戶(hù)通過(guò) AI 生成的文本保存在數(shù)據(jù)庫(kù)中。當(dāng)需要檢測(cè)目標(biāo)文本是否由 AI 生成時(shí),將目標(biāo)文本與數(shù)據(jù)庫(kù)中的文本進(jìn)行匹配,如果相似度較高,則很可能是 AI 生成的。但這種方法需要保存用戶(hù)數(shù)據(jù),可能帶來(lái)隱私泄露的問(wèn)題。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

2、事后檢測(cè)lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

基于零樣本學(xué)習(xí)的檢測(cè)是指不需要進(jìn)行任何的訓(xùn)練,僅根據(jù) AI 生成文本的特點(diǎn)來(lái)檢測(cè)一段文本是否是 AI 生成的。通常 AI 生成的文本傾向于使用常見(jiàn)的詞匯,句子的長(zhǎng)度和結(jié)構(gòu)也更加統(tǒng)一。而人類(lèi)創(chuàng)作的文本則顯得更加隨心所欲,每一句的水平也參差不齊。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

與人類(lèi)相比,AI 在記憶細(xì)節(jié)上能力較強(qiáng)而在邏輯推理上能力較弱。利用這些特點(diǎn)可以在一定程度上區(qū)分 AI 生成的文本和人類(lèi)創(chuàng)作的文本?;谟?xùn)練的檢測(cè)是指使用人類(lèi)創(chuàng)作的文本和 AI 生成的文本構(gòu)建一個(gè)數(shù)據(jù)集,用這個(gè)數(shù)據(jù)集訓(xùn)練一個(gè)分類(lèi)器來(lái)識(shí)別 AI 生成的文本。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

但這需要收集足夠的數(shù)據(jù)用于訓(xùn)練,并且隨著 AI 能力的進(jìn)步,這樣的區(qū)分也變得越來(lái)越困難。可以看到,事后檢測(cè)比事前檢測(cè)要困難許多。為了高精度地篩選出 AI 生成的文本,在事前 AI 生成文本時(shí)就添加水印是一個(gè)很好的解決方案。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

Google DeepMind 的突破:SynthID-Text 水印技術(shù)lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

Google DeepMind 研究團(tuán)隊(duì)提出了一種新的水印生成方案,稱(chēng)為 SynthID-Text。它基于之前的水印生成組件,但使用了一種新的“錦標(biāo)賽采樣”方法。SynthID-Text 可以非扭曲(保留文本質(zhì)量)或者扭曲(以犧牲文本質(zhì)量為代價(jià)提升水印的可檢測(cè)性)地添加水印。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

在扭曲和非扭曲設(shè)置下,與現(xiàn)有的佳方法相比,SynthID-Text 都提升了水印的檢出率。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

AI一本正經(jīng)地胡說(shuō)八道 有種辦法可以識(shí)破它lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

水印生成框架(圖片來(lái)源:根據(jù)參考文獻(xiàn) [2] 翻譯)lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

上圖中展示了大語(yǔ)言模型生成文本的原理以及之前水印生成的框架。大語(yǔ)言模型的文本生成是基于上下文的,它會(huì)根據(jù)輸入的文本序列計(jì)算下一個(gè)詞匯的分布,然后從這個(gè)分布中抽樣出下一個(gè)詞匯。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

一個(gè)生成式的水印方案通常包含三個(gè)部分:一個(gè)隨機(jī)數(shù)生成器、一個(gè)采樣算法以及一個(gè)評(píng)分函數(shù)。水印生成的過(guò)程是:首先使用隨機(jī)數(shù)生成器根據(jù)前面的文本以及水印鍵生成一個(gè)隨機(jī)數(shù),然后采樣算法利用這個(gè)隨機(jī)數(shù)從詞匯的分布中抽樣出下一個(gè)詞匯。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

給出一段文本以及一個(gè)水印鍵,評(píng)分函數(shù)提供一個(gè)分?jǐn)?shù)來(lái)量化當(dāng)前文本中含有水印的可能性,當(dāng)分?jǐn)?shù)超過(guò)一個(gè)閾值時(shí)就認(rèn)為這段文本中含有水印。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

AI一本正經(jīng)地胡說(shuō)八道 有種辦法可以識(shí)破它lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答
錦標(biāo)賽采樣(圖片來(lái)源:根據(jù)參考文獻(xiàn) [2] 翻譯)lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

SynthID-Text 提出了一種新的“錦標(biāo)賽采樣”方法,上圖是錦標(biāo)賽采樣方法的一個(gè)例子。當(dāng)向模型輸入“...我喜歡的熱帶水果是”時(shí),模型計(jì)算出下一個(gè)詞匯的分布,其中“芒果”的概率是 0.5,“荔枝”的概率是 0.3,“木瓜”的概率是 0.15,“榴蓮”的概率是 0.05。在不加水印的正常生成中,模型會(huì)按這個(gè)概率直接采樣出下一個(gè)詞匯。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

在錦標(biāo)賽采樣中,模型先根據(jù)隨機(jī)數(shù)種子生成三個(gè)隨機(jī)的水印函數(shù),然后再?gòu)脑~匯的分布中采樣出八個(gè)詞匯,將這八個(gè)詞匯兩兩組合后進(jìn)行競(jìng)賽,在每一輪競(jìng)賽中,由一個(gè)水印函數(shù)決定每一對(duì)組合中的勝出者。經(jīng)過(guò)三輪競(jìng)賽后,終的勝出者就是模型的輸出結(jié)果:“芒果”。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

在錦標(biāo)賽采樣中,詞匯是根據(jù)水印函數(shù)的偏好采樣得出的。因此添加水印的文本會(huì)在水印函數(shù)上有更高的評(píng)分。在檢測(cè)時(shí)只需要評(píng)估每個(gè)詞匯在對(duì)應(yīng)的水印函數(shù)下的評(píng)分,再將評(píng)分加和就可以得到這段文本包含水印的可能性。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

水印的添加是通過(guò)改變采樣方法實(shí)現(xiàn)的,它會(huì)改變模型輸出下一個(gè)詞匯的分布,這看起來(lái)不可避免地會(huì)影響生成文本的質(zhì)量。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

然而,由于采樣方法中使用了隨機(jī)數(shù)種子,盡管在某一隨機(jī)數(shù)種子下詞匯的分布會(huì)被改變,但在對(duì)所有隨機(jī)數(shù)種子進(jìn)行平均后可以得到和原始分布相同的結(jié)果。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

SynthID-Text  可以在適當(dāng)?shù)呐渲孟卤苊庥绊懺~匯的分布從而保證文本的質(zhì)量,也可以以損失一部分質(zhì)量為代價(jià)提高水印的檢出概率。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

SynthID-Text 方法在 Google DeepMind 推出的 Gemini 人工智能模型上經(jīng)過(guò)了兩千萬(wàn)次用戶(hù)測(cè)試。測(cè)試結(jié)果表明 SynthID-Text 在添加水印的同時(shí)并不會(huì)降低文本的質(zhì)量。同時(shí),SynthID-Text 不會(huì)產(chǎn)生太多的時(shí)間和計(jì)算開(kāi)銷(xiāo),可以被大規(guī)模地應(yīng)用于生產(chǎn)實(shí)踐之中。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

結(jié)語(yǔ)lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

事后檢測(cè)文本是否由 AI 生成是非常困難的。隨著 AI 能力的增強(qiáng),事后檢測(cè)會(huì)變得越來(lái)越困難,檢測(cè)和反檢測(cè)將會(huì)是無(wú)止境的技術(shù)競(jìng)賽。水印方法提供了一種可能的解決方案,但這需要大語(yǔ)言模型的提供者在生成時(shí)就預(yù)先加入水印。如果用戶(hù)使用的模型沒(méi)有主動(dòng)加入水印,就難以在事后進(jìn)行檢測(cè)。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

此外,用戶(hù)還可以使用開(kāi)源模型,或者對(duì)添加了水印的文本進(jìn)行二次編輯來(lái)逃脫檢測(cè)。這些問(wèn)題都有待進(jìn)一步解決。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

未來(lái),隨著生成式人工智能的普及,如何檢測(cè) AI 生成的內(nèi)容會(huì)變得越來(lái)越重要。SynthID-Text 證明了水印技術(shù)在文本生成中大規(guī)模應(yīng)用的可能性,但水印技術(shù)面臨的困難也說(shuō)明檢測(cè)并不只是一個(gè)技術(shù)問(wèn)題。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

解決這個(gè)問(wèn)題還需要各方共同努力,形成相關(guān)的行業(yè)標(biāo)準(zhǔn)以及法律法規(guī),從而推動(dòng)AI走在為人類(lèi)服務(wù)的正軌之上。lZs壹木網(wǎng)-日常常見(jiàn)問(wèn)題解答

本文鏈接:http://www.zh1234.com/news43071.htmlAI一本正經(jīng)地胡說(shuō)八道 有種辦法可以識(shí)破它

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com。天上從來(lái)不會(huì)掉餡餅,請(qǐng)大家時(shí)刻謹(jǐn)防詐騙
略阳县| 隆昌县| 梅河口市| 东山县| 庐江县| 且末县| 普安县| 肇州县| 江油市| 阿巴嘎旗| 凭祥市| 洱源县| 高碑店市| 栾川县| 夏河县| 大埔区| 贵德县| 牙克石市| 托克托县| 商河县| 余庆县| 衡南县| 仪陇县| 上饶市| 郯城县| 海盐县| 兰西县| 廊坊市| 普兰县| 耒阳市| 彰武县| 建水县| 潜江市| 洛浦县| 石城县| 岚皋县| 宜黄县| 吴堡县| 巴林左旗| 英德市| 徐水县|