亚洲乱码国产乱码精品精,久久青青91费线频观青,欧美五月丁香六月综合合,国产成人三级片在线播放

人大盧志武:只要拿到更多算力 超過Sora也不是那么難的事

2024-05-04 06:43:36 200觀看

一支人大系大模型團(tuán)隊,前后與OpenAI進(jìn)行了三次大撞車!6sr壹木網(wǎng)-日常常見問題解答

第一次是與Clip,第二次是與GPT-4V,新一次撞在了Sora上:6sr壹木網(wǎng)-日常常見問題解答

去年5月,他們聯(lián)合并聯(lián)合伯克利、港大等單位于在arXiv上發(fā)表了關(guān)于VDT的論文。6sr壹木網(wǎng)-日常常見問題解答

那時候,該團(tuán)隊就在在技術(shù)架構(gòu)上提出并采用了Diffusion Transformer。并且,VDT還在模型中引入統(tǒng)一的時空掩碼建模。6sr壹木網(wǎng)-日常常見問題解答

這個團(tuán)隊,正由中國人民大學(xué)高瓴人工智能學(xué)院教授盧志武帶隊。6sr壹木網(wǎng)-日常常見問題解答

Sora問世已經(jīng)兩個多月,現(xiàn)在這支國產(chǎn)團(tuán)隊在視頻生成領(lǐng)域的進(jìn)度怎么樣了?什么時候我們能迎來國產(chǎn)Sora的驚艷時刻?6sr壹木網(wǎng)-日常常見問題解答

在本次中國AIGC產(chǎn)業(yè)峰會上,盧志武對上述問題進(jìn)行了毫無保留的分享。6sr壹木網(wǎng)-日常常見問題解答

人大盧志武:只要拿到更多算力 超過Sora也不是那么難的事6sr壹木網(wǎng)-日常常見問題解答

為了完整體現(xiàn)盧志武的思考,在不改變原意的基礎(chǔ)上,量子位對演講內(nèi)容進(jìn)行了編輯整理,希望能給你帶來更多啟發(fā)。6sr壹木網(wǎng)-日常常見問題解答

中國AIGC產(chǎn)業(yè)峰會是由量子位主辦的行業(yè)峰會,20位產(chǎn)業(yè)代表與會討論。線下參會觀眾近千人,線上直播觀眾300萬,獲得了主流媒體的廣泛關(guān)注與報道。6sr壹木網(wǎng)-日常常見問題解答

話題要點6sr壹木網(wǎng)-日常常見問題解答

VDT使用Transformer作為基礎(chǔ)模型,能更好地捕捉長期或不規(guī)則的時間依賴性;6sr壹木網(wǎng)-日常常見問題解答

Scaling Law是視頻生成模型從基于Diffusion model轉(zhuǎn)向基于Transformer的重要原因;6sr壹木網(wǎng)-日常常見問題解答

VDT采用時空分離的注意力機制,而Sora采用時空合一的注意力機制;6sr壹木網(wǎng)-日常常見問題解答

VDT采用token concat方式,實現(xiàn)快速收斂和良好效果;6sr壹木網(wǎng)-日常常見問題解答

消融實驗發(fā)現(xiàn),模型效果與訓(xùn)練消耗的計算資源正相關(guān),計算資源越多,效果越好;6sr壹木網(wǎng)-日常常見問題解答

只要拿到更多算力,超過Sora也不是那么難的事。6sr壹木網(wǎng)-日常常見問題解答

……6sr壹木網(wǎng)-日常常見問題解答

以下為盧志武演講全文:6sr壹木網(wǎng)-日常常見問題解答

為什么做視頻生成突然要轉(zhuǎn)到用Transformer上?6sr壹木網(wǎng)-日常常見問題解答

今天的報告,我將重點介紹我們在視頻生成領(lǐng)域的工作,特別是VDT(Video Diffusion Transformer)。6sr壹木網(wǎng)-日常常見問題解答

這項工作已于去年5月發(fā)布在arXiv上,并已被機器學(xué)習(xí)頂級會議ICLR接收。接下來,我將介紹我們在這一領(lǐng)域取得的進(jìn)展。6sr壹木網(wǎng)-日常常見問題解答

眾所周知,Sora非常出色,那么它的優(yōu)勢在哪里呢?之前,所有的工作都是基于Diffusion Model,那為什么我們在視頻生成中突然轉(zhuǎn)向使用Transformer呢?6sr壹木網(wǎng)-日常常見問題解答

從Diffusion到Transformer的轉(zhuǎn)變,原因如下:6sr壹木網(wǎng)-日常常見問題解答

與基于U-net的Diffusion模型不同,Transformer具有許多優(yōu)點,如token化處理和注意力機制,這兩個特點使其能夠更好地捕捉長期或不規(guī)則的時間依賴性。因此,在視頻領(lǐng)域,許多工作開始采用Transformer作為基礎(chǔ)模型。6sr壹木網(wǎng)-日常常見問題解答

然而,這些都是表面現(xiàn)象,根本的原因是什么呢?使用Transformer進(jìn)行視頻生成,是因為其背后的scaling law發(fā)揮了作用。6sr壹木網(wǎng)-日常常見問題解答

Diffusion Model的模型參數(shù)量是有限的,而一旦將Transformer作為基礎(chǔ)模型,參數(shù)量可以隨意增加,只要有足夠的計算能力,就可以訓(xùn)練出更好的模型。實驗證明,只要增加計算量,效果就會得到提升。6sr壹木網(wǎng)-日常常見問題解答

當(dāng)然,視頻生成涉及各種任務(wù),使用Transformer能夠?qū)⑦@些任務(wù)統(tǒng)一在一個架構(gòu)下。6sr壹木網(wǎng)-日常常見問題解答

基于上面三個原因探索用Transformer當(dāng)視頻生成的底座,這是我們當(dāng)時的考慮。6sr壹木網(wǎng)-日常常見問題解答

人大盧志武:只要拿到更多算力 超過Sora也不是那么難的事6sr壹木網(wǎng)-日常常見問題解答

我們的創(chuàng)新點有兩個:6sr壹木網(wǎng)-日常常見問題解答

一是將Transformer應(yīng)用于視頻生成,并結(jié)合了Diffusion的優(yōu)點;二是在建模過程中,我們考慮了統(tǒng)一的時空掩碼建模,將時間和空間置于同等重要的位置。6sr壹木網(wǎng)-日常常見問題解答

無論是VDT還是Sora,第一步都是對視頻進(jìn)行壓縮和token化處理。6sr壹木網(wǎng)-日常常見問題解答

這與基于DM的方法大的區(qū)別在于,基于DM的方法只能進(jìn)行空間壓縮,無法進(jìn)行時間壓縮;而現(xiàn)在,我們可以同時考慮時間和空間,實現(xiàn)更高的壓縮程度。6sr壹木網(wǎng)-日常常見問題解答

具體來說,我們需要訓(xùn)練一個時空空間中的3D量化重構(gòu)器,這可以作為tokenizer,得到三維空間中的patches。6sr壹木網(wǎng)-日常常見問題解答

總之,通過這種方式,我們可以得到Transformer的輸入,輸入實際上是3D的tokens。6sr壹木網(wǎng)-日常常見問題解答

一旦我們將輸入的視頻進(jìn)行token化處理,就可以像通常的Transformer一樣,使用標(biāo)準(zhǔn)的Transformer架構(gòu)對3D的token序列進(jìn)行建模,細(xì)節(jié)我就不贅述了。6sr壹木網(wǎng)-日常常見問題解答

VDT和Sora有什么差別?6sr壹木網(wǎng)-日常常見問題解答

VDT模型中重要的部分是時空的Transformer Block。6sr壹木網(wǎng)-日常常見問題解答

我們與Sora有一點不同,當(dāng)時設(shè)計這個Block時,我們將時空的Attention分開了。高校團(tuán)隊沒有OpenAI那么多的計算資源,這樣分開后,所需的計算資源會少很多——除此之外,其他所有設(shè)計都一模一樣。6sr壹木網(wǎng)-日常常見問題解答

人大盧志武:只要拿到更多算力 超過Sora也不是那么難的事6sr壹木網(wǎng)-日常常見問題解答

現(xiàn)在,讓我們來看看我們與Sora的區(qū)別。6sr壹木網(wǎng)-日常常見問題解答

剛才我說過,VDT采用了時空分離的注意力機制,空間和時間是分開的,這是在計算資源有限的情況下的折中方案。6sr壹木網(wǎng)-日常常見問題解答

Sora采用的是時空統(tǒng)一的token化,注意力機制也是時空合一的,我們推測Sora強大的物理世界模擬能力主要來自于這個設(shè)計。6sr壹木網(wǎng)-日常常見問題解答

至于輸入條件不同,這不是VDT與Sora大的區(qū)別,基本上圖生視頻能做好,文生視頻也能做好。6sr壹木網(wǎng)-日常常見問題解答

文生視頻的難度較大,但并非無法克服,沒有本質(zhì)上的差別。6sr壹木網(wǎng)-日常常見問題解答

接下來,我將介紹我們當(dāng)時探索的一些事項。架構(gòu)設(shè)計完成后,我們特別關(guān)注輸入條件。這里有C代表的Condition Frame,以及F代表的Noisy Frame。6sr壹木網(wǎng)-日常常見問題解答

這兩種輸入條件應(yīng)該如何結(jié)合,我們探索了三種方式:6sr壹木網(wǎng)-日常常見問題解答

通過Normalization的方式;6sr壹木網(wǎng)-日常常見問題解答

通過token concat的方式;6sr壹木網(wǎng)-日常常見問題解答

通過Cross attention。6sr壹木網(wǎng)-日常常見問題解答

我們發(fā)現(xiàn),這三種方式中,token concat的效果佳,不僅收斂速度快,而且效果好,因此VDT采用了token concat方式。6sr壹木網(wǎng)-日常常見問題解答

我們還特別關(guān)注了通用時空掩碼機制。6sr壹木網(wǎng)-日常常見問題解答

不過,由于Sora沒有公布細(xì)節(jié),我們不清楚它是否也采用了這個機制,但在模型訓(xùn)練過程中,我們特別強調(diào)了設(shè)計這樣的掩碼機制,終發(fā)現(xiàn)效果非常好,各種生成任務(wù)都能順利完成——我們發(fā)現(xiàn)Sora也能達(dá)到類似的效果。6sr壹木網(wǎng)-日常常見問題解答

人大盧志武:只要拿到更多算力,超過Sora也不是那么難的事6sr壹木網(wǎng)-日常常見問題解答

消融實驗特別有趣,無論是Sora還是VDT,有一個非常重要的問題,就是模型中有大量的超參數(shù),這些超參數(shù)與模型密切相關(guān),不同的參數(shù)會對模型的效果產(chǎn)生很大影響。6sr壹木網(wǎng)-日常常見問題解答

然而,通過大量實驗驗證,我們發(fā)現(xiàn)超參數(shù)的選擇有一個規(guī)律,即如果超參數(shù)使得模型的訓(xùn)練計算量增加,那么對模型效果是有益的。6sr壹木網(wǎng)-日常常見問題解答

這意味著什么?我們模型的性能只與其背后引入的計算量有關(guān),模型訓(xùn)練所需的計算資源越多,終的生成效果就越好,就這么簡單。6sr壹木網(wǎng)-日常常見問題解答

這個發(fā)現(xiàn)與DiT類似,DiT被稱為Sora的基礎(chǔ)模型,它是用于圖片生成的。6sr壹木網(wǎng)-日常常見問題解答

總之,消融實驗是Sora或我們工作中重要的事情之一,我們模型的效果只與訓(xùn)練消耗的計算資源有關(guān),消耗的計算資源越大,效果越好。6sr壹木網(wǎng)-日常常見問題解答

有更多算力,超過Sora不是太難6sr壹木網(wǎng)-日常常見問題解答

考慮到我們的計算資源確實有限,我們團(tuán)隊在模型訓(xùn)練規(guī)模上,肯定不能與OpenAI相比。但是,我們也進(jìn)行了一些深入的思考。6sr壹木網(wǎng)-日常常見問題解答

物理世界模擬本身就在我們的論文中,并不是說這是OpenAI首先想到的,我們一年前就想到了。6sr壹木網(wǎng)-日常常見問題解答

當(dāng)時有這個底座以后,很自然想到這樣模型到底能不能進(jìn)行物理規(guī)律模擬。后來在物理數(shù)據(jù)集上訓(xùn)練了一下VDT,發(fā)現(xiàn)它對簡單的物理規(guī)律模擬得特別好。6sr壹木網(wǎng)-日常常見問題解答

比如,這些例子有拋物線的運動,加速運動,還有碰撞的運動,模擬得都還可以。6sr壹木網(wǎng)-日常常見問題解答

人大盧志武:只要拿到更多算力 超過Sora也不是那么難的事6sr壹木網(wǎng)-日常常見問題解答

所以我們當(dāng)時做了兩個在思想上特別有前瞻性的事情,一個是當(dāng)時我們想到Diffusion Transformer用到視頻生成里面,第二個是我們得到了這樣模型以后,我們當(dāng)時覺得這就是做物理世界模擬很好的模型,我們做實驗驗證了這個事情。6sr壹木網(wǎng)-日常常見問題解答

當(dāng)然,如果我們有更多的算力,我們有更多的數(shù)據(jù),我相信肯定可以模擬更復(fù)雜的物理規(guī)律。6sr壹木網(wǎng)-日常常見問題解答

我們這個模型也跟現(xiàn)在有模型做了對比,比如人像生成,給一張寫真的照片讓它動起來,我們只考慮做這個小的事情,因為我們算力特別有限。6sr壹木網(wǎng)-日常常見問題解答

這些結(jié)果表明VDT比Stable Video Diffusion要好一些,你可以看看生成得人物眼睛眨的更明顯一些,更自然一點。另一個模型生成有點不太自然。6sr壹木網(wǎng)-日常常見問題解答

此外,如果人臉從側(cè)面轉(zhuǎn)成正臉,甚至用扇子把臉遮住了,要把人臉預(yù)測出來,還是挺難的。6sr壹木網(wǎng)-日常常見問題解答

人大盧志武:只要拿到更多算力 超過Sora也不是那么難的事6sr壹木網(wǎng)-日常常見問題解答

關(guān)于這個寫真視頻是怎么做的我簡單說一下。6sr壹木網(wǎng)-日常常見問題解答

先提供幾張寫真的照片,VDT把每一張寫真照片變成兩秒的鏡頭,通過剪輯的方式把鏡頭拼在一起。6sr壹木網(wǎng)-日常常見問題解答

結(jié)合我們團(tuán)隊本身的特點,如果說我做通用的模型,我肯定做不過市面上的大部分,但是我當(dāng)時挑了一個應(yīng)用點,在這個點上VDT并不比Sora差。6sr壹木網(wǎng)-日常常見問題解答

Sora出來以后很多人要做視頻生成,我要考慮怎么保證我的團(tuán)隊在這個方向上,哪怕很小的一個點保持世界前沿。6sr壹木網(wǎng)-日常常見問題解答

因此,我們做了寫真視頻生成,國外的Pika、Sora也研究了一下。VDT生成的超寫實人物,是超過Pika和Sora的。在通用的視頻生成我們很難超過Sora,這里的主要原因是我們算力很有限。6sr壹木網(wǎng)-日常常見問題解答

只要拿到更多算力,超過Sora也不是那么難的事。6sr壹木網(wǎng)-日常常見問題解答

我就講這么多,謝謝大家。6sr壹木網(wǎng)-日常常見問題解答

本文鏈接:http://www.zh1234.com/news481.html人大盧志武:只要拿到更多算力 超過Sora也不是那么難的事

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com。天上從來不會掉餡餅,請大家時刻謹(jǐn)防詐騙
温州市| 陕西省| 英吉沙县| 图木舒克市| 日土县| 若尔盖县| 波密县| 巴彦县| 顺昌县| 连城县| 金塔县| 宜宾市| 大同市| 建水县| 佳木斯市| 三江| 肃宁县| 沅江市| 华池县| 福州市| 淮阳县| 吐鲁番市| 东明县| 固始县| 嘉禾县| 宾阳县| 建瓯市| 静乐县| 沙雅县| 满城县| 桃园县| 云南省| 宜兴市| 台北县| 遂宁市| 勃利县| 唐海县| 西昌市| 康平县| 巨野县| 手游|