未來(lái)的短視頻是什么樣的?是否可以直接AI生成?
內(nèi)容生成AI進(jìn)入視頻時(shí)代!
Meta發(fā)布「用嘴做視頻」僅一周,谷歌CEO劈柴哥接連派出兩名選手上場(chǎng)競(jìng)爭(zhēng)。
第一位Imagen Video與Meta的Make-A-Video相比突出一個(gè)高清,能生成1280*768分辨率、每秒24幀的視頻片段。
另一位選手Phenaki,則能根據(jù)200個(gè)詞左右的提示語(yǔ)生成2分鐘以上的長(zhǎng)鏡頭,講述一個(gè)完整的故事。
網(wǎng)友看過(guò)后表示,這一切進(jìn)展實(shí)在太快了。
也有網(wǎng)友認(rèn)為,這種技術(shù)一旦成熟,會(huì)沖擊短視頻行業(yè)。
那么,兩個(gè)AI具體有什么能力和特點(diǎn),我們分別來(lái)看。
Imagen Video:理解藝術(shù)風(fēng)格與3D結(jié)構(gòu)
Imagen Video同樣基于最近大火的擴(kuò)散模型,直接繼承自5月份的圖像生成SOTA模型Imagen。
除了分辨率高以外,還展示出三種特別能力。
首先它能理解并生成不同藝術(shù)風(fēng)格的作品,如“水彩畫”或者“像素畫”,或者直接“梵高風(fēng)格”。
它還能理解物體的3D結(jié)構(gòu),在旋轉(zhuǎn)展示中不會(huì)變形。
最后它還繼承了Imagen準(zhǔn)確描繪文字的能力,在此基礎(chǔ)上僅靠簡(jiǎn)單描述產(chǎn)生各種創(chuàng)意動(dòng)畫,
這效果,直接當(dāng)成一個(gè)視頻的片頭不過(guò)分吧?
除了應(yīng)用效果出色以外,研究人員表示其中用到的一些優(yōu)化技巧不光對(duì)視頻生成有效,可以泛化至一般擴(kuò)散模型。
具體來(lái)說(shuō),Imagen Video是一系列模型的集合。
語(yǔ)言模型部分是谷歌自家的T5-XXL,訓(xùn)練好后凍結(jié)住文本編碼器部分。
與負(fù)責(zé)從文本特征映射到圖像特征的CLIP相比,有一個(gè)關(guān)鍵不同:
語(yǔ)言模型只負(fù)責(zé)編碼文本特征,把文本到圖像轉(zhuǎn)換的工作丟給了后面的視頻擴(kuò)散模型。
基礎(chǔ)模型,在生成圖像的基礎(chǔ)上以自回歸方式不斷預(yù)測(cè)下一幀,首先生成一個(gè)48*24、每秒3幀的視頻。
接下來(lái),一系列空間超分辨率(Spatial Super-Resolution)與時(shí)間超分辨率(Temporal Super-Resolution)模型接連對(duì)視頻做擴(kuò)展處理。
所有7種擴(kuò)散模型都使用了v-prediction parameterization方法,與傳統(tǒng)方法相比在視頻場(chǎng)景中可以避免顏色偏移。
這種方法擴(kuò)展到一般擴(kuò)散模型,還使樣本質(zhì)量指標(biāo)的收斂速度更快。
此外還有漸進(jìn)式蒸餾(Progressive Distillation),將每次迭代所需的采樣步驟減半,大大節(jié)省顯存消耗。
聲明:本站所有文章資源內(nèi)容,如無(wú)特殊說(shuō)明或標(biāo)注,均為采集網(wǎng)絡(luò)資源。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系本站刪除。
