內(nèi)容生成AI進(jìn)入視頻時(shí)代!

Meta發(fā)布「用嘴做視頻」僅一周,谷歌CEO劈柴哥接連派出兩名選手上場(chǎng)競(jìng)爭(zhēng)。

第一位Imagen Video與Meta的Make-A-Video相比突出一個(gè)高清,能生成1280*768分辨率、每秒24幀的視頻片段。

另一位選手Phenaki,則能根據(jù)200個(gè)詞左右的提示語(yǔ)生成2分鐘以上的長(zhǎng)鏡頭,講述一個(gè)完整的故事。

網(wǎng)友看過(guò)后表示,這一切進(jìn)展實(shí)在太快了。

也有網(wǎng)友認(rèn)為,這種技術(shù)一旦成熟,會(huì)沖擊短視頻行業(yè)。

那么,兩個(gè)AI具體有什么能力和特點(diǎn),我們分別來(lái)看。

Imagen Video:理解藝術(shù)風(fēng)格與3D結(jié)構(gòu)

Imagen Video同樣基于最近大火的擴(kuò)散模型,直接繼承自5月份的圖像生成SOTA模型Imagen。

除了分辨率高以外,還展示出三種特別能力。

首先它能理解并生成不同藝術(shù)風(fēng)格的作品,如“水彩畫”或者“像素畫”,或者直接“梵高風(fēng)格”。

它還能理解物體的3D結(jié)構(gòu),在旋轉(zhuǎn)展示中不會(huì)變形。

最后它還繼承了Imagen準(zhǔn)確描繪文字的能力,在此基礎(chǔ)上僅靠簡(jiǎn)單描述產(chǎn)生各種創(chuàng)意動(dòng)畫,

這效果,直接當(dāng)成一個(gè)視頻的片頭不過(guò)分吧?

除了應(yīng)用效果出色以外,研究人員表示其中用到的一些優(yōu)化技巧不光對(duì)視頻生成有效,可以泛化至一般擴(kuò)散模型。

具體來(lái)說(shuō),Imagen Video是一系列模型的集合。

語(yǔ)言模型部分是谷歌自家的T5-XXL,訓(xùn)練好后凍結(jié)住文本編碼器部分。

與負(fù)責(zé)從文本特征映射到圖像特征的CLIP相比,有一個(gè)關(guān)鍵不同:

語(yǔ)言模型只負(fù)責(zé)編碼文本特征,把文本到圖像轉(zhuǎn)換的工作丟給了后面的視頻擴(kuò)散模型。

基礎(chǔ)模型,在生成圖像的基礎(chǔ)上以自回歸方式不斷預(yù)測(cè)下一幀,首先生成一個(gè)48*24、每秒3幀的視頻。

接下來(lái),一系列空間超分辨率(Spatial Super-Resolution)與時(shí)間超分辨率(Temporal Super-Resolution)模型接連對(duì)視頻做擴(kuò)展處理。

所有7種擴(kuò)散模型都使用了v-prediction parameterization方法,與傳統(tǒng)方法相比在視頻場(chǎng)景中可以避免顏色偏移。

這種方法擴(kuò)展到一般擴(kuò)散模型,還使樣本質(zhì)量指標(biāo)的收斂速度更快。

此外還有漸進(jìn)式蒸餾(Progressive Distillation),將每次迭代所需的采樣步驟減半,大大節(jié)省顯存消耗。