4 月 27 日,在北京舉辦的 2024 中關(guān)村論壇年會(huì)“未來人工智能先鋒論壇”上,人工智能初創(chuàng)公司生數(shù)科技與清華大學(xué)聯(lián)合發(fā)布了自主研制的中國首個(gè)長時(shí)長、高一致性、高動(dòng)態(tài)性文生視頻大模型Vidu,其總體性能完全可以媲美2個(gè)多月前 OpenAI 公司發(fā)布的文生視頻大模型Sora。在工作方式上,兩種大模型均是基于提示詞直接而連續(xù)地生成視頻;在擬真度上,都能模擬現(xiàn)實(shí)世界的物理規(guī)律;在畫面清晰度上,同樣支持最高1080P;在內(nèi)容上,都可以確保主體和背景的高一致性和高動(dòng)態(tài)性。雖然Vidu產(chǎn)生的16秒的生成視頻時(shí)長明顯短于Sora的輸出結(jié)果(最長60秒),但Vidu卻能更好地理解中國元素(例如熊貓、龍等)并能生成栩栩如生的視頻,彰顯了它的“中國特色”。
值得一提的是,在大模型的工作底層邏輯上,Vidu依據(jù)的是融合了Diffusion模型和Transformer的U-ViT架構(gòu),這一架構(gòu)由生數(shù)科技創(chuàng)始成員于2022年9月提出,比Sora的底層架構(gòu)DiT提出時(shí)間還要早3個(gè)月。當(dāng)時(shí),Vidu團(tuán)隊(duì)成員就在千萬至數(shù)億參數(shù)量級(jí)范圍內(nèi)驗(yàn)證了U-ViT架構(gòu)具有極強(qiáng)的可擴(kuò)展性,因此這項(xiàng)工作后來在國際計(jì)算機(jī)視覺領(lǐng)域的頂級(jí)會(huì)議CVPR 2023上被正式發(fā)表??梢哉f,正是生數(shù)科技團(tuán)隊(duì)具備深厚的理論基礎(chǔ)和實(shí)踐經(jīng)驗(yàn),擁有突破文生視頻大模型主流框架的技術(shù)難點(diǎn)和瓶頸的科技攻關(guān)實(shí)力,他們才能在成立一年之余的時(shí)間內(nèi)推出了大模型Vidu。
不過,興奮之余,還需要冷靜地看待Vidu與Sora之間的差距。對(duì)于Vidu,除了生成的視頻時(shí)長要短于Sora之外,在生成視頻的畫面復(fù)雜性和保真度方面還與Sora有一定的差距。但是,更應(yīng)該值得我們反思的是:正如前述,在文生視頻大模型研發(fā)領(lǐng)域,最開始的算法底層架構(gòu)設(shè)計(jì)我們是走在國際前列的,但是OpenAI卻面向公眾更早地發(fā)布了一個(gè)更好的成果Sora。表面上看,這種“起個(gè)大早卻趕了晚集”的滯后局面主要在于生數(shù)科技成立時(shí)間短,在算力資源、高質(zhì)量數(shù)據(jù)、雄厚資金和研發(fā)人才等方面與OpenAI相比還缺少優(yōu)勢(shì)。但仔細(xì)想一下,如果我們能夠在U-ViT架構(gòu)提出并完成性能驗(yàn)證之初,及早構(gòu)建文生視頻大模型的創(chuàng)新生態(tài)鏈,充分發(fā)揮我國的新型舉國體制優(yōu)勢(shì),把政府、市場(chǎng)、社會(huì)等各方面力量集聚在一起,形成強(qiáng)大合力,將算力基礎(chǔ)設(shè)施、高質(zhì)量數(shù)據(jù)資源、模型算法研究和場(chǎng)景化應(yīng)用統(tǒng)籌起來,打好關(guān)鍵核心技術(shù)攻堅(jiān)戰(zhàn),形成一個(gè)良性的文生視頻大模型科技創(chuàng)新閉環(huán)體系,那或許在文生視頻的國際大舞臺(tái)上“捷足先登”的就是Vidu而不是Sora啦,這將大大地鼓舞我國廣大科技工作者在自己的領(lǐng)域?qū)崿F(xiàn)科技自立自強(qiáng)。“積力之所舉,則無不勝也;眾智之所為,則無不成也?!?/p>
轉(zhuǎn)載請(qǐng)標(biāo)注:“內(nèi)容來源:科普中國科普號(hào)賽蒙先生。”