如今,通過制作逼真的視頻內(nèi)容,AI 視頻生成工具正在改變?cè)O(shè)計(jì)、營銷、娛樂和教育等行業(yè)。尤其是 Sora、Gen-3 等文生視頻模型,只需要輸入幾行 prompt 文字,便可以生成逼真、連續(xù)、高質(zhì)量的視頻大片。
這一技術(shù)在為世界各地創(chuàng)作者帶來無數(shù)可能性的同時(shí),也為普通大眾帶來了諸多危害和風(fēng)險(xiǎn),尤其是在傳播虛假信息、宣傳、詐騙和網(wǎng)絡(luò)釣魚等方面。
因此,如何準(zhǔn)確識(shí)別 AI 生成的視頻,已成為每一個(gè)人都需要關(guān)心的問題。
日前,哥倫比亞大學(xué)楊俊鋒(Junfeng Yang)教授團(tuán)隊(duì)便開發(fā)了一種名為 DIVID(DIffusion-generated VIdeo Detector)的文生視頻檢測工具,對(duì)于由 SORA、Gen-2 和 Pika 等模型生成的視頻,檢測準(zhǔn)確率達(dá)到了 93.7%。
相關(guān)研究論文(包含開源代碼和數(shù)據(jù)集)已于上月在西雅圖舉行的計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR)上展示。
DIVID 是如何煉成的?
現(xiàn)有的 Deepfake 檢測器在識(shí)別 GAN 生成的樣本方面表現(xiàn)出色,但在檢測擴(kuò)散模型生成的視頻方面魯棒性不足。
在這項(xiàng)工作中,研究團(tuán)隊(duì)通過 DIVID 這一新工具來檢測由 AI 生成的視頻。據(jù)介紹,DIVID 基于該團(tuán)隊(duì)今年早些時(shí)候發(fā)布的成果——Raidar,其通過分析文本本身來檢測由 AI 生成的文本,而無需訪問大語言模型(LLM)的內(nèi)部運(yùn)作。
Raidar 使用 LLM 來重述或修改給定文本,然后測量系統(tǒng)對(duì)該文本的編輯次數(shù)。編輯次數(shù)越多,意味著文本更可能是由人類撰寫;編輯次數(shù)越少,意味著文本更可能是機(jī)器生成的。
他們使用相同的概念開發(fā)了 DIVID。DIVID 通過重構(gòu)視頻并將新重構(gòu)的視頻與原始視頻進(jìn)行對(duì)比來工作。它使用 DIRE 值來檢測擴(kuò)散生成的視頻,因?yàn)樵摲椒ɑ谶@樣一個(gè)假設(shè):由擴(kuò)散模型生成的重構(gòu)圖像應(yīng)彼此非常相似,因?yàn)樗鼈兪菑臄U(kuò)散過程分布中采樣的。如果存在顯著的變化,原始視頻可能是人類生成的,如果沒有,則可能是 AI 生成的。
圖 | DIVID 的檢測流程。在步驟 1 中,給定一系列視頻幀,研究團(tuán)隊(duì)首先使用擴(kuò)散模型生成每個(gè)幀的重建版本。然后通過重建幀和其對(duì)應(yīng)的輸入幀計(jì)算 DIRE 值;在步驟2中,基于 DIRE 值序列和原始 RGB 幀訓(xùn)練 CNN+LSTM 檢測器。
該框架基于這樣一個(gè)理念:AI 生成工具根據(jù)大數(shù)據(jù)集的統(tǒng)計(jì)分布創(chuàng)建內(nèi)容,導(dǎo)致視頻幀中的像素強(qiáng)度分布、紋理模式和噪聲特征等“統(tǒng)計(jì)均值”內(nèi)容,以及幀間不自然變化的微小不一致性或更可能出現(xiàn)在擴(kuò)散生成視頻中的異常模式。
圖 | 在域內(nèi)測試集上的檢測性能。DIVID 在準(zhǔn)確率(Acc.)和平均精度(AP)方面優(yōu)于基線架構(gòu)。RGB 表示原始視頻中的像素幀值。
相比之下,人類創(chuàng)作的視頻表現(xiàn)出個(gè)性化,偏離統(tǒng)計(jì)常態(tài)。DIVID 在其基準(zhǔn)數(shù)據(jù)集中對(duì) Stable Vision Diffusion、Sora、Pika 和 Gen-2 生成的視頻實(shí)現(xiàn)了高達(dá) 93.7% 的檢測準(zhǔn)確率。
未來展望
目前,DIVID 是一個(gè)命令行工具,用于分析視頻并輸出其是由 AI 還是人類生成的,且僅供開發(fā)者使用。研究人員指出,他們的技術(shù)有潛力作為插件集成到 Zoom 中,以實(shí)時(shí)檢測深度偽造電話。團(tuán)隊(duì)還考慮開發(fā)一個(gè)網(wǎng)站或?yàn)g覽器插件,使 DIVID 對(duì)普通用戶可用。
研究人員目前正在改進(jìn) DIVID 的框架,以便處理來自開源視頻生成工具的不同類型的合成視頻。他們還在使用 DIVID 收集視頻以擴(kuò)展 DIVID 數(shù)據(jù)集。
“我們的框架在檢測 AI 生成內(nèi)容方面取得了重大進(jìn)展,” 該論文的作者之一、蔡昀蕓(Yun-Yun Tsai)博士說道?!坝刑嗖环ǚ肿釉谑褂?AI 生成視頻,關(guān)鍵是要阻止他們并保護(hù)社會(huì)?!?/p>
參考鏈接:
https://arxiv.org/abs/2406.09601
https://techxplore.com/news/2024-06-tool-ai-generated-videos-accuracy.html