捧起她娇臀猛烈冲刺h,久久亚洲精品无码网站,公与媳系列100小说,欧美大片18禁aaa片免费,国产成人无码a区视频,xxxx欧美丰满大屁股 free,韩国在线无码中文字幕,2021年精品国产福利在线,日本成年片黄网站色品善网

版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

Nature重磅:科幻“巴別魚”真來了?AI實(shí)現(xiàn)人類101種語言語音互譯

學(xué)術(shù)頭條
一起見證人類探索征途上的每一個重大突破。
收藏

《銀河系漫游指南》中的神奇“巴別魚”,賦予了人們瞬間跨越語言鴻溝的能力,是無數(shù)人心中「高效語言交流」的終極形式。

如今,我們距離實(shí)現(xiàn)這一夢想或許不遠(yuǎn)了。

最近,權(quán)威科學(xué)期刊 Nature 報道了由 Meta 開發(fā)的開源多語言、多模態(tài)機(jī)器翻譯模型 SeamlessM4T,其突破性地實(shí)現(xiàn)了 100 多種語言在語音-語音、語音-文本和文本-語音方面的高效翻譯,為全球語言溝通帶來了新的可能。

圖片

具體而言,SeamlessM4T 能夠接受這些語言中的任何一種的文本或語音輸入,并將其翻譯為文本,還可以直接將語音翻譯為 36 種語言的語音。

不僅如此,SeamlessM4T 在處理語音到文本任務(wù)時,抵御背景噪音和適應(yīng)說話者變化的能力也比其他系統(tǒng)平均高出約 50%,展現(xiàn)出強(qiáng)大的魯棒性。

對此,塔林理工大學(xué)語言處理教授 Tanel Alum?e 在評論文章中表示,“作者利用現(xiàn)實(shí)世界數(shù)據(jù)的方法將為語音技術(shù)開辟一條充滿希望的道路,有望與科幻作品中的技術(shù)相媲美?!?/p>

他還寫道,“這項(xiàng)工作最大的優(yōu)點(diǎn)并非提出的想法或方法,而是運(yùn)行和優(yōu)化該技術(shù)的所有數(shù)據(jù)和代碼都可公開獲取,盡管模型本身僅可用于非商業(yè)用途。研究人員將他們的翻譯模型描述為‘基礎(chǔ)模型’,這意味著它可以在精心策劃的數(shù)據(jù)集上進(jìn)行微調(diào),以實(shí)現(xiàn)特定目的,例如提高某些語言對或?qū)I(yè)術(shù)語的翻譯質(zhì)量?!?/p>

當(dāng)前,在這項(xiàng)研究的基礎(chǔ)上,Meta 基于 UnitY2 架構(gòu),運(yùn)用層級字符到單元的上采樣和非自回歸文本到單元的解碼方法,訓(xùn)練出了改進(jìn)版本 SeamlessM4T V2,在保持高準(zhǔn)確率的同時,加快了生成語音和文本翻譯結(jié)果的速度。

AI 正在打破人類語言壁壘

盡管當(dāng)前的機(jī)器翻譯技術(shù)已經(jīng)取得顯著進(jìn)展,但大多局限于文本翻譯,語音到語音翻譯(S2ST)面臨諸多挑戰(zhàn)。

現(xiàn)有的多語種翻譯系統(tǒng)通常依賴于級聯(lián)系統(tǒng),通過多個子模型串聯(lián)完成復(fù)雜任務(wù),不僅翻譯效率低,而且主要適應(yīng)于少數(shù)幾種語言,在面對背景噪音和說話人變化等不穩(wěn)定因素時,魯棒性不足。

為了解決這些問題,SeamlessM4T 應(yīng)運(yùn)而生。該模型基于 SONAR 多語言和多模態(tài)嵌入空間架構(gòu),將語音、文本的處理能力有效結(jié)合,并通過海量原始語音和文本數(shù)據(jù)自動挖掘?qū)R資源,實(shí)現(xiàn)了翻譯的準(zhǔn)確性和流暢性提升。

另外,研究團(tuán)隊還采用自監(jiān)督和半監(jiān)督學(xué)習(xí)方法訓(xùn)練模型,使其能從大量原始數(shù)據(jù)中學(xué)習(xí),減少了對人工特定標(biāo)簽的依賴。

圖片

圖 | SEAMLESSM4T-V2 系統(tǒng)架構(gòu)

在數(shù)據(jù)層面,SeamlessM4T 通過新的語言識別(LID)模型識別 100 多種語言。在研究過程中,Meta 團(tuán)隊基于 SONAR 嵌入空間為 200 種語言提供了單一的文本編碼器和解碼器,并為 37 種語言提供了語音編碼器,且通過文本到文本翻譯(T2TT)任務(wù),證明注意力機(jī)制并非實(shí)現(xiàn)合理翻譯準(zhǔn)確率的必要條件。利用 SONAR 的文本和語音編碼器,Meta 團(tuán)隊挖掘出三種對齊數(shù)據(jù),構(gòu)建了涵蓋 37 種語言、時長超 47 萬小時的 SeamlessAlign 語料庫。

SeamlessM4T 在多個翻譯任務(wù)中的表現(xiàn)顯著超過了傳統(tǒng)的級聯(lián)模型,在語言覆蓋和任務(wù)處理速度等方面優(yōu)勢顯著。與 AudioPaLM、WHISPER 等大型語音理解和生成模型相比,SeamlessM4T 優(yōu)勢明顯。

在語音到文本翻譯(S2TT)任務(wù)的 X-eng 方向,SeamlessM4T-V2 的 BLEU 得分比傳統(tǒng)級聯(lián)系統(tǒng)提高了 4.6 分,性能提升顯著;對比 AudioPaLM 2 - 8B AST 等直接 S2TT 模型,提高了 6.9 分,展現(xiàn)出其在多語種翻譯中的強(qiáng)大優(yōu)勢。

在語音到語音翻譯(S2ST)任務(wù)中,SeamlessM4T-LARGE 比兩階段級聯(lián)模型的 ASR-BLEU 得分高出 8 分,改進(jìn)以后的SeamlessM4T-V2 進(jìn)一步提升了 3.9 分,顯著領(lǐng)先于其他同類系統(tǒng)。

在語音到文本翻譯的 CVSS 任務(wù)中,SeamlessM4T - V2 相較于兩階段級聯(lián)模型,ASR - BLEU 得分提高了 9.6 分。

圖片

圖 | SOTA 語音到文本翻譯/語音到語音翻譯模型

在零樣本文本到語音翻譯(T2ST)任務(wù)中,SeamlessM4T - LARGE V2 部分語言方向的表現(xiàn)與級聯(lián)模型相當(dāng),甚至更優(yōu),體現(xiàn)了模型強(qiáng)大的通用性和靈活性。

這表明,SeamlessM4T 在沒有訓(xùn)練數(shù)據(jù)的情況下,仍然能夠提供準(zhǔn)確的翻譯結(jié)果,進(jìn)一步提升了模型的通用性和靈活性。

SeamlessM4T 在抗噪聲和適應(yīng)說話人變化方面也實(shí)現(xiàn)了技術(shù)突破。在背景噪音和說話人變化的實(shí)驗(yàn)中,SeamlessM4T - V2 比 WHISPER - LARGE - V2 的表現(xiàn)提升近 50%。

在語音到語音翻譯任務(wù)中,SeamlessM4T - V2 抗背景噪聲能力提高 42%,對說話人變化的適應(yīng)性提升 66%。這些改進(jìn)使 SeamlessM4T 在嘈雜環(huán)境等實(shí)際應(yīng)用場景中,仍能保證高效、精確的翻譯表現(xiàn)。

圖片

圖 | 多任務(wù)處理結(jié)果

此外,隨著 AI 技術(shù)的廣泛應(yīng)用,機(jī)器翻譯模型中的毒性和偏見問題備受關(guān)注。Meta 團(tuán)隊對 SeamlessM4T 進(jìn)行了嚴(yán)格的毒性和性別偏見評估,并采取了緩解措施。

圖片

圖 | 語音到文本翻譯和語音到語音翻譯在添加了毒性考量的 28 種語言方向上的平均結(jié)果

在毒性檢測方面,他們采用 ETOX、MuTox 和 Mintox 等工具,排除訓(xùn)練中的有害數(shù)據(jù),減少模型產(chǎn)生有毒輸出的概率,為用戶提供健康的交流環(huán)境;在性別偏見方面,研究團(tuán)隊通過 BLASER 2.0 等工具對 SeamlessM4T 進(jìn)行檢測和優(yōu)化,SeamlessM4T 在處理性別變化時比之前版本表現(xiàn)出更強(qiáng)的魯棒性,尤其是在 S2ST 任務(wù)中的性別變化魯棒性顯著提升。

警惕潛在風(fēng)險

盡管 SeamlessM4T 已經(jīng)可以翻譯約 100 種語言,但仍然存在一些局限性。

世界上約有 7000 種語言,該工具在許多人類易處理的場景中仍面臨困難。而且,在實(shí)際應(yīng)用中,SEAMLESSM4T 系統(tǒng)的 ASR 性能受用戶性別、種族、口音和語言差異影響,導(dǎo)致識別和翻譯不準(zhǔn)確,限制了其在多元化人群中的應(yīng)用。

在處理俚語和專有名詞時,該系統(tǒng)在不同資源程度語言中的翻譯質(zhì)量參差不齊;在實(shí)時交互場景中,由于語音交流對即時反饋要求高,用戶難以評估輸出質(zhì)量,誤譯或毒性內(nèi)容風(fēng)險較高,且無法像書面交流那樣修改。同時,語音的韻律和情感信息在當(dāng)前系統(tǒng)輸出中未得到充分體現(xiàn),影響信息準(zhǔn)確傳達(dá)。

研究人員表示,未來將進(jìn)一步研究語音的韻律和情感,讓翻譯后的語音輸出更加自然生動。另一方面,低延遲語音翻譯和流式翻譯技術(shù)成為關(guān)鍵突破點(diǎn),低延遲可減少翻譯時間差,使交流更流暢。

在評論文章中,康奈爾大學(xué)助理教授 Allison Koenecke 則從安全方面提出了擔(dān)憂,“基于語音的技術(shù)越來越多地用于高風(fēng)險任務(wù),例如在醫(yī)療檢查中做筆記或轉(zhuǎn)錄法律程序,像 Meta 團(tuán)隊開發(fā)的模型正在加速這一領(lǐng)域的進(jìn)展。但是,這些模型的用戶(例如醫(yī)生和法庭官員)以及提供語音輸入的個人,都應(yīng)該意識到語音技術(shù)的易錯性?!?/p>

Koenecke 提到,鑒于現(xiàn)有模型的性能在不同語言之間差異很大,必須格外小心,以確保模型能夠熟練翻譯或轉(zhuǎn)錄某些語言中的特定術(shù)語。這方面的努力應(yīng)與計算機(jī)視覺研究人員的工作同步進(jìn)行,后者正在努力改善圖像識別模型在代表性不足群體中的不佳表現(xiàn),并防止模型做出冒犯性預(yù)測。

此外,她還認(rèn)為,未來有必要運(yùn)用以設(shè)計為導(dǎo)向的思維,確保用戶能夠正確理解這些質(zhì)量參差不齊的模型所提供的翻譯。開發(fā)者還應(yīng)該考慮如何告知模型的局限性。這可能包括在準(zhǔn)確性存疑時完全放棄輸出,或者為低質(zhì)量的輸出配上書面警告或視覺提示。也許最重要的是,如果用戶愿意,他們應(yīng)該能夠選擇不使用語音技術(shù),如在醫(yī)療或法律環(huán)境中。

作者:田小婷

評論
新風(fēng)科普????
少傅級
科幻中的“巴別魚”真的要來了!Meta開發(fā)的AI模型SeamlessM4T實(shí)現(xiàn)了101種語言的語音互譯。這不僅打破了語言的隔閡,還讓全球交流更加便捷高效。未來,無論走到哪里,語言都不再是障礙,世界因科技而更緊密。
2025-02-07
新風(fēng)科普????
少傅級
科幻里的“巴別魚”仿佛真的來了!AI技術(shù)實(shí)現(xiàn)了101種語言的語音互譯,這不僅打破了語言的壁壘,更讓全球交流變得前所未有的便捷。未來,無論是跨國旅行還是國際會議,溝通再無障礙,世界因科技而更緊密。
2025-02-07
沖沖
大學(xué)士級
SeamlessM4T的出現(xiàn)標(biāo)志著人工智能在語言翻譯領(lǐng)域邁出了重要一步,未來有望進(jìn)一步推動全球語言交流的無障礙化!
2025-02-07