捧起她娇臀猛烈冲刺h,久久亚洲精品无码网站,公与媳系列100小说,欧美大片18禁aaa片免费,国产成人无码a区视频,xxxx欧美丰满大屁股 free,韩国在线无码中文字幕,2021年精品国产福利在线,日本成年片黄网站色品善网

今天,我們來聊聊科技熱詞“具身智能大模型”

科普中國
原創(chuàng)
公眾科普,科學(xué)傳播。
收藏

1. 具身智能的發(fā)展背景

1.1 具身智能的定義

具身智能是一種基于物理身體進行感知和行動的智能系統(tǒng),其核心在于通過智能體與環(huán)境的交互獲取信息、做出決策并實現(xiàn)行動。這種智能形式突破了傳統(tǒng)人工智能(AI)的局限,強調(diào)有物理身體的智能體通過與物理環(huán)境的互動來獲得真正的智能行為和適應(yīng)性。具身智能的實質(zhì)是強調(diào)有物理身體的智能體通過與物理環(huán)境進行交互而獲得智能的人工智能研究范式。

1.2 具身智能是機器人和人工智能技術(shù)發(fā)展匯聚點

具身智能的興起是人工智能與機器人技術(shù)各自發(fā)展到一定階段的必然結(jié)果,也是兩者深度融合的體現(xiàn)。AI為機器人提供“大腦”,使其具備感知、思考和決策能力;而機器人則為AI提供“身體”,使其能夠與真實世界進行交互,獲取經(jīng)驗和知識。這種“大腦+身體”的結(jié)合,使得機器人不再只是被動執(zhí)行命令的工具,而是成為真正意義上的智能體,能夠主動理解任務(wù)需求、規(guī)劃執(zhí)行路徑,并在復(fù)雜環(huán)境中靈活調(diào)整策略。

1.3 具身智能大模型為機器人提供從感知、推理到執(zhí)行的具身智能全流程解決方案

機器人要實現(xiàn)具身智能應(yīng)用落地,必須完成自主感知、自主推理、自主執(zhí)行的全流程解決方案。而具身智能大模型可以提供底層技術(shù)支撐。

自主感知需機器人具備對外部環(huán)境(人或物)的感知能力,通過傳感設(shè)備、信息表示建模、信息轉(zhuǎn)譯理解、下游任務(wù)應(yīng)用,使得機器人能夠在復(fù)雜的工作環(huán)境下執(zhí)行任務(wù)。具身智能大模型能夠處理來自物體、環(huán)境、行為、表達等不同維度的感知數(shù)據(jù),并通過內(nèi)部的信息表示重建來充分理解并指導(dǎo)推理和執(zhí)行的步驟。

自主推理的過程主要包括任務(wù)規(guī)劃、導(dǎo)航和交互環(huán)節(jié)。任務(wù)規(guī)劃是具身智能的核心任務(wù)之一,將抽象的非可執(zhí)行人類指令轉(zhuǎn)換為具體的可執(zhí)行技能。這一步驟的完成需要將人類指令分解為機器人可執(zhí)行的技能并執(zhí)行技能。具身大模型可作為任務(wù)規(guī)劃的轉(zhuǎn)換器和分解器,用LLM將狀態(tài)信息描述成PDDL語言再進行規(guī)劃,取代以往需要人工針對實際問題書寫PDDL語言對任務(wù)進行建模,并以zero-shot進行任務(wù)規(guī)劃。

導(dǎo)航是具身智能體在3D環(huán)境中自主移動完成導(dǎo)航目標的能力。早期的導(dǎo)航通過構(gòu)建一系列基于規(guī)則的組件和算法,實現(xiàn)有效的環(huán)境感知、定位、路徑規(guī)劃和避障。而基于具身智能大模型的導(dǎo)航則是利用深度學(xué)習(xí)與強化學(xué)習(xí)技術(shù),提高模型對復(fù)雜環(huán)境和新場景的泛化能力。不同于傳統(tǒng)算法依賴預(yù)定義的規(guī)則和手工設(shè)計的特征,具身智能大模型導(dǎo)航算法從大量數(shù)據(jù)中學(xué)習(xí)環(huán)境特征和導(dǎo)航策略,實現(xiàn)強自適應(yīng)性和高靈活性。

交互是指具身智能體主動探索環(huán)境、定位目標物體或位置獲取環(huán)境中的信息,然后基于獲取的信息回答問題。該任務(wù)可視為導(dǎo)航、傳統(tǒng)問答任務(wù)的結(jié)合。相比于傳統(tǒng)已有問答任務(wù),具身智能大模型賦能后的機器人具有主動行動能力,因此可以實現(xiàn)更為復(fù)雜的場景交流問答信息。

自主執(zhí)行是指實現(xiàn)任務(wù)的具體動作,其中最重要的環(huán)節(jié)就是技能學(xué)習(xí),其以技能描述、環(huán)境觀察為輸入,輸出完成技能所需的7Dof軌跡(主要指人手腕或者機械臂末端執(zhí)行器的位置、朝向、末端狀態(tài))。具身智能大模型可通過將專家演示數(shù)據(jù)用神經(jīng)網(wǎng)絡(luò)擬合后產(chǎn)生相關(guān)的執(zhí)行序列,或是通過設(shè)計獎勵函數(shù),由機器人通過交互學(xué)習(xí)行為策略,最后掌握實際執(zhí)行任務(wù)操作。

2. 具身大模型兩種技術(shù)路徑分析及核心瓶頸

2.1 具身大模型的兩種流派

目前,具身大模型可以分為兩大流派,分層具身模型和端到端大模型。

分層具身模型采用“大腦-小腦-肢體”的架構(gòu),上層大模型負責(zé)感知與決策,底層硬件層和中間響應(yīng)快的小模型負責(zé)分解與執(zhí)行。這類模型更適合當(dāng)前的數(shù)據(jù)積累水平,且更容易融入基于學(xué)習(xí)的控制方法,因此被更多廠商采用。

端到端大模型能夠直接實現(xiàn)從人類指令到機械臂執(zhí)行的過程。輸入圖像及文本指令后,模型輸出夾爪末端的動作軌跡。這種方式簡化了系統(tǒng)的層次結(jié)構(gòu),提高了響應(yīng)速度,但由于缺乏中間邏輯推理層,對海量數(shù)據(jù)的依賴度極高,目前尚未成為主流選擇。

2.2 分層具身模型

分層具身模型通過將感知、規(guī)劃決策、控制和執(zhí)行各模塊分解為多個層級,分別突破“大腦”和“小腦”,利用不同的神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,最終再整合起來。例如人形機器人企業(yè)Figure便是采用三層級方案,頂層集成了OpenAI的大模型,負責(zé)視覺推理和語言理解,中間層是神經(jīng)網(wǎng)絡(luò)策略(NNP),負責(zé)快速、靈巧的操作,將視覺信息直接轉(zhuǎn)換為動作指令,并輸出這些指令;底層是全身控制器,負責(zé)提供穩(wěn)定的基礎(chǔ)控制,在接收神經(jīng)網(wǎng)絡(luò)策略的動作指令后,輸出各關(guān)節(jié)的扭矩指令。又例如銀河通用的三層級大模型方案。底層是硬件層,中間層是通過仿真合成數(shù)據(jù)不用任何真實世界數(shù)據(jù)訓(xùn)練的泛化的技能,最上層是大模型,可以調(diào)度中間技能API,來實現(xiàn)完整的從任務(wù)的感知、規(guī)劃到執(zhí)行的全流程。

在分層模型方案中,將機器人的感知、推理和執(zhí)行環(huán)節(jié)被類人化地劃分為負責(zé)解決高層次認知或決策問題的“大腦”,以及負責(zé)基礎(chǔ)層面的功能性問題的“小腦”。兩大系統(tǒng)各司其職又互相合作,“大腦”負責(zé)解析任務(wù)需求,整合來自傳感器的信息,進行任務(wù)的細化和策略規(guī)劃;“小腦”則專注于精細的運動控制,確保在“大腦”制定的策略指導(dǎo)下,機器人能夠準確無誤地執(zhí)行動作并進行必要的調(diào)整。目前較為普遍的方向是,機器人的“大腦”由大模型來擔(dān)任,“小腦”則依然為底層控制算法。

大腦負責(zé)感知和規(guī)劃決策系統(tǒng),主要基于多模態(tài)大模型,通過學(xué)習(xí)、理解、融合和對齊各傳感器采集而來的跨模態(tài)信息,實現(xiàn)對復(fù)雜環(huán)境的魯棒建模與更精準、通用的感知,并根據(jù)環(huán)境情況,自主拆解任務(wù)、規(guī)劃動作。

小腦負責(zé)運動規(guī)劃與控制系統(tǒng),是人形機器人實現(xiàn)自然和流暢動作的關(guān)鍵。目前,“小腦”運動控制包括基于模型的控制方法和基于學(xué)習(xí)的控制方式兩個大類。傳統(tǒng)的基于模型的控制方法通過建立機器人的運動學(xué)和動力學(xué)模型,進行運動軌跡規(guī)劃和平衡控制。這一類方法的特點是身體控制穩(wěn)健,但步頻較慢,且整體開發(fā)較為復(fù)雜,成本高,不利于產(chǎn)品快速迭代。基于模型的控制方法具體包括ZMP判據(jù)及預(yù)觀控制、混雜零動態(tài)規(guī)劃方法、虛擬模型解耦控制、模型預(yù)測控制+全身控制(MPC+WBC)等?;趯W(xué)習(xí)的控制方法是使用端到端的人工智能技術(shù),代替復(fù)雜的運動學(xué)模型,一般通過人類示教或自主學(xué)習(xí)建立運動執(zhí)行策略,其中通過人類示教的方式也稱為模仿學(xué)習(xí),效果依賴高質(zhì)量示范數(shù)據(jù);或是通過自主學(xué)習(xí)的方式,指通過精心設(shè)計學(xué)習(xí)目標,機器人不斷在環(huán)境中探索逐漸發(fā)現(xiàn)最大化獎勵的方式學(xué)習(xí)到最優(yōu)的執(zhí)行策略,效果依賴于仿真環(huán)境。

2.3 端到端大模型

端到端大模型目前主要聚焦于機器人的具身作業(yè),實現(xiàn)直接從人類指令輸出機械臂執(zhí)行動作的閉環(huán)流程,即輸入是圖像及文本指令,輸出是夾爪末端動作。以谷歌的RT-1到RT-2的進化迭代為例,2022年谷歌機器人研究團隊便基于模仿學(xué)習(xí)中行為克隆學(xué)習(xí)范式,把Transformer應(yīng)用機器人的操縱任務(wù)上,提出了RT-1模型,其輸入為圖片序列、自然語言指令,可直接輸出由機械臂運動的目標位姿、基座的運動 、模式轉(zhuǎn)換指令,該端到端模型顯示出了在具身作業(yè)領(lǐng)域泛化能力。緊接著于隔年,谷歌發(fā)布了RT-2模型,基于VLM模型基礎(chǔ),通過在互聯(lián)網(wǎng)上數(shù)據(jù)訓(xùn)練,學(xué)習(xí)到更多關(guān)于視覺和語言之間映射關(guān)系的知識后,在機器人操縱任務(wù)上微調(diào),使得機器人在執(zhí)行具身作業(yè)任務(wù)時獲得更強涌現(xiàn)能力。

端到端模型相比于分層具身模型,其可以簡化傳統(tǒng)上需要多個獨立模塊才能完成的任務(wù)流程,提高系統(tǒng)的效率的同時還能增強其泛化能力和通用性。首先在泛化能力方面,端到端模型具有強大的泛化能力。以谷歌DeepMind推出的RT-2為例,該模型可以在新的物體、背景和環(huán)境中表現(xiàn)出顯著改善的性能。它可以理解并響應(yīng)那些在訓(xùn)練數(shù)據(jù)集中未曾出現(xiàn)過的命令,并基于底層語言模型提供的思路鏈進行推理,從而做出合理的決策。其次在通用性方面,端到端模型具備高度的通用性。由于它是建立在一個通用的大規(guī)模預(yù)訓(xùn)練基礎(chǔ)上,因此理論上幾乎所有的“智能機器設(shè)備”都可以使用這套算法。無論是汽車、飛行器還是其他類型的機器人,只需要經(jīng)過適當(dāng)?shù)奈⒄{(diào)就能滿足特定應(yīng)用場景的需求。

2.4 數(shù)據(jù)是具身大模型訓(xùn)練的核心瓶頸

對于具身大模型發(fā)展而言,訓(xùn)練數(shù)據(jù)積累不足是核心瓶頸。因?qū)θ祟惗砸恍┖唵蔚娜蝿?wù)諸如靈巧性能力、空間感知能力、平衡恢復(fù)能力等,對機器人而言卻是困難重重。為讓機器人能夠掌握這些能力,需要用海量數(shù)據(jù)進行訓(xùn)練才能達成,但機器人模態(tài)的數(shù)據(jù)積累遠遠落后于其他模態(tài),嚴重制約了機器人的學(xué)習(xí)能力和性能提升。對比不同模態(tài)下的最大數(shù)據(jù)集,文本模態(tài)約15Ttokens,圖片模態(tài)有6B圖文配對數(shù)據(jù),視頻模態(tài)有2.6B視聽特征數(shù)據(jù)。然而機器人模態(tài)只有240萬個數(shù)據(jù)片段,相比其他模態(tài)而言,數(shù)據(jù)積累遠遠不夠。

針對數(shù)據(jù)積累不足問題,行業(yè)往往通過遠程操作、視頻學(xué)習(xí)等方式以快速積累機器人訓(xùn)練數(shù)據(jù)。遠程操作主要由實驗人員操作機械手柄,遠程控制機器人做出相同動作,以此來積累數(shù)據(jù)。通過多個操作員協(xié)作收集了大規(guī)模多樣化的數(shù)據(jù)集,再基于這些數(shù)據(jù)集訓(xùn)練機器人的靈巧作業(yè)能力。在單臂機器人任務(wù)中,通過遠程操作來進行數(shù)據(jù)采集,通常需要多個操作員、機器人以及數(shù)月的人力投入,耗時耗力。而在類人機器人的任務(wù)復(fù)雜性更高場景中,因此需同時控制多臂和多指手,數(shù)據(jù)采集工作負擔(dān)更是大幅增加。視頻學(xué)習(xí)是通過多模態(tài)大模型,直接讓機器人通過視頻學(xué)習(xí)人類動作,從而積累訓(xùn)練數(shù)據(jù)。考慮到通過人類遠程操控等方式的示教成本較高,從人類視頻中學(xué)習(xí)已成為機器人的主流訓(xùn)練方法之一,如直接通過YouTube視頻進行策略學(xué)習(xí)。但視頻學(xué)習(xí)同樣遇到一些局限。例如在控制上,視頻示教沒有提供機器人本體的運動數(shù)據(jù),智能體需要僅根據(jù)演示視頻生成動作指令,增加了學(xué)習(xí)難度。

在感知上,機器人與人類的視角不同,人類演示視頻中的每一幀是人手臂的運動圖像,而機器人捕獲的圖像是機械臂的運動圖像,二者之間存在較大差異,導(dǎo)致機器人難以準確理解人類動作。在誤差精度上,由于視角差異和圖像內(nèi)容的不同,演示視頻與機器人感知的圖像之間存在較大誤差,影響學(xué)習(xí)效果。

3. 具身大模型未來發(fā)展展望

3.1 通過仿真、AR等技術(shù)手段打破數(shù)據(jù)積累瓶頸

為打破機器人訓(xùn)練數(shù)據(jù)荒的現(xiàn)狀,業(yè)內(nèi)目前正嘗試采用仿真模擬、AR等技術(shù)手段收集與機器人運動學(xué)相匹配的可執(zhí)行訓(xùn)練數(shù)據(jù),并能大幅提升任務(wù)執(zhí)行成功率。2024年11月,來自英偉達、UT Austin和UCSD的研究人員推出了一種大規(guī)模自動化數(shù)據(jù)仿真生成系統(tǒng)——DexMimicGen,它可基于少量人類演示合成類人機器人的靈巧手運動軌跡,幫助實現(xiàn)在更少人工干預(yù)下擴大類人數(shù)據(jù)的采集,相較僅依賴源演示,DexMimicGen大幅提升了策略成功率,所有任務(wù)中基于DexMimicGen數(shù)據(jù)集訓(xùn)練的機器人表現(xiàn)明顯優(yōu)于僅基于少量源數(shù)據(jù)訓(xùn)練的機器人。2024年10月,斯坦福李飛飛團隊提出了一種基于AR技術(shù)的數(shù)據(jù)收集系統(tǒng)——ARCap,它通過增強現(xiàn)實(AR)和觸覺警告提供視覺反饋,以指導(dǎo)用戶收集高質(zhì)量的演示,通過利用從ARCap收集的數(shù)據(jù),經(jīng)驗證機器人可以提升任務(wù)執(zhí)行效率和復(fù)雜度,例如在雜亂的環(huán)境中進行操作和長視野跨具身操作。

3.2 從分層式結(jié)構(gòu)向端到端一體化架構(gòu)的演進

具身大模型作為人工智能與機器人技術(shù)深度融合的產(chǎn)物,正在引領(lǐng)機器人邁向通用智能的新階段。未來,隨著數(shù)據(jù)積累的不斷豐富、算法能力的持續(xù)提升以及硬件算力的快速進步,具身大模型將經(jīng)歷從分層式結(jié)構(gòu)向端到端一體化架構(gòu)的演進,最終實現(xiàn)“大腦-小腦-肢體”高度協(xié)同的自主行為能力。

當(dāng)前主流的分層具身大模型將繼續(xù)發(fā)揮其在任務(wù)分解、多模態(tài)感知和決策規(guī)劃方面的優(yōu)勢,尤其是在工業(yè)制造、危險作業(yè)等結(jié)構(gòu)化場景中,具備更強的可解釋性和可控性。然而,隨著遠程操作和仿真訓(xùn)練等數(shù)據(jù)獲取方式的成熟,機器人訓(xùn)練數(shù)據(jù)量將持續(xù)增長,為端到端大模型的發(fā)展提供堅實基礎(chǔ)。未來端到端具身大模型將成為核心發(fā)展方向,它不僅提升了系統(tǒng)的響應(yīng)速度和泛化能力,也為機器人進入更開放的服務(wù)場景(如家庭服務(wù)、醫(yī)療護理、教育陪伴等)提供了可能。

總的來看,具身大模型不僅是機器人智能化升級的核心引擎,更是推動AI邁向AGI(通用人工智能)的重要一環(huán)。未來十年,將是具身智能爆發(fā)的關(guān)鍵窗口期,值得持續(xù)關(guān)注與深入布局。

作者:

趙石軒 中國移動智慧家庭運營中心企業(yè)發(fā)展部戰(zhàn)略管理經(jīng)理

趙永生 中國移動智慧家庭運營中心具身智能產(chǎn)業(yè)創(chuàng)新中心技術(shù)管理經(jīng)理

王顥 中國移動智慧家庭運營中心企業(yè)發(fā)展部戰(zhàn)略管理經(jīng)理

審核:

程寶平 中國移動首席專家、中國移動智慧家庭運營中心具身智能產(chǎn)業(yè)創(chuàng)新中心總經(jīng)理

出品:科普中國×中國移動科學(xué)技術(shù)協(xié)會

內(nèi)容資源由項目單位提供

評論
凱探科國
學(xué)士級
具身智能是結(jié)合物理身體與環(huán)境的智能系統(tǒng),通過與環(huán)境交互獲取信息并做出決策。它突破了傳統(tǒng)AI局限,強調(diào)有物理身體的智能體與環(huán)境互動的重要性。具身智能的發(fā)展標志著機器人和人工智能技術(shù)的深度融合,為機器人提供感知、推理到執(zhí)行的全流程解決方案。文章探討了分層具身模型和端到端大模型的技術(shù)路徑及核心瓶頸,指出數(shù)據(jù)積累不足是主要挑戰(zhàn)。未來,通過仿真和AR技術(shù)等手段可望解決數(shù)據(jù)瓶頸問題,推動具身智能向端到端一體化架構(gòu)演進。
2025-06-06
華科普
大學(xué)士級
具身大模型不僅是機器人智能化升級的核心引擎,更是推動AI邁向AGI(通用人工智能)的重要一環(huán)!
2025-06-06
快樂生活123
大學(xué)士級
具身大模型不僅是機器人智能化升級的核心引擎,更是推動AI邁向AGI(通用人工智能)的重要一環(huán)。
2025-06-06