具身智能(Embodied AI)被譽為下一個人工智能的浪潮,是人工智能技術與機器人技術融合的產物,成為科技創新高度密集、前沿技術加速融合、大國競相開展戰略布局的關鍵領域。人工智能大模型技術的突破,為機器人提供了強化的“大腦”與“小腦”,更為機器人與環境的交互帶來了新的著力點,有望成為具身智能加速落地的關鍵引擎,催生技術與范式的深刻蝶變。
一、大模型驅動下的具身智能
具身智能旨在依托軟硬件結合的智能系統(智能體)實現在物理世界感知和理解環境、并與環境實時互動,通常表現為不同形態的機器人在真實物理環境下通過適應性行為來執行任務,是一種全新的智能范式。通俗來說,具身智能就是將人工智能搭載在機器人等物理“身體”上,使“身體”具備自學習能力,實現“知行合一”。
具身智能在架構上可以分為“大腦”“小腦”和“本體”。依托三者協同配合,機器人才能像人類一樣去面對各項需求,完成各類任務。其中,“大腦”主要通過大模型驅動決策和智能處理;“小腦”通過運動控制算法等實現運動控制和協調;“本體”通過傳感器、執行器、靈巧手等硬件設備實現與環境互動。
圖片來源:北國咨根據國訊芯微(蘇州)科技有限公司等網站公開資料整理繪制
圖1 具身智能總體架構
強大的“大腦”對于具身智能至關重要,沒有“大腦”,機器人只是一個失去智能的、只可移動的機械裝置。目前,多模態大模型技術加速演進,能力邊界被不斷拓寬,為推動具身智能“大腦”快速升級提供了有效路徑。一是大模型增強了機器人的感知與理解能力。多模態大模型可處理語言、視覺、觸覺等多種類型數據,超越了單一模態難以應對復雜實際場景的限制,使機器人能夠更準確、全面地理解復雜場景和任務。二是大模型提升了人機交互的體驗。多模態大模型的不斷迭代讓機器人能通過語音、手勢等信息更準確理解人類意圖,提供深度個性化的體驗。三是大模型賦予了機器人自主規劃決策的能力。大模型在大規模數據預訓練后,讓機器人具備更強的學習能力,不斷提升其通用性和泛化性。
二、行業落地路徑分析
縱觀國內外產業界與學術界具身智能技術及產品的落地實踐,主要路徑如下:
軟硬件一體化推進,加快成果轉化和應用落地探索。如中國科學院自動化所自主研發千億參數全模態大模型“紫東太初”,打通感知、認知、決策交互屏障,完成圖像、文本、語音等跨模態數據對齊,理解和生成能力更接近人類。同時,研發人形機器人設計組裝“大工廠”,可自動完成人形機器人硬件AI設計方案和軟件算法的選擇,并在高精度環境下進行快速驗證,大幅縮短現有研發周期。在此基礎上,開發推出Q系列機器人,并面向家庭服務、智能制造不同場景開展應用探索。
圖片來源:中國科學院自動化所視頻號
圖2 Q系列機器人
技術供給端主動布局,瞄準行業痛點和關鍵領域深入研究。如谷歌自研系列具身智能大模型,其中RT-2大模型是端到端的具身大模型的代表,可以從網絡和機器人數據中學習,并將這些知識轉化為機器人控制的通用指令,使機器人在未見過的環境中展示出強大的泛化、語義理解和推理能力。智源研究院主要聚焦具身智能“大腦”領域,已取得多項世界級突破性成果,如開發具身操作 VLA大模型、具身導航 VLA 大模型等,使機器人在復雜環境中表現出更優越的多樣性、靈活性和泛化性。
技術應用方積極對接上游技術資源,賦能自身業務發展。智源研究院部分研究成果已在銀河通用(北京)落地,雙方共同研發了Galbot的大腦大模型,實現了機器人的穩定識別和抓取操作。優必選(深圳)與百度合作為人形機器人Walker S接入文心大模型,進行具身智能應用升級訓練,從而獲得高級的意圖理解能力和細粒度規劃能力。
圖片來源:銀河通用官網
圖3 銀河通用Galbot機器人
三、當前面臨的瓶頸與挑戰
全球范圍內大模型驅動的具身智能成果層出,為該領域發展帶來極大信心。但目前業內對大模型賦能具身智能落地是否為最優路徑尚存爭議,在仰望“星空”的同時,仍需看到當下的面臨的瓶頸與挑戰。
用于模型訓練的高質量數據缺乏。具身智能機器人的訓練數據主要來源于模擬器和真實世界,但現有交互數據尚不足以反哺模型訓練。真實數據面臨獲取成本過高、質量參差和多樣性不足的挑戰,仿真合成數據面臨模擬環境與現實世界存在差異的挑戰,要達到大模型對于數據量的需求,仍需長時間的采集和積累。
大模型與機器人技術尚未深度融合。盡管大模型很大程度增強了機器人學習、理解等能力,但仍存在機器人通用基礎大模型未建立、軟硬件系統協同能力差等技術瓶頸,再加上研發周期長、投入高,短期內要消弭 Sim2Real的偏差,突破技術臨界點,還有很長一段路要走。
具身智能的應用場景還未完全打開。理論上講,具身智能的實踐場景非常廣泛,在多行業領域應用潛力巨大,但由于技術成熟度和穩定性不足等問題,還需要在應用場景中進一步驗證和改進。近期剛結束的2024世界機器人大會的具身智能相關展品用途仍以展示、科研為主,落地場景還較為有限。
四、相關建議
針對上述瓶頸與挑戰,可以考慮從以下方面開展工作:
搭建數字訓練世界與操作數據采集區。通過物理仿真,制造一個模擬真實世界的數字訓練世界,加速模型開發迭代。建設面向商場、工廠、家庭等場景的操作數據采集區,持續采集真實操作數據。搭建具身智能預訓練數據集開放平臺、指令數據集標注平臺等共享平臺,賦能具身智能行業應用。
增強技術融合應用研究能力。鼓勵科研院校和企業加快具身智能前沿領域布局與探索,積極擁抱大模型技術,打造開源平臺構建合作生態,持續推動大模型泛化能力提升、機器人通用基礎大模型開發等技術突破。同時在學科設置、交叉培養、海外人才引進,國際賽事舉辦等人才引育方面予以加強。
積極拓展應用場景進行驗證完善。打造面向場景、技術的服務對接平臺,精準挖掘場景需求,有序拓展場景應用,率先在特種行業、工業制造等領域進行試點落地,逐步擴展至倉儲物流、養老服務、醫療衛生等場景,通過實踐不斷驗證推動技術更新,漸進式推進具身智能從研發機構和特定應用場景走向更廣泛的消費市場。
參考文獻:
[1] 對話王田苗:萬億市場之下,大模型+機器人還有四大問題未解決 | 硬氪專訪[EB/OL].(2024-04-26)[2024-09-01].//www.163.com/dy/article/J0ML5OM205118DFD.html
[2] 一萬字,讀懂具身智能的技術趨勢、產業應用與未來走向[EB/OL].(2024-07-31)[2024-09-01].//new.qq.com/rain/a/20240731A075QS00?suid=&media_id=
[3] 人形機器人如何走向實際應用?揭秘“大工廠”研發背后的故事[EB/OL].(2024-03-23)[2024-09-01].//content-static.cctvnews.cctv.com/snow-book/index.html?item_id=686999380&track_id=A0616555-7D4A-4ABB-9787-E925C766B9C6_732885782032
[4] 國訊芯微(蘇州)科技有限公司
[EB/OL].(2024-09-01)[2024-09-01].//www.niic.net.cn/Home/Index/about
[5] 北京銀河通用機器人有限公司
[EB/OL].(2024-09-01)[2024-09-01].//www.galbot.com
作 者
梁 雨,長期關注研究人工智能領域