一村淞靈專注于早中期投資,致力于構建一個強大的AI生態朋友圈。AI與具身智能的結合一直是行業領域研究和探索的重要方向。本篇文章作為《航海日志》系列的延續,結合探討了具身智能可能存在的表現形式,探索AI與具身智能在現實世界相互融合演進的可能性。
從圖靈測試到深度學習,從專家系統到大語言模型,AI的每一次進化都在拓展著人類對智能的理解邊界。AI與具身智能的結合,一直是行業領域研究探索的重要方向。
上篇文章《航海日志|慧智硅基靈巧手》我們點明,“所有模型算法將下沉到具身智能這個“大殺器”中,具身智能能讓軟硬件、AI、外部環境(包括人文環境)‘同頻共振’! ”。今日,我們便與大家共同探索AI與具身智能的“雙生之旅”。
在人工智能發展的漫長河流中,我們見證了從簡單的計算到復雜的認知系統的演變。如今,一個新的篇章正在開啟——具身智能(Embodied AI)的崛起。這不僅是技術的進步,更是人工智能向著真正"智能"邁進的重要一步。機器人,作為具身智能最重要、最復雜的載體,一直是我們深度探索的核心。讓我們踏上這段探索之旅,一起揭開其中的神秘面紗。
01、從虛擬走向現實:具身智能的誕生
想象一下,如果給予ChatGPT一個機器人身體,讓它不只能與我們對話,還能實際行動,會發生什么?這就是具身智能要探索的領域。具身智能不再滿足于在虛擬世界中運算和思考,而是要通過物理實體與現實世界直接互動。就像嬰兒需要通過觸摸、抓握、行走來認識世界一樣,AI也需要一個"身體"來真正理解和適應這個立體的世界。
具身智能的概念源于認知科學的一個基本觀點:智能的產生離不開身體的參與。人類的智能發展就是一個很好的例證。我們的認知能力不是與生俱來的,而是在與環境的持續互動中逐步形成,同理,具身智能技術演進的一個重要邏輯就是基于大模型在現實環境下的高泛化性(需要應對從未見過的場景)以及思維鏈能力(需要拆解復雜任務以及根據環境變化調整動作)。如幼兒通過抓、摔、摸等各種方式探索物體,在這個過程中建立起對物理世界的基本認知,而具身智能作為“新物種”參與到我們客觀物理世界,也需要經過物體感知(視覺感知、觸覺感知、數據感知) 、 腦部認知(語義分析、運動控制、多模態基礎模型)、行動范式(智能交互、任務規劃、具身執行)的持續迭代升級。
感知之門:具身智能的眼與手
如果說傳統AI系統是"淺嘗即止"的數字隱者,那么具身智能則是要讓AI真正"走出象牙塔"的物理探索者。這場突破始于感知系統的革新,它賦予了AI前所未有的感知維度。
視覺感知,具身智能的"火眼金睛"。它不僅配備了能捕捉細膩色彩的高清相機,還裝備了能夠洞察深度的3D傳感器。激光雷達就像其"第三只眼",能夠在黑暗中繪制精確的環境地圖。這些視覺系統相互配合,讓AI能夠比人類看得更遠、更清、更全面。
視覺語言模型生成的結果到機器人動作的映射方式,主要取決于該預測結果的層級。之前模型中預測結果處于高級別設計層級:以Google PaLM-E和微軟ChatGPT for Robotics為例,PaLM-E實現了對具身任務的決策方案預測,但不涉及機器人動作的實際控制,需要依賴低級別的現成策略或規劃器來將決策方案“翻譯 ”為機器人動作。微軟默認提供控制機器人的低層級API,ChatGPT輸出是更高層級的代碼,需調用到機器人低層級的庫或API,從而實現對機器人動作的映射和控制。RT-2和VoxPoser預測結果已經到了低級別動作層級,不需要再經過復雜的翻譯即可將高層級設計映射到低層級動作。
視覺感知的三個關鍵領域包括:視覺SLAM、3D場景理解、主動探索:
VSLAM & SLAM技術已在智能汽車、消費級機器人(配送機器人、掃地機器人等)等領域靈活運用,是一項發展較為成熟的技術。
3D場景理解:視覺領域的發展路徑,不僅是在點云算法的結構布置及技術成熟,更是在生成的3D場景上的深度理解,并基于視覺信息預測和執行復雜任務。
因此,(1)要求模型具備快速將2D平面圖轉化為3D結構的生成能力。(2)要求模型需要具備理解物體的基本屬性及事態發展的時序變化(x、y、z、t四維空間)。
除了視覺感知之外,我們關注觸覺感知系統。通過遍布"身體"各處的壓力傳感器和觸覺傳感器,具身智能系統能夠感受到與物體接觸時的力度、紋理和溫度。這種觸覺反饋對于精確操作至關重要,就像人類需要通過手指的觸覺來判斷抓握的力度一樣。
在上篇文章《慧智硅基靈巧手》中我們也提到,我們關注GELSIGHT這種視觸覺傳感器的不斷演進發展,“視覺”+“觸覺”的構造原理使它能夠與深度學習算法融合,相比于其他觸覺感知方式,其能夠完成更為精細化的操作,我們認為它將會是未來機器人靈巧手上的“珍珠”。
02、智慧之源:具身智能的腦部模型
感知系統收集的信息需要經過腦部模型的處理才能轉化為智能行為。腦部模型就像一個精密的指揮中心,需要同時處理多個層面的問題。LLM、VLM(視覺語言模型)等基礎模型的最新進展,特別是ChatGPT、PaLM等模型在具身智能中的應用,有效增強了其感知和決策能力,推動大模型成為具身智能實現“感知-推理-預測-行動”能力的主流架構,業界已經有多款模型發布,并在各類復雜任務中取得了顯著的進展,且這些模型仍在快速迭代與優化中,例如RT-1、RT-2、RT-H、PaLM-E、VoxPoser等,點亮了機器人的慧能。
RT-2/VoxPoser的一大突破是使機器人可以理解自然語言指令,無需復雜的編程語言便可完成人機交互。RT-2模型建立在視覺-語言模型(VLM)的基礎上,賦予機器人語義理解和基本推理能力,使其可以聽懂并自主推理出已滅絕動物(恐龍)和哪種飲料最適合疲憊的人(能量飲料);李飛飛團隊VoxPoser模型只需接收到“打開上面的抽屜,小心花瓶!”類似的指令即可執行任務;在前華為天才少年彭志輝創業公司智元機器人所發布的視頻中,機器人也可根據簡單的文字或語音指令對桌面上不同顏色的方塊進行選取、調位和疊放等操作。
無需訓練即可完成復雜指令且產生涌現能力,未知場景下RT-2模型泛化能力翻倍。 新模型的另一大突破是無需預定義的運動原語或額外的數據和訓練,模型泛化能力增強,加速機器人通用化。過去算法下實現機器人扔垃圾的動作需訓練機器人區分、撿起、扔掉垃圾 各個步驟, 而RT-2可以將網絡相關知識傳給機器人,使其無需明確的訓練即可學會扔垃圾。面對之前從未見過的任務情形,RT-2成功率達到62%,泛化性能較RT-1提高一倍。
而VoxPoser用大模型指導機器人如何與環境進行交互,達到在無需額外數據和訓練的情況下完成各種任務,并且涌現出了4種行為能力,可以自主分步完成任務,掌握評估方法,根據最新要求做出判斷進而調整輸出動作。
腦部模型有三大重要任務
1. 環境理解:模型需要將各種感知信息整合起來,構建對當前場景的完整認知。比如,在搬運物體時,需要同時考慮物體的形狀、重量、材質等特性,以及周圍環境的空間布局。
RT-2泛化能力還體現在其思維鏈(CoT)助其進行多階段語義推理,完成更復雜任務。DeepMind研究團隊展示了將思維鏈推理納入RT-2中使其能夠進行多階段語義推理,他們用少量的“增強”數據微調一個RT-2-PaLM-E變種,增強數據中加入了“Plan”步驟, 使得VLM首先用自然語言描述機器人將要采取的動作的目的,然后再給出預測的機器人動作標記。通過實驗結果可以觀察到,具有思維鏈推理的RT-2能夠回答更復雜的命令。
2. 任務規劃:模型需要根據目標制定詳細的執行計劃。這個過程涉及到語義解析、路徑規劃、動作序列生成等多個環節。比如,要拿起桌子上的水杯,系統需要規劃手臂的移動軌跡,考慮避開障礙物,并設計合適的抓取姿態及動作代碼。
RT-2動作控制采用的方法是將機器人動作表示為另一種語言,即文本token,并與Web規模的視覺-語言數據集一起訓練。代表機器人動作的文本字符串可以是機器人動作token編號的序列,例如「1 128 91 241 5 101 127 217」,該字符串以一個標志開始,該標志指示機器人是繼續還是終止當前情節,然后機器人根據指示改變末端執行器的位置和旋轉以及機器人抓手等命令。由于動作被表示為文本字符串,因此機器人執行動作命令就像執行字符串命令一樣簡單。這種表示方式允許谷歌對現有的視覺-語言模型進行微調,并將其轉換為視覺-語言-動作模型。
Voxposer的動作控制實現過程是首先給定環境信息(用相機采集RGB-D圖像)和自然語言指令,之后LLM(大語言模型)根據這些內容編寫代碼,所生成代碼與VLM(視覺語言模型)進行交互,指導系統生成相應的操作指示地圖(3D Value Map),之后動作規劃器將生成的3D地圖作為目標函數,直接合成最終操作軌跡。在用LLM和VLM將語言指令映射為3D地圖的過程中,系統利用“感興趣的實體(entity of interest)”來引導機器人進行操作,也就是通過3D Value Map中標記的值來反應哪個物體是對它具有“吸引力”的,哪些物體是具有“排斥性”,比如在打開抽屜的例子中,抽屜就是“吸引”的,花瓶是“排斥”的。
3. 實時調整:在執行過程中,系統需要根據反饋不斷優化行為。就像人類在提起一個未知重量的物體時會根據觸覺反饋調整施力一樣,具身智能系統也需要這種動態適應能力。
目前基于具身智能腦部大模型的技術路線還遠未開始收斂,隨著后續各類大模型的持續發展,具身智能底層架構同樣有變化的可能。
03、SIM 2 REAL:具身智能的“修羅場”
在具身智能的進化之路上,SIM2REAL(從仿真到現實)技術扮演著獨特的"道場"角色。想象一個可以隨心所欲重啟的平行宇宙,這里不存在硬件損耗,不需要擔心安全風險,每一次嘗試都是成長的養分。通過構建高度逼真的三維仿真環境,系統能夠精確模擬物理規律、材料特性和環境變化。
國內已有優秀的團隊在進行虛擬訓練場的搭建與集成,即空間快速構建3D場景,提供物理正確的仿真環境,并快速低成本生成3D合成數據。他們基于OpenUSD,無縫連接各種DCC、CAD、CAE,通過實時協作提升現有工作流的協作效率,提高沉淀在各個工具上的3D資產的流動性。通過低成本現有方案組合AIGC應用,提升3D場景構建效率,包括2D生3D、大語言模型交互生成3D場景等。
在這個虛擬訓練場中,一臺機器人可以同時化身成千上百個分身,并行訓練不同的技能。比如,一個抓取任務可以在不同的光照條件、不同的物體位置、不同的干擾因素下反復練習。這種訓練方式的效率遠超現實世界,幾小時的仿真訓練可能相當于現實世界中數月的練習。
然而,從仿真環境遷移到現實世界并非易事。這就像職業選手在電子游戲中再厲害,到了真實賽場也需要重新適應。仿真環境永遠無法完美復制現實世界的所有細節,這種差異被稱為"現實鴻溝"(Reality Gap)。為了解決這個問題,研究者們開發了一系列創新方法。域隨機化(Domain Randomization)就是其中最有效的策略之一。這種方法通過在仿真環境中隨機改變物理參數、視覺外觀、環境條件等要素,迫使系統學習更加魯棒的策略。
這里不可避免的要提到機器人的運控系統,運動控制系統主要通過控制關節電機的扭矩以實現行走、奔跑、跳躍、搬箱子等與運動有關的任務。這種運動控制系統,通俗來說,可以被稱為“小腦”。目前的機器人運動控制系統,需要針對不同型號的機器人進行適配,完成適配之后的量產,則可以批量化復制?;谏疃葟娀瘜W習方案的運控效果在魯棒性上一般遠超基于傳統控制的方案,主要體現在:抗沖擊性更強、運動速度更快、復雜地形適應性更強。
從研究和體會來說,基于強化學習尋找的最優路徑屬于無監督,拓展能力較強,因此含金量也體現在其他多型機器的運控兼容及穩定方面。
想象一下,如果要訓練一個機器人抓取咖啡杯,仿真系統會隨機改變杯子的大小、重量、材質,甚至添加各種干擾因素。經過這種"大風大浪"的訓練、系統學到的策略以及機器人不斷精進的運控系統就能更好地適應現實世界的變化。
同時,通過混合現實訓練,將虛擬環境和真實環境結合起來,也大大提高了訓練效果。
總體而言,Sim 2 Real技術通過使用合成數據來模擬真實世界的場景,并將這些數據應用于真實物理環境中,以此來縮小模擬與真實世界之間的差距,具有明顯的成本優勢,并且在隱私保護方面也有很大的作用,但對于模擬器的要求更高,Reality Gap以及遷移過程造成的性能下降等問題仍需要進一步研究解決。
04、行業情況及業內翹楚
在科技變革的浪潮中,具身智能正以令人矚目的速度重塑產業版圖。據數據顯示,市場規模從2018年的2,923億元躍升至2023年的7,487億元,年復合增長率高達20.7%。這一增長軌跡背后,是中國科技的快速迭代、數字化轉型的全面推進,以及人工智能技術的持續突破。就像一個正在覺醒的巨人,具身智能產業正在彰顯其無限潛力,預示著一個充滿想象力的未來正在到來。
在具身智能的世界中,每一個構成要素如同交響樂中的樂章,共同譜寫出人形機器人獨特的智能表現,每個構成要素,也是團隊研究挖掘標的的切入點。其中,環境感知模塊為機器人提供了“眼睛”和“耳朵”,使其能夠感知周圍環境的細微變化。決策控制模塊則擔當“頭腦”的角色,負責決策和規劃。運動控制模塊好比“小腦”,確保機器人的靈活和平衡。機械本體模塊則是其“骨骼和肌肉”,支撐其每一個動作····
在具身智能的產業版圖上,一批創新企業正在書寫著行業發展的新篇章。我們一直實時跟蹤、學習國內外優秀企業,挖掘潛在優質標的。
05、感悟與體會
具身智能代表了人工智能發展的一個重要方向。它讓AI從虛擬世界走向現實世界,從單一的信息處理走向綜合的物理交互。目前RT-2和Voxposer等大模型泛化能力仍在提升過程中,未來能否達到商用所需的泛化性能標準存在不確定性。淞靈團隊結合不斷的行業體會,將繼續在感知、認知、行動層布局、研究。
SIM 2 REAL不是具身重點?;仡欀拔覀儓F隊提出的一個觀點:具身智能最終的表征方式可能不僅僅是人形。這里需要有一個延伸的邏輯,即SIM 2 REAL會讓具身智能理解環境;REAL 2 SIM會讓具身影響環境。這樣一個完美的閉環,將迎來AI更高階的發展。其中必不可少的是再次對AI基礎建設的改造,以上可能又將是一波AI及其基礎建設發展的周期。
隨著中美科技競賽的“軍備化”預演趨勢,我們認為模型層中國可能會在一定階段處于追趕、跟隨的狀態;數據豐富的優勢讓 “中國涌現能力”后,我國可能會在AI Agent及具身領域展現特色優勢。具身領域的“手”、“眼”、“腦”、“模型”等都將是我們關注及學習的重點。我們將持續不斷深耕研究,挖掘最先進、前沿的的賽道資訊,希望和感興趣的朋友多多交流探討。正如著名科學家所說:"智能不僅存在于頭腦中,也存在于身體里。"具身智能的發展,正在讓這句話變成現實。讓我們拭目以待,見證這場改變的發生。
關于一村淞靈
一村淞靈是一村資本位于深圳的全資子公司,專注AI早中期投資,打造淞靈AI生態朋友圈。
關于深圳一村淞靈私募創業投資基金管理有限公司(簡稱“一村淞靈”或“公司”)一村淞靈成立于2013年,是一家位于深圳的長期聚焦人工智能、數字經濟的私募股權投資管理機構。自成立以來,以其深植產業的投資邏輯、成熟專業的投資能力,公司先后發起并受托管理了國家科技部、國家發改委、深圳市引導基金、青島市經信委、深圳市天使引導基金、前海引導基金等多支政府參股基金,在管資產規模達20億元。
通過踐行產融結合的投資策略和管理模式,經典案例包括:生命科學智造企業華大智造、醫藥數字化平臺“藥師幫”、光電半導體企業“縱慧芯光”、全球領先的AI視覺服務商“視比特機器人”、全棧式3D視覺解決方案提供商“光鑒科技”、致力于顛覆式創新的AI芯片設計商“墨芯科技”、專注于云計算和數據中心數據處理器芯片(DPU)和解決方案的領先半導體公司“云豹智能”。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。
標簽: