前不久,上海一場以“勞動最光榮”為主題的技能大賽,用同臺競技的方式,以一場壓力測試,讓我們看到,機器人距離真實場景落地還有多遠距離要走。無疑,仍處于發(fā)展早期階段的具身智能,無論是大腦、小腦還是本體,尚有大量瓶頸待突破。
大腦不夠聰明,訓練數(shù)據(jù)不夠,那就使用更多合成數(shù)據(jù);機器人通用性難實現(xiàn),那就先聚焦在一些特定場景的應用……行業(yè)喧囂熱鬧,方興未艾,創(chuàng)業(yè)者們紛紛選擇自己的生態(tài)位,以“沿途拾蛋”的方式,共同推動這一未來產(chǎn)業(yè)的加速成熟。
賽事從“表演型”向“實用型”進發(fā)
與單純追求視覺表現(xiàn)力和沖擊力不同,中國人形機器人產(chǎn)業(yè)正以“好用、管用”為導向,加速商業(yè)化落地進程。前不久,以“勞動最光榮”為主題的國際人形機器人技能大賽在上海舉辦??梢钥吹?,隨著人工智能、傳感器技術(shù)迭代升級,人形機器人正從實驗室走進更多工廠和家庭,逐步從“表演型”邁向“實用型”。
翻開賽事手冊可以看到,汽車貼標、零部件上下料、衣服折疊、垃圾清理、商品掃碼等工業(yè)、家庭、商業(yè)場景實現(xiàn)全覆蓋。如果只看比賽項目,或許會以為這是一項人類勞動技能比賽。
剛剛完成比賽的機器人操控者王思浩告訴記者:“比如疊衣服這個動作,對人來說可能很簡單,但對于機器人來說,卻需要調(diào)動視覺、觸覺等各個系統(tǒng),非常復雜。但也因為如此復雜,人形機器人才可以在日常生活中真正幫到人類?!?/p>
更多具身智能產(chǎn)業(yè)企業(yè)也不再單純追求“人形”。在一家主做仿生手的企業(yè)展位,記者了解到,該企業(yè)的產(chǎn)品并不一定需要裝在人形機器人身上,搭載在一個平臺上即可完成從1萬元現(xiàn)金中抽取出5張紙幣等銀行柜員的基本操作。
以賽事為橋梁,拉近了機器人公司和場景應用方之間的距離。觀看了商業(yè)場景賽事后,來自上海的朱先生立馬向參賽隊伍提出訴求。“我這邊有1萬多臺自動售賣機。機器人能不能跟我的自動售賣機配合,在辦公樓里完成下單、支付、取貨、配送的完整工作流程?”
回顧來看,從北京的人形機器人半程馬拉松賽,到無錫的具身智能機器人運動會,到杭州全球人形機器人格斗大賽,再到此次上海舉辦的國際人形機器人技能大賽,今年以來,人形機器人迎來了多場賽事。
“以往賽事更多聚焦機器人的運動能力,我們更看重讓機器人具備進入各類場景,乃至千家萬戶去作業(yè)的能力。隨著去年年底‘模塑申城’方案的全面實施,上海積極發(fā)揮場景應用優(yōu)勢,幫助人形機器人‘解鎖’新技能,推動軟硬件產(chǎn)品實現(xiàn)多元場景落地。”上海市人工智能行業(yè)協(xié)會秘書長鐘俊浩這樣介紹此次大賽的“上海特色”。
不可否認,人形機器人仍處在發(fā)展初期,從實驗室走向工廠、走向家庭,仍有諸多技術(shù)難點待突破。通過這場賽事構(gòu)建出的基于真實場景的壓力測試場,我們看到了人形機器人率先在某些特定場景中應用的可能,以“沿途拾蛋”的方式不斷積累數(shù)據(jù)、成熟技術(shù)。
腦部進化 行業(yè)突圍“數(shù)據(jù)荒”
從賽事來看,人形機器人在精度、速度、泛化度等維度仍顯笨拙。行業(yè)人士表示,訓練數(shù)據(jù)的不足,是當下阻礙機器人進化的一大瓶頸。
以ChatGPT、DeepSeek為代表的大語言模型,其智能的涌現(xiàn),離不開巨量的文本數(shù)據(jù)。具身智能模型能力的提升,同樣有賴于大量訓練數(shù)據(jù)的輸入。不過,與文本數(shù)據(jù)相比,具身智能的訓練數(shù)據(jù)十分稀缺,尤其是多模態(tài)數(shù)據(jù)?!皵?shù)量上可能有百萬倍的差距。”中國工程院外籍院士張建偉說。
為了解決訓練數(shù)據(jù)缺乏的問題,機構(gòu)和企業(yè)紛紛行動。比如,特斯拉Optimus的訓練數(shù)據(jù)是讓人在遠程操作機器人的過程中,將操作動作和環(huán)境感知數(shù)據(jù)進行記錄;谷歌DeepMind聯(lián)手斯坦福大學等推出了Open X-Embodiment Dataset,包含100多萬條真實機器人軌跡。國內(nèi)人形機器人頭部企業(yè)智元也發(fā)布了百萬真機數(shù)據(jù)集開源項目AgiBot World。
不過,百萬體量的數(shù)據(jù),對于訓練具身智能大模型來說,遠遠不夠。
“頭部車廠每天回流的數(shù)據(jù)在1億條左右。但在具身智能領(lǐng)域,如今我們采集到的最大數(shù)據(jù)集也只有百萬條規(guī)模。當人形機器人的存量尚未達到自動駕駛領(lǐng)域百萬級設(shè)備的規(guī)模時,依賴海量真實數(shù)據(jù)訓練不僅成本高昂,而且周期冗長,極大制約了大模型的訓練效率與場景適應能力?!北本┿y河通用機器人有限公司創(chuàng)始人兼CTO王鶴說。
行業(yè)解決數(shù)據(jù)難題的路徑之一,是合成數(shù)據(jù)。合成數(shù)據(jù)(Synthetic Data)是一種模仿真實世界數(shù)據(jù)的非人工創(chuàng)建的數(shù)據(jù),它是由基于生成式人工智能技術(shù)的計算算法和模擬創(chuàng)建而成。在前不久舉辦的2025張江具身智能開發(fā)者大會上,銀河通用通過完全基于合成數(shù)據(jù)的端到端抓取基礎(chǔ)大模型GraspVLA,以及導航大模型,展示了合成數(shù)據(jù)的價值。
據(jù)悉,GraspVLA采用10億級別的合成大數(shù)據(jù)進行訓練。目前銀河通用安裝了上述大模型的人形機器人已經(jīng)用于24小時無人藥店?!?0多平方米的藥店里面,有5000多種藥品,6000多個貨道,可全都由機器人完成取貨,打包后送至外賣柜等待上門領(lǐng)取?!蓖斛Q介紹,目前由人形機器人運營的24小時無人藥店已有6家在北京實現(xiàn)常態(tài)化運營,今年年底預計全國擴張至100家。
當然,合成數(shù)據(jù)方法并非沒有局限性。雖然目前生成視覺數(shù)據(jù)的能力相對成熟,但生成其他模態(tài)的數(shù)據(jù),包括觸覺、溫度和聲音數(shù)據(jù)等,仍然是一項重大挑戰(zhàn)。此外,關(guān)于合成數(shù)據(jù)路線,行業(yè)也有不少擔憂,比如“Sim2Real Gap”,也即仿真環(huán)境與真實世界匹配度不夠,導致合成數(shù)據(jù)訓練存在有效性問題。
方興未艾的具身智能:
關(guān)于未來我們可以期待什么
從全球視野來看,具身智能產(chǎn)業(yè)發(fā)展呈現(xiàn)出創(chuàng)新活躍的多元競爭態(tài)勢。美國以頂尖科研機構(gòu)與科技企業(yè)為核心,在算法、芯片等核心技術(shù)領(lǐng)域取得突破;歐洲持續(xù)推進具身智能在工業(yè)場景中的應用探索。中國則得益于完整的產(chǎn)業(yè)鏈優(yōu)勢,集合了本體制造、算法優(yōu)化,再到落地場景驗證的全棧式技術(shù)儲備,成為具身智能產(chǎn)業(yè)的一處高地。
“我國人形機器人初步建立了‘大腦、小腦、肢體’的創(chuàng)新體系,而這也成為世界范圍內(nèi)被廣泛應用的技術(shù)體系。目前,我國人形機器人整機產(chǎn)品達到國際先進水平,涌現(xiàn)了宇樹、智元、傅利葉、星動紀元、銀河通用等一批企業(yè)。在CS2025上,英偉達CEO黃仁勛身后的14臺人形機器人,4臺來自美國,6臺來自中國?!眹毓步ㄈ诵螜C器人創(chuàng)新中心首席科學家江磊介紹。
江磊表示,在核心零部件方面,我國已經(jīng)實現(xiàn)了安全有效的供給,尤其是在感知、控制、驅(qū)動、傳動模塊,在低成本約束下具有一定的領(lǐng)先優(yōu)勢。創(chuàng)新生態(tài)也逐漸完善,形成跨領(lǐng)域企業(yè)、本體初創(chuàng)企業(yè)、高??蒲性核?、上游部組件企業(yè)以及地方政府支持下的創(chuàng)新中心等5類創(chuàng)新主體。
“整體來看,我國具身智能產(chǎn)業(yè)規(guī)模爬升迅速,示范應用仍在培育階段?!苯谡f。
仍處于早期階段的具身智能產(chǎn)業(yè),無論是大腦、小腦還是本體,都面臨諸多瓶頸。比如,在應用方面,目前更多是抓取、擺放、組裝等一些“原子”技能的訓練,難以完成長序列任務。在技術(shù)路線上,也存在諸多爭議,比如到底是“數(shù)據(jù)驅(qū)動”還是“模型驅(qū)動”,是做通用型機器人,還是做“專用”機器人。
分歧終將收斂于實踐。目前我國已有超過100家人形機器人整機企業(yè),這些企業(yè)紛紛尋找自己的生態(tài)位,做出不同的選擇,有些聚焦于工業(yè)場景,提升負載和電池容量;有些聚焦于商用服務行業(yè),提出用“崗位化”理念生產(chǎn)“專用”型機器人;有些結(jié)合自身原有業(yè)務優(yōu)勢,聚焦康復醫(yī)療場景……
談及未來5到10年人形機器人的發(fā)展,張建偉表示,在做技術(shù)預測時,人們傾向于對近期目標過分悲觀,對遠期目標又過分樂觀。“全球來看,從20世紀80年代的美國,后來到日本,再到韓國,機器人‘狼來了’的故事已經(jīng)喊過多遍。人工智能的發(fā)展為機器人自主學習能力提升帶來了巨大想象空間,我們也隨之來到了一個新的時點?!?/p>
“能夠在家庭護理、工廠等多場景工作的通用型機器人,可能仍需10年、20年的時間來打磨。但未來5年,在抓取、裝配等場景中,具身智能應該可以完成第一批示范場景應用。在很多B端場景,如工廠、社區(qū)醫(yī)院、農(nóng)業(yè)等,圍繞收割、殺蟲打藥、采摘,以及一些簡單的家務任務,應該逐漸有專業(yè)機器人出現(xiàn)?!睆埥▊フf。