在技術日新月異的今天,機器人在舞臺上跳舞、格斗比賽中翻轉騰挪,已經不再新鮮。但在這場 " 炫技 " 的熱鬧背后,一個關鍵問題亟需回答:具身智能要真正走進生產和生活,眼下還面臨哪些技術難點?又有哪些 " 技能 " 才是真正具有落地價值的?
在 6 月 6 日至 7 日的 2025 北京智源大會上,智源研究院理事長黃鐵軍、北京人形機器人創新中心總經理熊友軍、宇樹科技 CEO 王興興、Physical Intelligence 聯合創始人兼 CEO Karol Hausman、北京大學助理教授及銀河通用創始人兼 CTO 王鶴、穹徹智能聯合創始人盧策吾等多位行業領軍人物,圍繞具身智能的現實瓶頸與未來走向展開深入探討。
機器人比賽是過程不是終點:" 能干活 " 才是具身智能的硬標準
業界人士普遍認為其具備展示、科普和訓練功能,但也有更高的期待。宇樹科技 CEO 王興興和 Physical Intelligence 聯合創始人兼 CEO Karol Hausman,認為這種 " 展示技能 " 的機器人比賽是技術展示窗口,有助于促進大眾認知和產業關注。
王興興提到:" 通過表演、比賽等形式展示機器人全身動作能力。" 他坦言,人形機器人當前在實用性上尚未全面突破,但這些表演有助于科普和市場教育,并具備一定商業價值(如租賃)。在他看來,這些 " 炫技 " 是邁向真正 " 干活 " 階段的中間步驟。
王興興進一步解釋稱,表演是實現終極目標的一部分,本質是讓機器人能夠做 " 各種全身動作 "。跳舞和格斗賽是全身動作的一部分。我們希望一個人形機器人可以做各種動作,包括跳舞、極限運動、格斗,以及家里的端茶倒水、洗衣做飯等等。他相信當 AI 技術,包括具身智能技術發展到一定階段時,一個足夠智能、能家用的機器人肯定是可以跳舞、可以打格斗賽的。
在終極目標實現前進行商業化拓展和嘗試,王興興坦言,目前讓人形機器人馬上去家里或工廠干活還不太現實。所以,在終極目標實現之前,他們希望通過參加這些表演和比賽,來展示他們已經達到的技術成果,并進行更多的商業化拓展。
" 公司終極目標是讓機器人,尤其是人形機器人,能 ‘干活’,進入家庭和工廠,解放人類生產力。" 王興興強調。
北京大學助理教授及銀河通用創始人兼 CTO 王鶴以及穹徹智能聯合創始人、上海交通大學教授盧策吾認為,接下來,機器人比賽也要從 " 看著熱鬧 " 走向 " 干著實用 ",未來應聚焦實際應用場景,通過 " 生產力比賽 " 推動核心技能的形成與優化,從而引導技術真正走向產業一線。
在眾多技能中," 移動抓取與放置 "被多位專家視為最具突破潛力的通用任務。王鶴指出,這一技能既具普適性,適用于藥房、倉儲、服務等多種場景,又對視覺主導系統高度適配,是實現具身智能商業化的關鍵節點。成功突破將標志著具身智能的第一次真正高潮。
盧策吾強調,力反饋和對物理世界的深度理解,將成為機器人應對真實復雜環境(如柔軟、粘稠、滑動等物理屬性)的重要基石,支撐更多 " 接觸密集型 " 任務的落地。
算法、數據與形態之爭:具身智能落地前夜的三重挑戰
在具身智能的發展路徑上,視覺語言行動模型(VLA)逐漸成為行業共識,被視為連接感知、語言與行為的通用架構。Karol Hausman 認為,VLA 是通往通用智能的重要基石,能夠讓機器人從互聯網等多源數據中學習并轉化為具體行動。他致力于構建一個名為 "π0" 的通用模型,可跨平臺控制不同機器人完成多種任務。他指出,當前挑戰并不在于數據量,而在于提升算法效率與模型穩定性,尤其是提升模型在陌生環境中的泛化能力。
銀河通用創始人兼 CTO 王鶴也將 VLA 視為核心技術路徑,但更強調其實用導向。他認為應優先突破如 " 移動抓取與放置 "(mobile pick and place)等具備廣泛適配性與商業價值的核心技能,并在端到端模型中融入合成數據訓練,以提高效率和落地性。
與此不同,穹徹智能聯合創始人盧策吾則關注在 VLA 框架內引入物理世界知識,尤其是力反饋等多模態信息,以壓縮模型面臨的不確定性空間。他形象地將 VLA 比作 " 火鍋底料 ",只有持續加入 " 力覺 "" 觸覺 " 等新 " 食材 ",才能提升模型對復雜任務的應對能力與系統魯棒性。
此外,在具身智能模型訓練所需求的數據方向,不同企業和機構也出現了數據策略路徑的分歧。Hausman主張從互聯網及多機器人平臺中大規模收集預訓練數據,并通過高質量小樣本精調,實現知識到行為的遷移。這也與藍鯨科技此前報道的智源新發布的具身大腦 RoboBrain 2.0 路徑類似。
也有創業公司的選擇與他們不同,比如銀河通用采訪的技術特點之一在于其背后的訓練數據,銀河通用創始人兼 CTO 王鶴提到,他們主要使用合成數據,這種數據的低成本和可擴增性,以此驅動基于 VLA 的端到端大模型。一般而言," 合成數據 " 通常涵蓋通過仿真或其他程序化方法生成的數據,其低成本和可擴增性也與仿真數據的特點相符。
王鶴認為,目前,具身智能在學術研究(強調 VLA 的泛化能力)和產業應用(需要極高的魯棒性和成功率,例如汽車工廠需要達到四個九以上的可靠性)之間存在差距,這不僅僅需要視覺數據,還需要觸覺和力反饋。
王鶴進一步強調:" 為了達到工業場景所需的高成功率(例如四個九), 不可能完全靠真實數據采集。所以,為預訓練數據一定要有大量的合成數據,才能先將成功率大幅提升,之后再通過真實數據進行進一步的優化,例如結合強化學習。"
盧策吾提到,穹徹智能在探索仿真與真實世界的融合。他提出 " 數字基因 " 理念,結合高精度仿真數據與物理反饋(如力覺),以模擬人類的下意識操作行為,提升系統在復雜、高接觸場景中的表現。
此外,目前由于人形機器人硬件的標準化和通用性對具身智能算法發展和落地有著顯著的影響。目前,具身智能的研究和產業落地面臨的最大痛點之一就是數據瓶頸,這部分原因正是由于機器人硬件平臺缺乏統一性。
未來,真正的通用機器人究竟是什么形態?一定是人形機器人的形態嗎?
"我過去在多個場合公開說過好幾次,不堅持一定要做人形。" 王興興明確表示,他認為人形目前因人類數據可用性而具備訓練優勢,但長遠看應根據任務需求發展多樣化形態。對于宇樹科技來說,同時開發機器狗和人形機器人是 " 順理成章的事情 "。他甚至指出,要實現移動,輪子底盤也是 " 非常實用的 ",是腿部行走之外的實際選擇。
" 在 AGI(通用人工智能)或通用 AI 出現之后,機器人的形態將會‘千奇百怪’。"王興興談到。
北京人形機器人創新中心總經理熊友軍則堅定看好人形機器人。他指出,從市場容量、自然交互到人類環境適配性,人形構型在通用性上具備長期競爭力,雖然短期內仍面臨成本與技術門檻,但未來潛力巨大。其團隊正圍繞 " 慧智開悟 " 通用智能體和 " 天工 2.0" 等平臺推進人形機器人能力提升。
對于具身智能的未來,智源研究院理事長黃鐵軍提到,從宏觀視角看,全面媲美人類的 AGI(包括具身)仍需數十年。在未來 5-10 年,具身智能更可能專注于幫助人類完成不愿做的危險或體力活。
" 具身機器人的最終使命是超越人類,去探索人類無法到達的星辰大海。" 黃鐵軍說。
來源:藍鯨財經