
作者 | 山竹
出品 | 鋅產(chǎn)業(yè)(公眾號:xinchanye2021)
“據(jù)我們不完全統(tǒng)計,人形機(jī)器人本體企業(yè)已經(jīng)突破百家,產(chǎn)業(yè)鏈核心零部件企業(yè)已經(jīng)有千余家……”
在昨天(4月9日)的首屆中國人形機(jī)器人產(chǎn)業(yè)大會上,立德機(jī)器人平臺CEO潘月如是說。
實際上,自特斯拉官宣造人形機(jī)器人、OpenAI的ChatGPT發(fā)布后的過去這一年里,僅僅是人形機(jī)器人核心零部件之一的諧波減速器相關(guān)項目,國內(nèi)就涌現(xiàn)出了40多個。
人形機(jī)器人熱度空前溢于言表。
空前熱度背后有著多方面原因,鋅產(chǎn)業(yè)此前文章我們做過一些解釋,這里不再過多贅述。
值得注意的是,這樣的熱度,讓人形機(jī)器人成了又一個“政產(chǎn)學(xué)研用”融合推進(jìn)的先鋒產(chǎn)業(yè)。
由此,北京、上海、深圳、浙江等地相繼涌現(xiàn)出了人形機(jī)器人創(chuàng)新中心,這其中,尤以北京最為迅速,影響力也最大。
這些人形機(jī)器人創(chuàng)新中心意義何在、作用幾何、如何運作……
在昨天的大會上,熊友軍首次以北京人形機(jī)器人創(chuàng)新中心有限公司總經(jīng)理的身份現(xiàn)身行業(yè)會議,做了《北京人形機(jī)器人創(chuàng)新中心發(fā)展思考》的演講。
關(guān)于人形機(jī)器人創(chuàng)新中心的這些問題,以及北京人形機(jī)器人創(chuàng)新中心的廬山真面目,也在這次大會上正式揭開。
01 對標(biāo)谷歌、特斯拉,做行業(yè)研發(fā)組織者
在北京經(jīng)信局支持下,北京人形機(jī)器人創(chuàng)新中心在2023年11月2日成立,股東單位包括四個,分別是京城機(jī)電、小米機(jī)器人、優(yōu)必選科技、亦莊機(jī)器人。
目前,創(chuàng)新中心有兩大定位:
第一,人形機(jī)器人核心技術(shù)研發(fā)者。
該創(chuàng)新中心主要聚焦人形機(jī)器人共性、關(guān)鍵的核心技術(shù),進(jìn)行攻堅和研發(fā)。
值得注意的是,據(jù)熊友軍介紹稱,北京人形機(jī)器人創(chuàng)新中心研發(fā)的這些技術(shù),最終會面向行業(yè)開放應(yīng)用。
第二,人形機(jī)器人生態(tài)建設(shè)者。
人形機(jī)器人創(chuàng)新中心向下由應(yīng)用企業(yè)提供下游應(yīng)用場景并提出應(yīng)用需求,創(chuàng)新中心將這些需求提煉出來,通過“揭榜掛帥”形式聯(lián)合上游核心零部件廠商進(jìn)行技術(shù)攻關(guān),形成一個開源產(chǎn)業(yè)生態(tài)。

在這樣的定位下,在今年1月,北京人形機(jī)器人創(chuàng)新中心還組建了一支陣容超級豪華的專家委員會。
該專家委員會由喬紅院士擔(dān)任主任、朱松純、黃鐵軍、魏然任副主任,黃強(qiáng)、孫富春、趙杰等9位國內(nèi)知名學(xué)者專家任委員。

而北京人形機(jī)器人創(chuàng)新中心的戰(zhàn)略規(guī)劃,正是由這樣一支專家團(tuán)隊來共同打造。
這樣的人形機(jī)器人創(chuàng)新中心,有兩個目標(biāo):
第一,成為人形機(jī)器人技術(shù)引領(lǐng)者。
第一,成為人形機(jī)器人行業(yè)研發(fā)組織者。
北京人形機(jī)器人創(chuàng)新中心對標(biāo)的是谷歌、特斯拉這樣無論在科研資金、社會資源,還是研發(fā)團(tuán)隊都相當(dāng)龐大的國際巨頭的科研團(tuán)隊。

為此,該創(chuàng)新中心正在規(guī)劃組建一個400+人的專職人形機(jī)器人研發(fā)隊伍,這支隊伍將專注在10+領(lǐng)域的人形機(jī)器人通用本體技術(shù)研發(fā),并會與行業(yè)頭部公司建立20+聯(lián)合實驗室。
為了支持這一創(chuàng)新中心發(fā)展,北京市將會為該創(chuàng)新中心提供了1000+P算力,機(jī)器人實驗平臺200+臺,實驗儀器設(shè)備100+套,實驗測試場地2000+㎡。
02 創(chuàng)新中心的“四年規(guī)劃”
調(diào)動這么多資源、投入如此巨資打造的創(chuàng)新中心,如今已經(jīng)制定了明確的研發(fā)目標(biāo)。
總體來說,是要打造軟硬兩個母平臺:
通用人形機(jī)器人“硬件母平臺”和大模型+開源運控系統(tǒng)“軟件母平臺”。
由這兩個母平臺,最終來支撐面向不同應(yīng)用領(lǐng)域的人形機(jī)器人本體研發(fā)。

具體來看,這兩個終極目標(biāo),在未來這四年里,又被切分為五個重點任務(wù)分四步來落實:
2024年開始,以人形機(jī)器人本體研制為主,搭建人形機(jī)器人通用本體原型,實現(xiàn)通用本體+基本運動控制能力;
2024-2025年,以人工智能驅(qū)動為主,研發(fā)人形機(jī)器人通用大模型,搭建領(lǐng)域模型,實現(xiàn)「通用本體+小腦」;
2024-2027年底,以大模型驅(qū)動為主,與生態(tài)合作伙伴共創(chuàng)開源工具鏈,搭建開源工具軟件生態(tài),實現(xiàn)「通用本體+小腦+大腦」;
2025-2027年,以產(chǎn)業(yè)生態(tài)建設(shè)為主,打造開源OS和開發(fā)者社區(qū),完成人形機(jī)器人開源OS建設(shè)及開源社區(qū)搭建。

不難發(fā)現(xiàn),這樣的發(fā)展思路,其實正是遵從了工信部在2023年10月印發(fā)的《人形機(jī)器人創(chuàng)新發(fā)展指導(dǎo)意見》。
通過這樣一個四年計劃,北京人形機(jī)器人創(chuàng)新中心最終是希望可以構(gòu)建人形機(jī)器人全棧技術(shù)生態(tài),并通過這樣的全棧技術(shù)生態(tài)賦能行業(yè)生態(tài)建設(shè)。

具體到運動控制方面,創(chuàng)新中心是要搭建人形機(jī)器人通用本體和大模型之間的橋梁,為具身智能大模型提供任務(wù)級接口。
圍繞通用運動智能,創(chuàng)新中心從通用運動控制和通用環(huán)境移動兩個領(lǐng)域規(guī)劃了「強(qiáng)化學(xué)習(xí)通用本體控制」、「強(qiáng)化學(xué)習(xí)復(fù)雜子任務(wù)庫」、「地形感知強(qiáng)化學(xué)習(xí)」、「Deep-RL全身運動控制」、「本體感知強(qiáng)化學(xué)習(xí)」、「WBC全身控制」、「步態(tài)模型優(yōu)化」七大任務(wù)方向。

在大模型方面,由于現(xiàn)在通用具身多模態(tài)大模型技術(shù)依然處于早期階段,創(chuàng)新中心現(xiàn)在會基于具身多模態(tài)大模型的能力邊界,先在垂直領(lǐng)域做進(jìn)一步場景化。
例如,在數(shù)據(jù)層面,構(gòu)建工業(yè)制造場景的人形多模態(tài)「環(huán)境感知-自然語言-運動規(guī)劃」數(shù)據(jù)收集平臺和數(shù)據(jù)集,任務(wù)參數(shù)不低于100億;
在技術(shù)層面,面向工業(yè)制造場景,構(gòu)建人形機(jī)器人的「語義推理」、「視覺推理」、「機(jī)器人大模型壓縮和加速」等核心模塊,提升機(jī)器人系統(tǒng)的感知能力、語音識別能力、自然語言處理能力、任務(wù)決策和規(guī)劃能力。

這其中,具身多模態(tài)大模型,又是一項頗具挑戰(zhàn)的任務(wù)和工作。
03 具身大模型,又該怎么做?
當(dāng)下,針對人形機(jī)器人具身多模態(tài)大模型的研究,行業(yè)普遍認(rèn)為應(yīng)該通過云端大模型做決策控制,端側(cè)小模型做具體執(zhí)行操作來實現(xiàn)具身智能。
這其中,數(shù)據(jù)是關(guān)鍵,數(shù)據(jù)收集和數(shù)據(jù)融合又是兩大行業(yè)難題。
在創(chuàng)新中心的規(guī)劃中,針對數(shù)據(jù)收集會先行構(gòu)建一個數(shù)據(jù)生成集成平臺。
借助大模型的文本、圖像等生成能力,以多智能體協(xié)作的方式,在世界知識遷移的基礎(chǔ)上,通過虛實結(jié)合方式,構(gòu)建跨模態(tài)融合數(shù)據(jù)生成體系。
在這個過程中,創(chuàng)新中心會研究機(jī)器人領(lǐng)域「任務(wù)-本體-環(huán)境」數(shù)據(jù)生成方法,建設(shè)機(jī)器人數(shù)據(jù)生成平臺。

在機(jī)器人語音推理核心模塊構(gòu)建方面,創(chuàng)新中心會基于思維鏈技術(shù),將語義理解分為多個環(huán)節(jié),并通過邏輯連接實現(xiàn)連貫的推理思維,構(gòu)建機(jī)器人推理能力。
通過設(shè)計推理策略(如邏輯推理、概率推理、語義推理)、融合外部知識源(如知識圖譜和領(lǐng)域?qū)<抑R),實現(xiàn)大模型推理能力的自我優(yōu)化、迭代優(yōu)化和集成優(yōu)化,增強(qiáng)大模型的推理表現(xiàn)。

為了提升人形機(jī)器人視覺推理能力,在機(jī)器人的視覺推理核心模塊方面,創(chuàng)新中心則會基于生成式抽象推理技術(shù)與持續(xù)學(xué)習(xí)等方法,通過多模態(tài)學(xué)習(xí)挖掘特征(對齊圖像特征與文本特征),使機(jī)器人更好地理解圖像與文本之間的關(guān)聯(lián)。
將規(guī)律學(xué)習(xí)建模為馬爾科夫鏈?zhǔn)缴蛇^程,讓機(jī)器人通過推理過程逐步生成可能的解釋和結(jié)果,從而實現(xiàn)對復(fù)雜圖像規(guī)律的推理。

而由于機(jī)器人在本體端算力和成本受限的原因,往往又需要將大模型小型化,來構(gòu)建可以在端側(cè)部署的邊緣小模型,這時,就需要做模型壓縮和加速。
創(chuàng)新中心基于位拆分的量化模型壓縮方法,通過分析量化模型壓縮的精度損失上限,形成不同位寬的量化模型壓縮依據(jù),減少模型的存儲需求和計算復(fù)雜度,從而在資源受限的邊緣側(cè)實現(xiàn)高效的推理能力。

就正在成為全球科技競爭焦點的人形機(jī)器人,國內(nèi)各地不斷涌現(xiàn)的創(chuàng)新中心,實際上是“政產(chǎn)學(xué)研用”的融合產(chǎn)物。
從北京人形機(jī)器人創(chuàng)新中心這次對外公開的規(guī)劃中,鋅產(chǎn)業(yè)了解到,創(chuàng)新中心在當(dāng)下產(chǎn)業(yè)中希望扮演的其實是一個共性技術(shù)攻關(guān)者、產(chǎn)業(yè)生態(tài)構(gòu)建者。
相較于全球科技巨頭而言,國內(nèi)目前還沒有像谷歌研究院、微軟研究院這樣擁有深厚底蘊(yùn)、無盡資源的產(chǎn)業(yè)研究機(jī)構(gòu),國內(nèi)幾家互聯(lián)網(wǎng)/科技巨頭也還沒有在人形機(jī)器人領(lǐng)域投入足夠多的資源來參與全球競爭。
創(chuàng)新中心想要做的,正是彌補(bǔ)這一塊中國在全球科技競爭中的短板。
至于這樣的人形機(jī)器人創(chuàng)新中心,如何輸出產(chǎn)業(yè)價值?能夠產(chǎn)生多大的能量?
將會是接下來中國人形機(jī)器人產(chǎn)業(yè)發(fā)展的一個重要課題。