日前,2024世界機器人大會在京舉辦。諾亦騰聯(lián)合創(chuàng)始人、CTO戴若犁博士受邀出席大會專題論壇「人機融合:共創(chuàng)具身智能機器人新時代青年精英論壇」,發(fā)表主題演講《用動作捕捉技術(shù)構(gòu)建具身智能數(shù)據(jù)工廠》。
“自去年下半年以來,諾亦騰動作捕捉產(chǎn)品在機器人領(lǐng)域中的銷售比例大幅增加,這一變化促使我們深入機器人行業(yè)進(jìn)行研究,發(fā)現(xiàn)這一領(lǐng)域?qū)τ诟哔|(zhì)量人類動作數(shù)據(jù)的需求正在急速增加?!?/em>
在演講中,戴博士從動作捕捉技術(shù)與具身智能機器人領(lǐng)域的關(guān)系切入,分享了他的洞察與見解。他詳細(xì)闡述了諾亦騰具身智能機器人解決方案的工作流程,強調(diào)人體與機器人本體之間的映射在整體工作流程之中的重要性與挑戰(zhàn)性;闡釋四種主流機器人數(shù)據(jù)集生產(chǎn)方式的差異,并最終通過介紹諾亦騰與行業(yè)內(nèi)合作伙伴的落地案例,再次強調(diào)建立大規(guī)模具身智能數(shù)據(jù)工廠(DataFactory)的重要性與可行性。
以下為此次演講的全文整理。
感謝各位。我是做動作捕捉的,所以先用簡單一句話跟大家解釋一下什么是動作捕捉。動作捕捉就是用各種技術(shù)的手段,把人的動作數(shù)字化。人的動作很難變?yōu)闀r間域上面的數(shù)字表達(dá),因此需要用到一些復(fù)雜的數(shù)學(xué)方式,通過計算機視覺、各種傳感器的方式,把人的動作數(shù)字化。
那動作捕捉為何和機器人,或者說人形機器人相關(guān)呢?先簡單介紹一下我的公司。諾亦騰位于北京,是一家國家級的專精特新小巨人企業(yè)。動作捕捉這件事情,其實諾亦騰已經(jīng)做了十二年了。在過去這十幾個年頭里,機器人領(lǐng)域其實并不是我們的市場重點。但是從去年下半年開始,這個領(lǐng)域中的合作激增,相關(guān)營收數(shù)字翻了四倍。有這么多的機器人領(lǐng)域用戶與我們合作,去采集高質(zhì)量的,數(shù)字化的人類動作,我們不得不高度重視。
動作捕捉在具身智能領(lǐng)域的
五個應(yīng)用方向
通過對機器人應(yīng)用領(lǐng)域進(jìn)行深入調(diào)研,我們發(fā)現(xiàn)具身智能人形機器人領(lǐng)域的客戶,主要在以下五個方向應(yīng)用諾亦騰的動作捕捉設(shè)備。
部分圖片源于 robotics.tokyo 以及 www.tesla.com/AI
遙操作(Teleoperation)。人類通過身體/手指來遠(yuǎn)程控制機器人,還可以通過虛擬現(xiàn)實設(shè)備,實現(xiàn)遠(yuǎn)程存在(Telepresence),更加真實與靈活地操控機器人。在諾亦騰的早期,就有像早稻田大學(xué)背景的 TokyoRobotics 這樣的公司在利用諾亦騰的動作捕捉設(shè)備進(jìn)行遙操作任務(wù),包括疫情期間的遠(yuǎn)程巡檢、數(shù)據(jù)中心服務(wù)器維護(hù)等。甚至還有一家智利的企業(yè)利用諾亦騰動捕遙操作機器人在火山口采集樣本。
人類-機器人在環(huán)境中的協(xié)同工作。利用動作捕捉技術(shù),還可以幫助機器人更好地融入人類存在的環(huán)境中,和人類共同完成任務(wù),同時對任務(wù)的完成情況進(jìn)行實時監(jiān)測。
機器人示教。通過人類對機器人進(jìn)行示范教育,也就是Human Demonstration,在機器人領(lǐng)域中是一種非常成熟有效的方法。人類作出示范動作,通過動作捕捉系統(tǒng)映射到機器人本體并且記錄。通過采集大量的人類示教數(shù)據(jù)去訓(xùn)練機器人,以便在機器人智能尚未成熟時,幫助其學(xué)習(xí)如何主動執(zhí)行任務(wù)。
大會論壇現(xiàn)場
以上三個方向都屬于人在回路(Human-in-the-loop)的范疇。對于具身智能機器人的智能提升來說,是非常重要的。特別是在機器人示教與訓(xùn)練數(shù)據(jù)采集方向,如果能將這一路徑規(guī)?;?,形成大規(guī)模的數(shù)據(jù)工廠,將會有更大的收益。
數(shù)字孿生與高精度量測。這一能力在機器人研發(fā)的驗證環(huán)節(jié)至關(guān)重要。結(jié)構(gòu)耦合而成的機器人并不是理想的剛性體,它在運動執(zhí)行任務(wù)的過程中會出現(xiàn)一定程度的形變。特別是在大規(guī)模訓(xùn)練數(shù)據(jù)采集流程中,對大空間、多目標(biāo)進(jìn)行實時量測,獲取機器人的高精度姿態(tài)與運動軌跡,將幫助研究人員發(fā)現(xiàn)本體存在的問題并及時修正。
訓(xùn)練數(shù)據(jù)集。最終通過采集海量的真實行為數(shù)據(jù),并對其進(jìn)行標(biāo)注,將構(gòu)建起通用的數(shù)據(jù)集,進(jìn)一步提升機器人的性能,為機器人訓(xùn)練提供有力的支持。目前來看,通過規(guī)?;@一路徑是有著非常明確的預(yù)期收益的。而諾亦騰作為目前動作捕捉領(lǐng)域中經(jīng)驗突出,參與過豐富項目的廠商,愿意與更多本體廠商展開合作,只有動捕廠商與本體廠商通力合作,才能做到最好。
為何說遙操作
是極為重要的
在這里重點說一下遙操作(Teleoperation)。傳統(tǒng)來說,遙操作是為了在惡劣的、人力不可達(dá)的環(huán)境中去完成一些具體的任務(wù)。但是后來我們發(fā)現(xiàn),有越來越多的科研工作者開始利用遙操作去收集數(shù)據(jù),并對機器人進(jìn)行訓(xùn)練。
打個比方來說,包括 Tesla 在內(nèi)的智能車企業(yè),他們生產(chǎn)的汽車就是遙操作設(shè)備,是人類開著一個智能載具在真實環(huán)境中完成運載的任務(wù)。最終的目標(biāo),一定是要達(dá)到L5級別的自動駕駛,但是在此之前,要有大量的數(shù)據(jù)信息作為提升智能的「原材料」,開車的過程其實和遙操作一個智能運載機器人的過程是一致的。
諾亦騰合作伙伴,智元機器人
遠(yuǎn)征 A2 機器人采用諾亦騰動作捕捉系統(tǒng)進(jìn)行遙操作控制
在這里再介紹幾個合作伙伴的例子:一個是智元機器人,他們利用了諾亦騰的動作捕捉設(shè)備去進(jìn)行機器人的遙操作,共同探索提升算法的「Sim2Real2Sim」路徑。我專門和智元研究院的姚卯青姚院長進(jìn)行過溝通,他表示是非??春脛幼鞑蹲竭b操作這條路徑的。
智元A2機器人可以通過諾亦騰動作捕捉系統(tǒng)在真實物理世界與虛擬空間中進(jìn)行遙操作采集數(shù)據(jù)集,用于訓(xùn)練策略/控制規(guī)則(Policy)。經(jīng)過優(yōu)化的Policy將被遷移回到真實環(huán)境中的本體,實現(xiàn)智能算法的提升。這樣的算法優(yōu)化路徑,既能在最大程度上消除 Real2Sim Gap,同時也將 Sim2Real Gap 盡量保留在可控的視覺部分,以獲得更佳的訓(xùn)練效果。
“在遙操作流程中,sensing(動作捕捉)和actuating(機器人本體)的廠商需要通力合作,才能把流程做到最順暢,效果做到最好。動作捕捉系統(tǒng)可以捕捉更多的關(guān)節(jié),更豐富的數(shù)據(jù),相比需要算法IK逆向解算的其他動作采集方式,更為便利,更為穩(wěn)定,信息的裕量也更好。動作捕捉系統(tǒng)原生支持靈巧手和全身運動的捕捉,將人形機器人更多應(yīng)用場景變?yōu)榭赡?。?/em>
—— 姚卯青,諾亦騰業(yè)界合作伙伴,智元機器人研究院 執(zhí)行院長
諾亦騰合作伙伴,千尋智能機器人
采用諾亦騰動作捕捉系統(tǒng)進(jìn)行遙操作控制
另一家廠商是千尋智能,同樣在動捕遙操作具身智能機器人這條路上與諾亦騰有非常良好的合作,共同探索高效率,高精度的遙操作流程和數(shù)據(jù)產(chǎn)出流程。
“過去十年,我曾帶隊在工業(yè)機器人/協(xié)作機器人領(lǐng)域量產(chǎn)交付了幾十款,超20000臺產(chǎn)品,深深敬畏從科研到實用,從樣機到產(chǎn)品的巨大鴻溝。同樣,諾亦騰在行業(yè)里也有十余年的商業(yè)化成功經(jīng)驗,全球市場占有率處于領(lǐng)先地位,相信兩家‘老司機企業(yè)’聯(lián)手,一定能做好機器人遙操作的產(chǎn)品化落地?!?/em>
—— 韓峰濤,諾亦騰業(yè)界合作伙伴,千尋智能創(chuàng)始人兼CEO
動作捕捉系統(tǒng)可以捕捉更多的關(guān)節(jié),更豐富的數(shù)據(jù),相比需要算法IK逆向解算的其他動作采集方式,更為便利,更為穩(wěn)定,信息的裕量也更好。動作捕捉系統(tǒng)原生支持靈巧手和全身運動的捕捉,可以將人形機器人更多應(yīng)用場景變?yōu)榭赡?。事實上在這次大會上,許多企業(yè)也都在他們的研發(fā)過程中進(jìn)行遙操作,在機器人自主性還不滿足需求,數(shù)據(jù)還不充足的情況下,去積累數(shù)據(jù)。因此這件事情是非常非常重要的。
諾亦騰
如何服務(wù)具身智能領(lǐng)域客戶?
那么作為一家動作捕捉的廠商,我們是如何服務(wù)具身智能人形機器人這個領(lǐng)域中的眾多客戶的呢?
點擊查看大圖
首先來說,這個流程從我們自己的子系統(tǒng)開始,也就是動作捕捉。在這個流程圖中,我們的 Motion Capture Subsystem 追求的是高精度、低時延、高質(zhì)量、高頻率的人類動作數(shù)據(jù)采集與記錄。
隨后的環(huán)節(jié),是諾亦騰自己的一套數(shù)據(jù)處理與輸出的閉環(huán),將采集到的原始信息,翻譯成為人體的動作數(shù)據(jù)信息,其中有很多的Know How,但這件事情諾亦騰已經(jīng)做了12年,服務(wù)了各個領(lǐng)域的大小客戶,這件事情是我們非常熟悉的了。
有一件往往被許多本體廠商所忽視的事情:人的“本體”和機器人本體,有著本質(zhì)上的區(qū)別。我舉個例子:我的肩膀,可以看做是一個有三自由度的球頭,但是大部分人形機器人的肩部都是三個結(jié)構(gòu)上分離的單自由度電機。
因此在我們看來,本體映射是這個流程的關(guān)鍵,也是非常困難的。如果直接輸出人的動作給到機器人,機器人是學(xué)不了的,你要輸出和機器人構(gòu)型一樣的自由度,給到和機器人構(gòu)型一樣的位姿的信息,甚至還要有一些包括速度信息在內(nèi)的其他信息,機器人才能夠利用這一信息去進(jìn)行學(xué)習(xí)。在我們看來,這一步最合適放在動捕子系統(tǒng)中,由動捕廠商來提供服務(wù)。
大會論壇現(xiàn)場
之后還要對工作平臺進(jìn)行適配。只提需求,不匹配執(zhí)行路徑是不行的。作為一個“老”算法工程師,我最敬畏的一點就是從 Paper 到產(chǎn)品之間的這個漫長的路程,其中有大量的工程量,要把它轉(zhuǎn)變成為一個能用、能賣、能維護(hù)、能夠長期使用不出現(xiàn)錯誤,魯棒性足夠高的系統(tǒng),是非常非常困難的。因此需要針對主流的工作平臺進(jìn)行匹配。
在這里值得稱道的一家企業(yè)是 Nvidia ,他們從很早的時候就開始在具身智能人形機器人這個方向進(jìn)行投入。因此諾亦騰的解決方案也對這個平臺進(jìn)行了適配。目前這一解決方案所能適配的開發(fā)語言、平臺包括但不限于 C++ / Python / ROS 以及 Nvidia Isaac。在此之后,才最終來到被驅(qū)動的機器人本體以及最終產(chǎn)出的訓(xùn)練數(shù)據(jù)集。
四種方式
如何生產(chǎn)機器人訓(xùn)練數(shù)據(jù)集?
最后,我想多用一點時間講講機器人的訓(xùn)練數(shù)據(jù)集的幾種生產(chǎn)模式,這是我這次分享的關(guān)鍵內(nèi)容。
部分圖片源于developer.nvidia.com/isaac/sim 等公開平臺
現(xiàn)在說到具身智能機器人領(lǐng)域的數(shù)據(jù)集的生產(chǎn),一般來說有四種比較清晰的流派。不同的科研工作者可能會選擇不同的方向。但是對于業(yè)界真正有實力的廠商來說,如果想要真正的落地,實現(xiàn)泛化抓取,完成任務(wù),通常會選擇其中兩種方法。
基于真實本體的數(shù)據(jù)集生產(chǎn)方式。比如說 Tesla 就選擇了這一方式,我的一些客戶廠商也選擇了這個方向。真實的人類穿戴動作捕捉設(shè)備遙操作一個真實本體,完成真實環(huán)境的任務(wù),同時采集這個本體真實的視覺信息、運控信息、傳感信息,用來進(jìn)行訓(xùn)練,這是最高質(zhì)量的、真實的數(shù)據(jù),沒有任何 Gap。當(dāng)然這種方式的成本是最高昂的,一個采集席位就需要一套機器人本體,一套動作捕捉設(shè)備,以及一個遙操作采集人員。
諾亦騰 HybridTrack 混合運動測量系統(tǒng)動作捕捉
應(yīng)用于虛擬本體遙操作
另一種方式是Nvidia等廠商正在力推的一個方向,基于虛擬本體的數(shù)據(jù)集生產(chǎn)。它的前半截還是真實的,是人類穿戴真實的動作捕捉設(shè)備,但是遙操作的對象是一個在物理仿真的虛擬環(huán)境中的,和真實本體構(gòu)型完全一致的虛擬機器人。人類遙操作這個虛擬本體在虛擬環(huán)境中完成虛擬任務(wù),同時采集虛擬合成的視覺信息,運控信息以及合成力觸覺信息。它的數(shù)據(jù)質(zhì)量也是非常高的,因為本體的構(gòu)型是一致的,而且也確實是真人在進(jìn)行 Human Demostration,但這種方式多少還是存在著一些 Domain Gap。
圖中所示為利用諾亦騰動作捕捉系統(tǒng)遙操作
Nvidia Isaac 平臺中的智元遠(yuǎn)征 A2 機器人虛擬本體
這些方法成本相對高昂,盡管如此,有實力的企業(yè)特別是期待早期就能閉環(huán)任務(wù)執(zhí)行能落地的企業(yè)依然傾向于采用這兩種方法(更多的是第一種)來采集數(shù)據(jù)。追求的還是數(shù)據(jù)的質(zhì)量和數(shù)據(jù)在本體上的兼容性。實際上,主要問題并不是成本,而是效率。效率仍然是數(shù)據(jù)采集的最大瓶頸。例如,通過遙操作機器人進(jìn)行任務(wù)時,其速度只有真人的五分之一。而第三種方法具有較高的效率。
第三種方式是直接基于人體運動數(shù)據(jù)的數(shù)據(jù)集生產(chǎn)。讓人類穿戴機器人本體上的那些傳感器,也穿戴上動作捕捉設(shè)備,讓人去完成一個具體的任務(wù)。由于這種方式脫離了本體,甚至可以完成一些非常復(fù)雜困難的任務(wù),因此效率是非常高的。但是其中存在著巨大的 Human2Robot Gap,甚至要比剛才所說的真實本體與虛擬本體之間的 Gap 還要大,在科研方面的難度是非常非常高的。
大會論壇現(xiàn)場
這種方法依賴于相信「Scaling Law」能彌合所有差距,但目前我對此暫時持懷疑態(tài)度。這個假設(shè)類似讓一個嬰兒不允許實操只能看視頻學(xué)會走路和拼樂高。當(dāng)然如果這一方法成功實現(xiàn),將極大降低數(shù)據(jù)生產(chǎn)成本。我更傾向于相信合成數(shù)據(jù)和真實數(shù)據(jù)將以一個合適的比例進(jìn)行組合,達(dá)到質(zhì)量與成本的平衡。
建設(shè)未來極有價值的
具身智能數(shù)據(jù)工廠
一個成熟的,結(jié)合了動作捕捉/高精度追蹤子系統(tǒng)、數(shù)據(jù)處理與輸出流程、本體映射工作流以及支持多種平臺、本體的解決方案,如果再設(shè)計得好,能易于搭建,能高效運轉(zhuǎn),是能支持建設(shè)起來大規(guī)?!妇呱碇悄軘?shù)據(jù)工廠」的。
諾亦騰攜手深圳市人工智能與機器人研究院(AIRS)
籌建大規(guī)模數(shù)據(jù)工廠,本圖僅為示意參考
“廣東省具身智能機器人創(chuàng)新中心致力于建設(shè)國家‘具身智能機器人產(chǎn)業(yè)集群的技術(shù)型服務(wù)平臺’,與全球知名的動作捕捉設(shè)備廠商諾亦騰開展緊密合作,針對具身智能機器人訓(xùn)練數(shù)據(jù)集生產(chǎn)等行業(yè)共性需求進(jìn)行技術(shù)攻關(guān),致力打造行業(yè)標(biāo)桿性數(shù)據(jù)工廠范本,推動提升國內(nèi)的推動提升國內(nèi)的人工智能與機器人技術(shù)水平?!?/em>
—— 丁寧,諾亦騰戰(zhàn)略合作伙伴,廣東省具身智能機器人創(chuàng)新中心主任兼深圳市人工智能與機器人研究院(AIRS) 常務(wù)副院長
當(dāng)然,如何讓數(shù)據(jù)通用,可以跨本體使用這件事情,仍然是值得科研探索的事情,我們也在努力。
剛才許多演講嘉賓都提到了數(shù)據(jù)獲取難,數(shù)據(jù)質(zhì)量差這個問題。目前,諾亦騰正在與一些有遠(yuǎn)見有見識的機構(gòu)積極討論合作,探討更多可能性,探索集中力量,建設(shè)有規(guī)模、產(chǎn)能夠、成本可控的具身智能數(shù)據(jù)工廠的可能性,希望將來能多一種模式來更好地服務(wù)大家。
謝謝大家。