本文基于諾亦騰聯(lián)合創(chuàng)始人、CTO戴若犁博士于2024年10月開源創(chuàng)新大會(huì)的主題演講修改而成,亦為2024年8月世界機(jī)器人大會(huì)期間發(fā)表的《用動(dòng)作捕捉技術(shù)構(gòu)建具身智能數(shù)據(jù)工廠》一文的續(xù)篇。
數(shù)據(jù)是橫亙?cè)诰呱碇悄芤?guī)?;涞孛媲暗囊蛔笊?。在過去的兩年里,諾亦騰深入機(jī)器人行業(yè),在商業(yè)一線感知水溫,在與合作伙伴攜手前行的過程中發(fā)現(xiàn)了具身智能行業(yè)缺數(shù)據(jù),缺高質(zhì)量數(shù)據(jù)的現(xiàn)狀。
以可控的成本建設(shè)高質(zhì)量、大規(guī)模數(shù)據(jù)集并以此樹立技術(shù)門檻,已逐漸成為整個(gè)行業(yè)的戰(zhàn)略共識(shí)。然而,其中真正的挑戰(zhàn),仍未被業(yè)界充分認(rèn)識(shí)。
戴博士基于服務(wù)具身智能行業(yè)客戶的一線落地經(jīng)驗(yàn),針對(duì)具身智能數(shù)據(jù)工廠建設(shè)中有關(guān)數(shù)據(jù)采集、設(shè)備選擇、管理優(yōu)化、數(shù)據(jù)上規(guī)模等實(shí)際的難點(diǎn)與挑戰(zhàn),分享了他的經(jīng)驗(yàn)與洞察。歡迎轉(zhuǎn)載分享。
感謝各位。
在咱們這個(gè)領(lǐng)域,快速、高效積累大規(guī)模高質(zhì)量數(shù)據(jù)集的重要性已經(jīng)被認(rèn)可。我此前曾經(jīng)圍繞「利用動(dòng)作捕捉技術(shù)建設(shè)具身智能數(shù)據(jù)工廠」這個(gè)話題分享過一些經(jīng)驗(yàn),關(guān)于動(dòng)作捕捉、高精度追蹤技術(shù)在具身智能領(lǐng)域中怎么用,典型的遙操作數(shù)據(jù)采集工作流是什么樣子的,四種數(shù)據(jù)生產(chǎn)方式的特點(diǎn)和長短板都在哪里等。在那之后,諾亦騰與一些有遠(yuǎn)見有實(shí)力的機(jī)構(gòu)、公司積極展開合作,獲得了許多第一手的珍貴實(shí)踐經(jīng)驗(yàn)。感謝他們的信任,也感謝他們?cè)试S我把部分「最佳實(shí)踐」信息面向行業(yè)做有限度的披露與分享。
2024年開源創(chuàng)新大會(huì)戴若犁博士演講
在這個(gè)過程中我們發(fā)現(xiàn),有一些問題仍然是行業(yè)中的 Open Questions:數(shù)據(jù)采集的最佳實(shí)踐流程(production pipeline)應(yīng)該是什么樣子的?會(huì)遇到哪些困難?多大的數(shù)據(jù)量才足夠閉環(huán)一個(gè)相對(duì)泛化的任務(wù)?合成數(shù)據(jù)和真實(shí)數(shù)據(jù)的比例應(yīng)該是多少?Cross-embodiment gap (跨本體的數(shù)據(jù)通用性)能不能解決?Sim2Real gap(仿真數(shù)據(jù)可用性)能不能解決?行業(yè)中的各位都在怎么干?
所以我今天的分享,主要圍繞數(shù)據(jù)采集這件事情展開,聊一聊數(shù)據(jù)采集這件事情的難度究竟在哪里。主要講三個(gè)「難點(diǎn)」:
① 數(shù)據(jù)精度與連續(xù)性、魯棒性的平衡以及解法;
②「Demo」與「量產(chǎn)」的區(qū)別,多席位采集中的各種挑戰(zhàn);
③「1000萬條數(shù)據(jù)」的生產(chǎn)意味著什么。
我會(huì)快速地鋪展開全貌,希望能夠?yàn)榇蠹規(guī)硪恍﹩l(fā)。
講正題之前,我首先要向在座的一位嘉賓致敬,他就是 OpenCV 的創(chuàng)始人 Dr. Gary Bradski。不夸張地說,我們這個(gè)基于計(jì)算機(jī)視覺的動(dòng)作捕捉與追蹤的行業(yè)的飯碗是他給的。感謝他今天專門來聽我這個(gè) Talk。
數(shù)據(jù)精度與連續(xù)性、魯棒性
的平衡以及解法
「既要,又要,還要」
第一個(gè)難點(diǎn)在于如何滿足「既要又要還要」:既要保證一定的精度需求,又要最大程度保證數(shù)據(jù)的連續(xù)性與魯棒性,且做到多快好省。
諾亦騰動(dòng)作捕捉應(yīng)用于各類機(jī)器人遙操作
首先需要明確的是:在遙操作數(shù)據(jù)采集中,對(duì)于數(shù)據(jù)連續(xù)性和魯棒性的需求高于對(duì)數(shù)據(jù)精度的需求。一般來說,本體映射會(huì)造成損耗,實(shí)際末端精度達(dá)不到亞毫米級(jí)別,但由于「人在流程中」(Human-in-the-loop),最終的遙操作任務(wù)達(dá)成和末端交互精度由遙操作「中之人」來保障,因此厘米級(jí)別精度就足以滿足具身智能遙操作數(shù)據(jù)采集的需求。如果盲目追求高精度,忽略數(shù)據(jù)的連續(xù)性,有可能會(huì)產(chǎn)生極高的后期數(shù)據(jù)清理費(fèi)用,而這一費(fèi)用甚至要遠(yuǎn)高于數(shù)據(jù)采集流程中所有設(shè)備與人員的成本攤銷。
諾亦騰動(dòng)作捕捉應(yīng)用于各類機(jī)器人虛擬遙操作
另一方面,一個(gè)具身智能數(shù)據(jù)工廠要確保單日單席產(chǎn)出100條有效數(shù)據(jù)的要求(后面會(huì)介紹為何單日單席產(chǎn)出100條有效數(shù)據(jù)是合理目標(biāo)),數(shù)據(jù)篩選與標(biāo)注的流程應(yīng)當(dāng)在數(shù)據(jù)產(chǎn)出后馬上進(jìn)行。如果數(shù)據(jù)質(zhì)量差、連續(xù)性差,就必須刪除數(shù)據(jù)重新采集。數(shù)據(jù)連續(xù)性未達(dá)到標(biāo)準(zhǔn),會(huì)進(jìn)而影響整個(gè)數(shù)據(jù)采集流程的效率與穩(wěn)定程度。
「慣性」還是「光學(xué)」?
在這里就不得不談一談關(guān)于遙操作動(dòng)作捕捉設(shè)備的選擇?!笐T性」還是「光學(xué)」?這是一個(gè)問題。慣性動(dòng)作捕捉設(shè)備依靠穿戴于人體關(guān)鍵肢體位置的慣性測量單元(IMU,由陀螺儀、加速度計(jì)以及磁力計(jì)構(gòu)成)估算人的動(dòng)作姿態(tài)。而光學(xué)動(dòng)作捕捉設(shè)備利用工作在 850nm 至 900nm 紅外波段的高速相機(jī)系統(tǒng),捕捉人體動(dòng)捕服上的馬克點(diǎn)(Marker)計(jì)算動(dòng)作姿態(tài)。
技術(shù)路徑的區(qū)別決定了慣性動(dòng)作捕捉只有姿態(tài)精度,沒有位置精度可言。它的算法基于前向動(dòng)力學(xué)(FK),逆向動(dòng)力學(xué)(IK),生物力學(xué)(Bio-Mechanics)與物理引擎(Physical Engine),我本人和諾亦騰的研發(fā)團(tuán)隊(duì)在這套算法身上花了十余年的時(shí)間。慣性動(dòng)作捕捉可以滿足視覺合理性、動(dòng)作一致性、物理可解釋性,但是無法滿足末端絕對(duì)精度。如果有人問起「慣性動(dòng)捕的指尖精度是厘米級(jí)別還是毫米級(jí)別」,這個(gè)問題是不存在答案的。
典型的慣性動(dòng)作捕捉過程 powered by PN Studio
與之相對(duì),光學(xué)動(dòng)作捕捉設(shè)備一直是「室內(nèi)高精度位姿追蹤」的「金標(biāo)準(zhǔn)」,可以達(dá)到亞毫米級(jí)別的追蹤精度。光學(xué)動(dòng)捕廠商可以提供不同分辨率、不同F(xiàn)OV的鏡頭供選擇,單鏡頭價(jià)格從幾千元到十幾萬元不等。光學(xué)動(dòng)作捕捉一直是影視特效與科研領(lǐng)域的香餑餑。
那么,是不是說光學(xué)動(dòng)捕就是優(yōu)先選擇的對(duì)象呢?事實(shí)上并不是這樣的。
在實(shí)踐中,包括特斯拉、智元機(jī)器人、小鵬鵬行等許多具身智能機(jī)器人領(lǐng)域的頭部企業(yè),都把慣性動(dòng)作捕捉作為了他們的第一選擇。慣性動(dòng)作捕捉設(shè)備相對(duì)便宜,單角色可穿戴動(dòng)捕設(shè)備的市場標(biāo)價(jià)(list price)一般在幾萬元人民幣到幾十萬元人民幣不等,但在遙操作數(shù)據(jù)采集流程中,價(jià)格低并不是慣性動(dòng)捕的最大優(yōu)點(diǎn)。
慣性動(dòng)作捕捉技術(shù)最大的優(yōu)勢在于它的數(shù)據(jù)永不中斷,環(huán)境適應(yīng)性極強(qiáng),完全不會(huì)受到遮擋影響。如果解決好了地磁干擾問題和射頻干擾問題(后文會(huì)專門提及這兩個(gè)問題如何解決)則幾乎不用考慮在哪里能用、怎么才能用的問題,也無需顧及遙操作時(shí)完成何種任務(wù),無需擔(dān)心數(shù)據(jù)的魯棒性受到影響。
如前面提到的,慣性動(dòng)作捕捉?jīng)]有末端絕對(duì)位置精度可言,那為何這些頭部企業(yè)(以及諾亦騰絕大部分的遙操作需求用戶)還是會(huì)選擇它呢?其關(guān)鍵在于「人在流程中」。
從人體180個(gè)自由度的構(gòu)型向機(jī)器人URDF構(gòu)型的映射
在遙操作過程中,末端精度并不是依靠毫米級(jí)/亞毫米級(jí)精確映射人和機(jī)器人的末端執(zhí)行器(人手與機(jī)器靈巧手)的指尖運(yùn)動(dòng)或高精度電缸/伺服關(guān)節(jié)控制達(dá)成的,而是依靠人眼和人腦達(dá)成的。遙操作人員主觀視覺全程關(guān)注機(jī)器人靈巧手而不是自己的手,一旦觸碰到交互物體,他穿戴著動(dòng)捕手套的手指就會(huì)停止運(yùn)動(dòng)。依靠人眼、人腦與肢體的協(xié)同來保證任務(wù)閉環(huán)與末端精度。在這個(gè)環(huán)節(jié)中,動(dòng)作捕捉系統(tǒng)充當(dāng)?shù)牟⒉皇歉呔冉饦?biāo)準(zhǔn)量測設(shè)備,而是一個(gè)符合人類自然動(dòng)作人機(jī)交互的“遙控器”(”It's a joystick”,北美某頭部人形團(tuán)隊(duì)運(yùn)控 team leader 的原話是這樣講的)。
光學(xué)動(dòng)作捕捉的兩個(gè)「圣杯」
在機(jī)器人領(lǐng)域中,中等精度遙操作確實(shí)用慣性動(dòng)捕就夠用了,但是光學(xué)動(dòng)作捕捉的需求仍然非常明確。在有多人交互、人和機(jī)器人協(xié)同,機(jī)器人與第三方物體交互的場景,或者超高精度人類動(dòng)作采集,人手動(dòng)作采集(非遙操作需求,而是人類高精度動(dòng)作數(shù)據(jù)需求)這樣的需求中,事實(shí)上需要將光學(xué)系統(tǒng)與慣性系統(tǒng)聯(lián)合使用:通過慣性系統(tǒng)獲取基本的人體姿態(tài)信息,通過光學(xué)系統(tǒng)獲取有精度需求的關(guān)鍵點(diǎn)信息(比如末端執(zhí)行器:雙手,以及第三方交互目標(biāo)物體)。這個(gè)需求中,傳統(tǒng)光學(xué)系統(tǒng)其實(shí)面臨著著重大的挑戰(zhàn),但絕大多數(shù)業(yè)內(nèi)人士甚至沒有意識(shí)到這一點(diǎn)。
光學(xué)動(dòng)作捕捉世界一直存在著兩個(gè)「圣杯」問題——誰解決了這兩個(gè)問題,誰就摘下了這個(gè)領(lǐng)域皇冠上的明珠。第一個(gè)問題是抗遮擋(anti-occulusion):光學(xué)動(dòng)捕系統(tǒng)通過對(duì)每個(gè)相機(jī)視距范圍、視野范圍內(nèi)的馬克點(diǎn)的圓度、尺寸、圓心位置進(jìn)行識(shí)別與追蹤估算,作為其動(dòng)作捕捉的基礎(chǔ)數(shù)據(jù)來源(raw data)。一旦馬克點(diǎn)被環(huán)境、道具或者人自身遮擋,那么之后所有的追蹤或動(dòng)捕都會(huì)受到影響。
由于馬克點(diǎn)被遮擋,圖中動(dòng)作捕捉數(shù)據(jù)受到嚴(yán)重影響
而機(jī)器人數(shù)據(jù)采集與遙操作異常復(fù)雜,遮擋情況嚴(yán)重,橫向?qū)Ρ扔耙曁匦z影棚的環(huán)境,或者嚴(yán)格可控的實(shí)驗(yàn)室環(huán)境,環(huán)境和遮擋挑戰(zhàn)從30分被拉到了90分。
我們想象一個(gè)場景:一個(gè)產(chǎn)業(yè)工人打開料倉,伸手進(jìn)去取貨,再將貨物搬運(yùn)出來進(jìn)行碼垛。在這個(gè)過程中,他的關(guān)鍵肢體有多少次會(huì)被環(huán)境,被貨物,被自己的身體遮擋?再想象一個(gè)場景:一個(gè)競速魔方運(yùn)動(dòng)員,他在把玩魔方的過程中,他的手指會(huì)有多少次被遮擋?
在傳統(tǒng)光學(xué)動(dòng)作捕捉流程,特別是服務(wù)那些影視特效、動(dòng)畫制作的應(yīng)用中,這些遮擋可能并不是問題。即便整個(gè)項(xiàng)目所需要清理的數(shù)據(jù)高達(dá)1000條,其后期數(shù)據(jù)清理(data clean-up)單價(jià)或許會(huì)超過 20元/s 粗修,200元/s 精修的行業(yè)標(biāo)準(zhǔn),但這些成本仍然是在可控范圍內(nèi)的。
2022年2月 某互聯(lián)網(wǎng)大廠高精度動(dòng)作捕捉數(shù)據(jù)修復(fù)需求報(bào)價(jià)單
但是如果當(dāng)我們的需求是面向泛化抓取任務(wù)的 200萬條靈巧手操作數(shù)據(jù),每條數(shù)據(jù)時(shí)長為10-20秒時(shí),后期的數(shù)據(jù)清洗將會(huì)是一個(gè)完全無法承擔(dān)的成本。遙操作數(shù)據(jù)必須盡可能地連續(xù),極少中斷,遮擋問題必須要解決。
光學(xué)動(dòng)作捕捉的第二個(gè)圣杯問題是「同型剛體」(identical rigid-body): 光學(xué)動(dòng)捕技術(shù)要獲取一個(gè)空間物體,或者人的肢體的六自由度位姿信息,需要用不少于三個(gè)馬克點(diǎn)構(gòu)建成一個(gè)固定形態(tài),我們稱之為剛體(rigid-body)。為了追蹤多個(gè)目標(biāo)物,每個(gè)剛體需要是不同形態(tài)的「異型剛體」(heterogeneous rigid-body),否則光學(xué)動(dòng)捕系統(tǒng)就區(qū)分不出來哪個(gè)剛體代表左手,哪個(gè)剛體代表右手。換言之,傳統(tǒng)光學(xué)捕捉系統(tǒng),用異構(gòu)的方式給每個(gè)剛體帶來了獨(dú)立「ID」。
同型剛體(左)與8種不同構(gòu)型的異型剛體(右)
在傳統(tǒng)的影視與科研應(yīng)用中,這仍然不是什么大問題。在空間追蹤的目標(biāo)物非常有限的情況下,只需要費(fèi)點(diǎn)腦子和制作時(shí)間,把這些馬克點(diǎn)貼成不同的組合形態(tài)即可。但是在機(jī)器人領(lǐng)域,需求則完全不一樣:在機(jī)器人遙操作數(shù)據(jù)采集流程中,數(shù)據(jù)量需求的基本單位將達(dá)到萬級(jí),動(dòng)輒需要數(shù)十甚至上百個(gè)席位同時(shí)進(jìn)行遙操作數(shù)據(jù)生產(chǎn)。同一場地中,集中著對(duì)應(yīng)數(shù)量的動(dòng)作捕捉數(shù)據(jù)采集員,場地內(nèi)的可追蹤剛體數(shù)量總和將達(dá)到數(shù)百個(gè)之多。
考慮到可佩戴在身體上的剛體的尺寸是有約束條件的(鑒于佩戴舒適度與安全考量,身體佩戴的剛體追蹤物通常不能超過50mm*80mm,而佩戴在手指上的同場尺寸不能超過10mm*20mm)。在這樣的條件下,將3-4個(gè)馬克點(diǎn)在規(guī)定尺寸面內(nèi)貼出幾十上百種不同的構(gòu)型,是數(shù)學(xué)上無解的任務(wù)——?jiǎng)傮w中每個(gè)三角形的每條邊的差異度,需要大于半個(gè)馬克球的直徑。換而言之,尺寸約束、不同構(gòu)型、數(shù)量極多——這三個(gè)條件構(gòu)成了事實(shí)上的「不可能三角形」。
關(guān)于光學(xué)剛體的「不可能三角形」悖論(Trilemma),三者不能同時(shí)成立
因此只有采用同型剛體,且用某種巧妙的辦法使其能被賦予各自的唯一ID時(shí),光學(xué)動(dòng)捕才能在具身智能人形機(jī)器人數(shù)據(jù)采集流程中發(fā)揮優(yōu)勢,才能被應(yīng)用到這一領(lǐng)域中。
諾亦騰基于同型剛體的光慣混合手指動(dòng)捕
完美的一攬子解決方案
因此,面向具身智能行業(yè)需求,我們搞動(dòng)捕的人都撞墻了——慣性動(dòng)作捕捉存在著末端精度的問題,光學(xué)動(dòng)捕存在遮擋和異構(gòu)剛體問題,有沒有解法呢?答案是有的。光學(xué)與慣性混合的 HybridTrack 系統(tǒng)可以完美地一攬子解決以上所有問題。這是一套誕生于2018年的算法與軟硬件系統(tǒng),將慣性與光學(xué)系統(tǒng)的優(yōu)質(zhì)特性融合在一起,用光學(xué)定位補(bǔ)充慣性末端精度,用慣性數(shù)據(jù)源與光學(xué)計(jì)算進(jìn)行緊耦合,極大提升了光學(xué)系統(tǒng)的抗遮擋能力,并將慣性傳感器的ID賦予同型光學(xué)剛體。甚至可以毫不夸張地講,這是到目前為止唯一能完美保障機(jī)器人遙操作數(shù)據(jù)采集,或者大規(guī)模人體動(dòng)作、超高精度手部動(dòng)作數(shù)據(jù)采集流程的系統(tǒng)。
2018年 諾亦騰同型剛體研發(fā)項(xiàng)目
諾亦騰多人全場互動(dòng)仿真實(shí)訓(xùn)項(xiàng)目
從「Demo」到「量產(chǎn)」
多席位采集中的各種挑戰(zhàn)
至此,我們講清楚了如何在合理預(yù)算下,從技術(shù)的角度大力出奇跡,來平衡數(shù)據(jù)精度與數(shù)據(jù)魯棒性和連續(xù)性的問題。這是幾乎最重要,也是最難的一個(gè)挑戰(zhàn)。但它不是唯一的挑戰(zhàn)。
正如前面所提到的,在機(jī)器人遙操作數(shù)據(jù)采集的流程中,為了應(yīng)對(duì)萬級(jí)的數(shù)據(jù)采集量,常常需要數(shù)十甚至上百個(gè)席位,同時(shí)進(jìn)行遙操作數(shù)據(jù)生產(chǎn)。當(dāng)?shù)搅诉@樣的「量產(chǎn)級(jí)別」規(guī)模時(shí),許多此前在Demo階段預(yù)料不到的問題就會(huì)出現(xiàn)。比如說網(wǎng)絡(luò)復(fù)雜度的問題、射頻干擾的問題、長時(shí)間供電的問題以及多源信息同步的問題等等。這些問題是必須要通過工程手段逐一解決的,不解決就上不了規(guī)模,或者上了規(guī)模仍然無法高效生產(chǎn)。
舉例來說,在一個(gè)具身智能數(shù)據(jù)工廠中,有100個(gè)采集席位。數(shù)據(jù)采集員身著目前主流的無線傳感器動(dòng)作捕捉設(shè)備。在這種情況下,無線信道的并發(fā)數(shù)量、所占用的帶寬是超負(fù)荷的,而很多廠商可能對(duì)于這一點(diǎn)缺乏預(yù)判與準(zhǔn)備。這種「射頻打架」的狀態(tài)影響數(shù)據(jù)回流,無法獲得良好的數(shù)據(jù)得包率,無法做到時(shí)間對(duì)齊,甚至連最基本的連續(xù)性都無法保證。顯而易見在這種條件下獲得的數(shù)據(jù)是無法用于模型訓(xùn)練的。
為了應(yīng)對(duì)各種挑戰(zhàn),諾亦騰進(jìn)行了針對(duì)性地研發(fā)工作,重構(gòu)出專為具身智能數(shù)據(jù)采集場景優(yōu)化的全身有線動(dòng)作捕捉設(shè)備,開發(fā)出了更好的抗磁算法,用在線動(dòng)態(tài)誤差估計(jì)修正了傳感器時(shí)漂、溫漂等一系列問題,還通過全系統(tǒng)能耗優(yōu)化提升了設(shè)備的續(xù)航時(shí)間——針對(duì)性地解決了各種問題。
「1000萬條數(shù)據(jù)」的生產(chǎn)
意味著什么?
人類遙操作人員穿戴著動(dòng)作捕捉設(shè)備,操控機(jī)器人在真實(shí)的環(huán)境中采集真實(shí)數(shù)據(jù),再將這些數(shù)據(jù)與視覺信息、運(yùn)控信息、力觸覺信息數(shù)據(jù)等打上時(shí)間標(biāo)簽同步,打包回流,這樣的流程沒有 Sim2Real Gap(仿真-現(xiàn)實(shí)域差異),沒有 Environment domain Gap (環(huán)境差異),獲得數(shù)據(jù)的質(zhì)量最高。我們可以將這個(gè)流程簡單理解成開著一輛智能駕駛車輛上路,獲得最真實(shí)的第一手真實(shí)行車數(shù)據(jù)。這非常類似于在自動(dòng)駕駛領(lǐng)域中已經(jīng)得到驗(yàn)證,并且正在大量實(shí)踐的端到端自動(dòng)駕駛模型的數(shù)據(jù)采集流程。
那么多大的數(shù)據(jù)規(guī)模才能夠滿足具身智能模型訓(xùn)練的需求呢?通過和行業(yè)中從事端到端訓(xùn)練的專家交流,我們得到了一個(gè)大致的量級(jí):基本上百萬條有效數(shù)據(jù)這樣的規(guī)模才是足夠閉環(huán)一個(gè)場景中的泛化任務(wù)執(zhí)行能力的訓(xùn)練。對(duì)于具身智能機(jī)器人領(lǐng)域來說,我們把bar再提高一點(diǎn),可以得出結(jié)論:1000萬條高水平、高質(zhì)量的數(shù)據(jù)是一個(gè)門檻,只有邁過去這個(gè),才能真幫人類干點(diǎn)活,我們才不用那么卷。
那么1000萬條數(shù)據(jù)意味著什么呢?我們不妨來算一筆賬。假設(shè)某企業(yè)建設(shè)了一個(gè)規(guī)模化的具身智能數(shù)據(jù)工廠,有100個(gè)席位,每一個(gè)席位的采集員和標(biāo)注員每天可以出產(chǎn)100條數(shù)據(jù),每天一共可以采集一萬條數(shù)據(jù),一年可以采集300萬條。所以說,1000萬條數(shù)據(jù)的flag,需要300個(gè)席位單班,或者100個(gè)席位三班倒,猛干一年才能夠?qū)崿F(xiàn)的數(shù)據(jù)量,這是一個(gè)相當(dāng)龐大的工程。
從0到1實(shí)現(xiàn)數(shù)據(jù)采集的 Demonstration,其實(shí)是非常快的。但要從這一步走到100-200個(gè)數(shù)采席位,三班倒去采集數(shù)據(jù)的具身智能數(shù)據(jù)工廠,其實(shí)仍有90%的路還未走完。其間會(huì)面臨許多需要切實(shí)解決的問題——甚至可以說,當(dāng)面臨1000萬條數(shù)據(jù)的生產(chǎn)的時(shí)候,這個(gè)項(xiàng)目的管理復(fù)雜度跟實(shí)際運(yùn)營一個(gè)工廠其實(shí)并無區(qū)別。目前許多研究者、業(yè)界從業(yè)者暫時(shí)還未發(fā)現(xiàn)這是個(gè)重大挑戰(zhàn),或者沒做好如何去做的準(zhǔn)備。諾亦騰在大規(guī)模的設(shè)備管理、復(fù)雜環(huán)境的應(yīng)對(duì)等方面,通過此前大量的項(xiàng)目經(jīng)驗(yàn),積累了豐富的經(jīng)驗(yàn)。
下面這個(gè)視頻是諾亦騰此前曾經(jīng)的一個(gè)項(xiàng)目,上百位觀眾身著設(shè)備同時(shí)進(jìn)行虛擬現(xiàn)實(shí)體驗(yàn),體驗(yàn)奔馳發(fā)布的全新一代A-Class轎車,這個(gè)項(xiàng)目的靈感來源是當(dāng)年很火的電影《頭號(hào)玩家》。在這樣的一個(gè)場地中,有上百人的規(guī)模,同時(shí)運(yùn)行各類動(dòng)作捕捉、Tracking、VR設(shè)備,在三天的時(shí)間中接待了上千人——這不僅僅是一個(gè)技術(shù)難題,更是一個(gè)管理難題,是一件非常有挑戰(zhàn)性的事情。
最后還有一個(gè)大挑戰(zhàn),是關(guān)于數(shù)據(jù)量的。1000萬條數(shù)據(jù)簡單換算,大約要用6.5噸硬盤來存儲(chǔ),如何保證數(shù)據(jù)維護(hù)、管理、存儲(chǔ)、運(yùn)轉(zhuǎn)的可靠性是一個(gè)大挑戰(zhàn),對(duì)于建立具身智能數(shù)據(jù)工廠而言,或許也需要建設(shè)配套的邊緣云,找到合適的供應(yīng)商提供數(shù)據(jù)服務(wù)。同樣是具身智能數(shù)據(jù)工廠建設(shè)過程中不得不去考慮的問題之一。
總結(jié)
最后我們總結(jié)一下。前面講述的三個(gè)難點(diǎn),是諾亦騰目前通過合作,通過實(shí)踐積累的一些經(jīng)驗(yàn)。具身智能數(shù)據(jù)工廠,或者說具身智能數(shù)據(jù)的積累很難,很具有挑戰(zhàn)性。但是它本身的價(jià)值與需求的天花板會(huì)很高,會(huì)是一個(gè)有著可觀回報(bào),或者說能夠積累長期價(jià)值的事情。這一領(lǐng)域目前仍然處于上升期之內(nèi),低谷期和長尾期尚未到來,因此這件事情非常值得長期堅(jiān)持做下去。
想要做好這件很難的事情,需要擁有很強(qiáng)的能力,也需要攜手各方展開合作:本體廠商、模型廠商,像諾亦騰這樣做設(shè)備的廠商,以及全球的開源社區(qū)、學(xué)界一起努力。對(duì)于諾亦騰而言,我們的目標(biāo)是和合作伙伴們一起努力去積累這樣一些能力,一起做好這件非常有價(jià)值、有意思的事情。
2024年開源創(chuàng)新大會(huì)戴若犁博士演講
謝謝GOSIM組委會(huì)的邀請(qǐng),我們也愿意給開源社區(qū)做點(diǎn)貢獻(xiàn),比如聯(lián)合起來弄個(gè)足夠大的、高質(zhì)量的「具身智能開源數(shù)據(jù)集」。各位有興趣的行業(yè)伙伴請(qǐng)聯(lián)系我。
謝謝大家。