用動(dòng)作捕捉技術(shù)建立人形機(jī)器人的「數(shù)據(jù)工廠」（續(xù)）

2024-11-25

本文基于諾亦騰聯(lián)合創(chuàng)始人、CTO戴若犁博士于2024年10月開源創(chuàng)新大會(huì)的主題演講修改而成，亦為2024年8月世界機(jī)器人大會(huì)期間發(fā)表的《用動(dòng)作捕捉技術(shù)構(gòu)建具身智能數(shù)據(jù)工廠》一文的續(xù)篇。

數(shù)據(jù)是橫亙?cè)诰呱碇悄芤?guī)?；涞孛媲暗囊蛔笊?。在過去的兩年里，諾亦騰深入機(jī)器人行業(yè)，在商業(yè)一線感知水溫，在與合作伙伴攜手前行的過程中發(fā)現(xiàn)了具身智能行業(yè)缺數(shù)據(jù)，缺高質(zhì)量數(shù)據(jù)的現(xiàn)狀。

以可控的成本建設(shè)高質(zhì)量、大規(guī)模數(shù)據(jù)集并以此樹立技術(shù)門檻，已逐漸成為整個(gè)行業(yè)的戰(zhàn)略共識(shí)。然而，其中真正的挑戰(zhàn)，仍未被業(yè)界充分認(rèn)識(shí)。

戴博士基于服務(wù)具身智能行業(yè)客戶的一線落地經(jīng)驗(yàn)，針對(duì)具身智能數(shù)據(jù)工廠建設(shè)中有關(guān)數(shù)據(jù)采集、設(shè)備選擇、管理優(yōu)化、數(shù)據(jù)上規(guī)模等實(shí)際的難點(diǎn)與挑戰(zhàn)，分享了他的經(jīng)驗(yàn)與洞察。歡迎轉(zhuǎn)載分享。

感謝各位。

在咱們這個(gè)領(lǐng)域，快速、高效積累大規(guī)模高質(zhì)量數(shù)據(jù)集的重要性已經(jīng)被認(rèn)可。我此前曾經(jīng)圍繞「利用動(dòng)作捕捉技術(shù)建設(shè)具身智能數(shù)據(jù)工廠」這個(gè)話題分享過一些經(jīng)驗(yàn)，關(guān)于動(dòng)作捕捉、高精度追蹤技術(shù)在具身智能領(lǐng)域中怎么用，典型的遙操作數(shù)據(jù)采集工作流是什么樣子的，四種數(shù)據(jù)生產(chǎn)方式的特點(diǎn)和長短板都在哪里等。在那之后，諾亦騰與一些有遠(yuǎn)見有實(shí)力的機(jī)構(gòu)、公司積極展開合作，獲得了許多第一手的珍貴實(shí)踐經(jīng)驗(yàn)。感謝他們的信任，也感謝他們?cè)试S我把部分「最佳實(shí)踐」信息面向行業(yè)做有限度的披露與分享。

2024年開源創(chuàng)新大會(huì)戴若犁博士演講

在這個(gè)過程中我們發(fā)現(xiàn)，有一些問題仍然是行業(yè)中的 Open Questions：數(shù)據(jù)采集的最佳實(shí)踐流程（production pipeline）應(yīng)該是什么樣子的？會(huì)遇到哪些困難？多大的數(shù)據(jù)量才足夠閉環(huán)一個(gè)相對(duì)泛化的任務(wù)？合成數(shù)據(jù)和真實(shí)數(shù)據(jù)的比例應(yīng)該是多少？Cross-embodiment gap （跨本體的數(shù)據(jù)通用性）能不能解決？Sim2Real gap（仿真數(shù)據(jù)可用性）能不能解決？行業(yè)中的各位都在怎么干？

所以我今天的分享，主要圍繞數(shù)據(jù)采集這件事情展開，聊一聊數(shù)據(jù)采集這件事情的難度究竟在哪里。主要講三個(gè)「難點(diǎn)」：

① 數(shù)據(jù)精度與連續(xù)性、魯棒性的平衡以及解法；

②「Demo」與「量產(chǎn)」的區(qū)別，多席位采集中的各種挑戰(zhàn)；

③「1000萬條數(shù)據(jù)」的生產(chǎn)意味著什么。

我會(huì)快速地鋪展開全貌，希望能夠?yàn)榇蠹規(guī)硪恍﹩l(fā)。

講正題之前，我首先要向在座的一位嘉賓致敬，他就是 OpenCV 的創(chuàng)始人 Dr. Gary Bradski。不夸張地說，我們這個(gè)基于計(jì)算機(jī)視覺的動(dòng)作捕捉與追蹤的行業(yè)的飯碗是他給的。感謝他今天專門來聽我這個(gè) Talk。

數(shù)據(jù)精度與連續(xù)性、魯棒性
的平衡以及解法

「既要，又要，還要」

第一個(gè)難點(diǎn)在于如何滿足「既要又要還要」：既要保證一定的精度需求，又要最大程度保證數(shù)據(jù)的連續(xù)性與魯棒性，且做到多快好省。

諾亦騰動(dòng)作捕捉應(yīng)用于各類機(jī)器人遙操作

首先需要明確的是：在遙操作數(shù)據(jù)采集中，對(duì)于數(shù)據(jù)連續(xù)性和魯棒性的需求高于對(duì)數(shù)據(jù)精度的需求。一般來說，本體映射會(huì)造成損耗，實(shí)際末端精度達(dá)不到亞毫米級(jí)別，但由于「人在流程中」（Human-in-the-loop），最終的遙操作任務(wù)達(dá)成和末端交互精度由遙操作「中之人」來保障，因此厘米級(jí)別精度就足以滿足具身智能遙操作數(shù)據(jù)采集的需求。如果盲目追求高精度，忽略數(shù)據(jù)的連續(xù)性，有可能會(huì)產(chǎn)生極高的后期數(shù)據(jù)清理費(fèi)用，而這一費(fèi)用甚至要遠(yuǎn)高于數(shù)據(jù)采集流程中所有設(shè)備與人員的成本攤銷。

諾亦騰動(dòng)作捕捉應(yīng)用于各類機(jī)器人虛擬遙操作

另一方面，一個(gè)具身智能數(shù)據(jù)工廠要確保單日單席產(chǎn)出100條有效數(shù)據(jù)的要求（后面會(huì)介紹為何單日單席產(chǎn)出100條有效數(shù)據(jù)是合理目標(biāo)），數(shù)據(jù)篩選與標(biāo)注的流程應(yīng)當(dāng)在數(shù)據(jù)產(chǎn)出后馬上進(jìn)行。如果數(shù)據(jù)質(zhì)量差、連續(xù)性差，就必須刪除數(shù)據(jù)重新采集。數(shù)據(jù)連續(xù)性未達(dá)到標(biāo)準(zhǔn)，會(huì)進(jìn)而影響整個(gè)數(shù)據(jù)采集流程的效率與穩(wěn)定程度。

「慣性」還是「光學(xué)」？

在這里就不得不談一談關(guān)于遙操作動(dòng)作捕捉設(shè)備的選擇?！笐T性」還是「光學(xué)」？這是一個(gè)問題。慣性動(dòng)作捕捉設(shè)備依靠穿戴于人體關(guān)鍵肢體位置的慣性測量單元（IMU，由陀螺儀、加速度計(jì)以及磁力計(jì)構(gòu)成）估算人的動(dòng)作姿態(tài)。而光學(xué)動(dòng)作捕捉設(shè)備利用工作在 850nm 至 900nm 紅外波段的高速相機(jī)系統(tǒng)，捕捉人體動(dòng)捕服上的馬克點(diǎn)（Marker）計(jì)算動(dòng)作姿態(tài)。

技術(shù)路徑的區(qū)別決定了慣性動(dòng)作捕捉只有姿態(tài)精度，沒有位置精度可言。它的算法基于前向動(dòng)力學(xué)（FK），逆向動(dòng)力學(xué)（IK），生物力學(xué)（Bio-Mechanics）與物理引擎（Physical Engine），我本人和諾亦騰的研發(fā)團(tuán)隊(duì)在這套算法身上花了十余年的時(shí)間。慣性動(dòng)作捕捉可以滿足視覺合理性、動(dòng)作一致性、物理可解釋性，但是無法滿足末端絕對(duì)精度。如果有人問起「慣性動(dòng)捕的指尖精度是厘米級(jí)別還是毫米級(jí)別」，這個(gè)問題是不存在答案的。

典型的慣性動(dòng)作捕捉過程 powered by PN Studio

與之相對(duì)，光學(xué)動(dòng)作捕捉設(shè)備一直是「室內(nèi)高精度位姿追蹤」的「金標(biāo)準(zhǔn)」，可以達(dá)到亞毫米級(jí)別的追蹤精度。光學(xué)動(dòng)捕廠商可以提供不同分辨率、不同F(xiàn)OV的鏡頭供選擇，單鏡頭價(jià)格從幾千元到十幾萬元不等。光學(xué)動(dòng)作捕捉一直是影視特效與科研領(lǐng)域的香餑餑。

那么，是不是說光學(xué)動(dòng)捕就是優(yōu)先選擇的對(duì)象呢？事實(shí)上并不是這樣的。

在實(shí)踐中，包括特斯拉、智元機(jī)器人、小鵬鵬行等許多具身智能機(jī)器人領(lǐng)域的頭部企業(yè)，都把慣性動(dòng)作捕捉作為了他們的第一選擇。慣性動(dòng)作捕捉設(shè)備相對(duì)便宜，單角色可穿戴動(dòng)捕設(shè)備的市場標(biāo)價(jià)（list price）一般在幾萬元人民幣到幾十萬元人民幣不等，但在遙操作數(shù)據(jù)采集流程中，價(jià)格低并不是慣性動(dòng)捕的最大優(yōu)點(diǎn)。

慣性動(dòng)作捕捉技術(shù)最大的優(yōu)勢在于它的數(shù)據(jù)永不中斷，環(huán)境適應(yīng)性極強(qiáng)，完全不會(huì)受到遮擋影響。如果解決好了地磁干擾問題和射頻干擾問題（后文會(huì)專門提及這兩個(gè)問題如何解決）則幾乎不用考慮在哪里能用、怎么才能用的問題，也無需顧及遙操作時(shí)完成何種任務(wù)，無需擔(dān)心數(shù)據(jù)的魯棒性受到影響。

如前面提到的，慣性動(dòng)作捕捉?jīng)]有末端絕對(duì)位置精度可言，那為何這些頭部企業(yè)（以及諾亦騰絕大部分的遙操作需求用戶）還是會(huì)選擇它呢？其關(guān)鍵在于「人在流程中」。

從人體180個(gè)自由度的構(gòu)型向機(jī)器人URDF構(gòu)型的映射

在遙操作過程中，末端精度并不是依靠毫米級(jí)/亞毫米級(jí)精確映射人和機(jī)器人的末端執(zhí)行器（人手與機(jī)器靈巧手）的指尖運(yùn)動(dòng)或高精度電缸/伺服關(guān)節(jié)控制達(dá)成的，而是依靠人眼和人腦達(dá)成的。遙操作人員主觀視覺全程關(guān)注機(jī)器人靈巧手而不是自己的手，一旦觸碰到交互物體，他穿戴著動(dòng)捕手套的手指就會(huì)停止運(yùn)動(dòng)。依靠人眼、人腦與肢體的協(xié)同來保證任務(wù)閉環(huán)與末端精度。在這個(gè)環(huán)節(jié)中，動(dòng)作捕捉系統(tǒng)充當(dāng)?shù)牟⒉皇歉呔冉饦?biāo)準(zhǔn)量測設(shè)備，而是一個(gè)符合人類自然動(dòng)作人機(jī)交互的“遙控器”（”It's a joystick”，北美某頭部人形團(tuán)隊(duì)運(yùn)控 team leader 的原話是這樣講的）。

光學(xué)動(dòng)作捕捉的兩個(gè)「圣杯」

在機(jī)器人領(lǐng)域中，中等精度遙操作確實(shí)用慣性動(dòng)捕就夠用了，但是光學(xué)動(dòng)作捕捉的需求仍然非常明確。在有多人交互、人和機(jī)器人協(xié)同，機(jī)器人與第三方物體交互的場景，或者超高精度人類動(dòng)作采集，人手動(dòng)作采集（非遙操作需求，而是人類高精度動(dòng)作數(shù)據(jù)需求）這樣的需求中，事實(shí)上需要將光學(xué)系統(tǒng)與慣性系統(tǒng)聯(lián)合使用：通過慣性系統(tǒng)獲取基本的人體姿態(tài)信息，通過光學(xué)系統(tǒng)獲取有精度需求的關(guān)鍵點(diǎn)信息（比如末端執(zhí)行器：雙手，以及第三方交互目標(biāo)物體）。這個(gè)需求中，傳統(tǒng)光學(xué)系統(tǒng)其實(shí)面臨著著重大的挑戰(zhàn)，但絕大多數(shù)業(yè)內(nèi)人士甚至沒有意識(shí)到這一點(diǎn)。

光學(xué)動(dòng)作捕捉世界一直存在著兩個(gè)「圣杯」問題——誰解決了這兩個(gè)問題，誰就摘下了這個(gè)領(lǐng)域皇冠上的明珠。第一個(gè)問題是抗遮擋（anti-occulusion）：光學(xué)動(dòng)捕系統(tǒng)通過對(duì)每個(gè)相機(jī)視距范圍、視野范圍內(nèi)的馬克點(diǎn)的圓度、尺寸、圓心位置進(jìn)行識(shí)別與追蹤估算，作為其動(dòng)作捕捉的基礎(chǔ)數(shù)據(jù)來源（raw data）。一旦馬克點(diǎn)被環(huán)境、道具或者人自身遮擋，那么之后所有的追蹤或動(dòng)捕都會(huì)受到影響。

由于馬克點(diǎn)被遮擋，圖中動(dòng)作捕捉數(shù)據(jù)受到嚴(yán)重影響

而機(jī)器人數(shù)據(jù)采集與遙操作異常復(fù)雜，遮擋情況嚴(yán)重，橫向?qū)Ρ扔耙曁匦z影棚的環(huán)境，或者嚴(yán)格可控的實(shí)驗(yàn)室環(huán)境，環(huán)境和遮擋挑戰(zhàn)從30分被拉到了90分。

我們想象一個(gè)場景：一個(gè)產(chǎn)業(yè)工人打開料倉，伸手進(jìn)去取貨，再將貨物搬運(yùn)出來進(jìn)行碼垛。在這個(gè)過程中，他的關(guān)鍵肢體有多少次會(huì)被環(huán)境，被貨物，被自己的身體遮擋？再想象一個(gè)場景：一個(gè)競速魔方運(yùn)動(dòng)員，他在把玩魔方的過程中，他的手指會(huì)有多少次被遮擋？

在傳統(tǒng)光學(xué)動(dòng)作捕捉流程，特別是服務(wù)那些影視特效、動(dòng)畫制作的應(yīng)用中，這些遮擋可能并不是問題。即便整個(gè)項(xiàng)目所需要清理的數(shù)據(jù)高達(dá)1000條，其后期數(shù)據(jù)清理（data clean-up）單價(jià)或許會(huì)超過 20元/s 粗修，200元/s 精修的行業(yè)標(biāo)準(zhǔn)，但這些成本仍然是在可控范圍內(nèi)的。

2022年2月某互聯(lián)網(wǎng)大廠高精度動(dòng)作捕捉數(shù)據(jù)修復(fù)需求報(bào)價(jià)單

但是如果當(dāng)我們的需求是面向泛化抓取任務(wù)的 200萬條靈巧手操作數(shù)據(jù)，每條數(shù)據(jù)時(shí)長為10-20秒時(shí)，后期的數(shù)據(jù)清洗將會(huì)是一個(gè)完全無法承擔(dān)的成本。遙操作數(shù)據(jù)必須盡可能地連續(xù)，極少中斷，遮擋問題必須要解決。

光學(xué)動(dòng)作捕捉的第二個(gè)圣杯問題是「同型剛體」（identical rigid-body）: 光學(xué)動(dòng)捕技術(shù)要獲取一個(gè)空間物體，或者人的肢體的六自由度位姿信息，需要用不少于三個(gè)馬克點(diǎn)構(gòu)建成一個(gè)固定形態(tài)，我們稱之為剛體（rigid-body）。為了追蹤多個(gè)目標(biāo)物，每個(gè)剛體需要是不同形態(tài)的「異型剛體」（heterogeneous rigid-body），否則光學(xué)動(dòng)捕系統(tǒng)就區(qū)分不出來哪個(gè)剛體代表左手，哪個(gè)剛體代表右手。換言之，傳統(tǒng)光學(xué)捕捉系統(tǒng)，用異構(gòu)的方式給每個(gè)剛體帶來了獨(dú)立「ID」。

同型剛體（左）與8種不同構(gòu)型的異型剛體（右）

在傳統(tǒng)的影視與科研應(yīng)用中，這仍然不是什么大問題。在空間追蹤的目標(biāo)物非常有限的情況下，只需要費(fèi)點(diǎn)腦子和制作時(shí)間，把這些馬克點(diǎn)貼成不同的組合形態(tài)即可。但是在機(jī)器人領(lǐng)域，需求則完全不一樣：在機(jī)器人遙操作數(shù)據(jù)采集流程中，數(shù)據(jù)量需求的基本單位將達(dá)到萬級(jí)，動(dòng)輒需要數(shù)十甚至上百個(gè)席位同時(shí)進(jìn)行遙操作數(shù)據(jù)生產(chǎn)。同一場地中，集中著對(duì)應(yīng)數(shù)量的動(dòng)作捕捉數(shù)據(jù)采集員，場地內(nèi)的可追蹤剛體數(shù)量總和將達(dá)到數(shù)百個(gè)之多。

考慮到可佩戴在身體上的剛體的尺寸是有約束條件的（鑒于佩戴舒適度與安全考量，身體佩戴的剛體追蹤物通常不能超過50mm*80mm，而佩戴在手指上的同場尺寸不能超過10mm*20mm）。在這樣的條件下，將3-4個(gè)馬克點(diǎn)在規(guī)定尺寸面內(nèi)貼出幾十上百種不同的構(gòu)型，是數(shù)學(xué)上無解的任務(wù)——?jiǎng)傮w中每個(gè)三角形的每條邊的差異度，需要大于半個(gè)馬克球的直徑。換而言之，尺寸約束、不同構(gòu)型、數(shù)量極多——這三個(gè)條件構(gòu)成了事實(shí)上的「不可能三角形」。

關(guān)于光學(xué)剛體的「不可能三角形」悖論（Trilemma），三者不能同時(shí)成立

因此只有采用同型剛體，且用某種巧妙的辦法使其能被賦予各自的唯一ID時(shí)，光學(xué)動(dòng)捕才能在具身智能人形機(jī)器人數(shù)據(jù)采集流程中發(fā)揮優(yōu)勢，才能被應(yīng)用到這一領(lǐng)域中。

諾亦騰基于同型剛體的光慣混合手指動(dòng)捕

完美的一攬子解決方案

因此，面向具身智能行業(yè)需求，我們搞動(dòng)捕的人都撞墻了——慣性動(dòng)作捕捉存在著末端精度的問題，光學(xué)動(dòng)捕存在遮擋和異構(gòu)剛體問題，有沒有解法呢？答案是有的。光學(xué)與慣性混合的 HybridTrack 系統(tǒng)可以完美地一攬子解決以上所有問題。這是一套誕生于2018年的算法與軟硬件系統(tǒng)，將慣性與光學(xué)系統(tǒng)的優(yōu)質(zhì)特性融合在一起，用光學(xué)定位補(bǔ)充慣性末端精度，用慣性數(shù)據(jù)源與光學(xué)計(jì)算進(jìn)行緊耦合，極大提升了光學(xué)系統(tǒng)的抗遮擋能力，并將慣性傳感器的ID賦予同型光學(xué)剛體。甚至可以毫不夸張地講，這是到目前為止唯一能完美保障機(jī)器人遙操作數(shù)據(jù)采集，或者大規(guī)模人體動(dòng)作、超高精度手部動(dòng)作數(shù)據(jù)采集流程的系統(tǒng)。

2018年諾亦騰同型剛體研發(fā)項(xiàng)目

諾亦騰多人全場互動(dòng)仿真實(shí)訓(xùn)項(xiàng)目

從「Demo」到「量產(chǎn)」
多席位采集中的各種挑戰(zhàn)

至此，我們講清楚了如何在合理預(yù)算下，從技術(shù)的角度大力出奇跡，來平衡數(shù)據(jù)精度與數(shù)據(jù)魯棒性和連續(xù)性的問題。這是幾乎最重要，也是最難的一個(gè)挑戰(zhàn)。但它不是唯一的挑戰(zhàn)。

正如前面所提到的，在機(jī)器人遙操作數(shù)據(jù)采集的流程中，為了應(yīng)對(duì)萬級(jí)的數(shù)據(jù)采集量，常常需要數(shù)十甚至上百個(gè)席位，同時(shí)進(jìn)行遙操作數(shù)據(jù)生產(chǎn)。當(dāng)?shù)搅诉@樣的「量產(chǎn)級(jí)別」規(guī)模時(shí)，許多此前在Demo階段預(yù)料不到的問題就會(huì)出現(xiàn)。比如說網(wǎng)絡(luò)復(fù)雜度的問題、射頻干擾的問題、長時(shí)間供電的問題以及多源信息同步的問題等等。這些問題是必須要通過工程手段逐一解決的，不解決就上不了規(guī)模，或者上了規(guī)模仍然無法高效生產(chǎn)。

舉例來說，在一個(gè)具身智能數(shù)據(jù)工廠中，有100個(gè)采集席位。數(shù)據(jù)采集員身著目前主流的無線傳感器動(dòng)作捕捉設(shè)備。在這種情況下，無線信道的并發(fā)數(shù)量、所占用的帶寬是超負(fù)荷的，而很多廠商可能對(duì)于這一點(diǎn)缺乏預(yù)判與準(zhǔn)備。這種「射頻打架」的狀態(tài)影響數(shù)據(jù)回流，無法獲得良好的數(shù)據(jù)得包率，無法做到時(shí)間對(duì)齊，甚至連最基本的連續(xù)性都無法保證。顯而易見在這種條件下獲得的數(shù)據(jù)是無法用于模型訓(xùn)練的。

為了應(yīng)對(duì)各種挑戰(zhàn)，諾亦騰進(jìn)行了針對(duì)性地研發(fā)工作，重構(gòu)出專為具身智能數(shù)據(jù)采集場景優(yōu)化的全身有線動(dòng)作捕捉設(shè)備，開發(fā)出了更好的抗磁算法，用在線動(dòng)態(tài)誤差估計(jì)修正了傳感器時(shí)漂、溫漂等一系列問題，還通過全系統(tǒng)能耗優(yōu)化提升了設(shè)備的續(xù)航時(shí)間——針對(duì)性地解決了各種問題。

「1000萬條數(shù)據(jù)」的生產(chǎn)
意味著什么？

人類遙操作人員穿戴著動(dòng)作捕捉設(shè)備，操控機(jī)器人在真實(shí)的環(huán)境中采集真實(shí)數(shù)據(jù)，再將這些數(shù)據(jù)與視覺信息、運(yùn)控信息、力觸覺信息數(shù)據(jù)等打上時(shí)間標(biāo)簽同步，打包回流，這樣的流程沒有 Sim2Real Gap（仿真-現(xiàn)實(shí)域差異），沒有 Environment domain Gap （環(huán)境差異），獲得數(shù)據(jù)的質(zhì)量最高。我們可以將這個(gè)流程簡單理解成開著一輛智能駕駛車輛上路，獲得最真實(shí)的第一手真實(shí)行車數(shù)據(jù)。這非常類似于在自動(dòng)駕駛領(lǐng)域中已經(jīng)得到驗(yàn)證，并且正在大量實(shí)踐的端到端自動(dòng)駕駛模型的數(shù)據(jù)采集流程。

那么多大的數(shù)據(jù)規(guī)模才能夠滿足具身智能模型訓(xùn)練的需求呢？通過和行業(yè)中從事端到端訓(xùn)練的專家交流，我們得到了一個(gè)大致的量級(jí)：基本上百萬條有效數(shù)據(jù)這樣的規(guī)模才是足夠閉環(huán)一個(gè)場景中的泛化任務(wù)執(zhí)行能力的訓(xùn)練。對(duì)于具身智能機(jī)器人領(lǐng)域來說，我們把bar再提高一點(diǎn)，可以得出結(jié)論：1000萬條高水平、高質(zhì)量的數(shù)據(jù)是一個(gè)門檻，只有邁過去這個(gè)，才能真幫人類干點(diǎn)活，我們才不用那么卷。

那么1000萬條數(shù)據(jù)意味著什么呢？我們不妨來算一筆賬。假設(shè)某企業(yè)建設(shè)了一個(gè)規(guī)模化的具身智能數(shù)據(jù)工廠，有100個(gè)席位，每一個(gè)席位的采集員和標(biāo)注員每天可以出產(chǎn)100條數(shù)據(jù)，每天一共可以采集一萬條數(shù)據(jù)，一年可以采集300萬條。所以說，1000萬條數(shù)據(jù)的flag，需要300個(gè)席位單班，或者100個(gè)席位三班倒，猛干一年才能夠?qū)崿F(xiàn)的數(shù)據(jù)量，這是一個(gè)相當(dāng)龐大的工程。

從0到1實(shí)現(xiàn)數(shù)據(jù)采集的 Demonstration，其實(shí)是非常快的。但要從這一步走到100-200個(gè)數(shù)采席位，三班倒去采集數(shù)據(jù)的具身智能數(shù)據(jù)工廠，其實(shí)仍有90%的路還未走完。其間會(huì)面臨許多需要切實(shí)解決的問題——甚至可以說，當(dāng)面臨1000萬條數(shù)據(jù)的生產(chǎn)的時(shí)候，這個(gè)項(xiàng)目的管理復(fù)雜度跟實(shí)際運(yùn)營一個(gè)工廠其實(shí)并無區(qū)別。目前許多研究者、業(yè)界從業(yè)者暫時(shí)還未發(fā)現(xiàn)這是個(gè)重大挑戰(zhàn)，或者沒做好如何去做的準(zhǔn)備。諾亦騰在大規(guī)模的設(shè)備管理、復(fù)雜環(huán)境的應(yīng)對(duì)等方面，通過此前大量的項(xiàng)目經(jīng)驗(yàn)，積累了豐富的經(jīng)驗(yàn)。

下面這個(gè)視頻是諾亦騰此前曾經(jīng)的一個(gè)項(xiàng)目，上百位觀眾身著設(shè)備同時(shí)進(jìn)行虛擬現(xiàn)實(shí)體驗(yàn)，體驗(yàn)奔馳發(fā)布的全新一代A-Class轎車，這個(gè)項(xiàng)目的靈感來源是當(dāng)年很火的電影《頭號(hào)玩家》。在這樣的一個(gè)場地中，有上百人的規(guī)模，同時(shí)運(yùn)行各類動(dòng)作捕捉、Tracking、VR設(shè)備，在三天的時(shí)間中接待了上千人——這不僅僅是一個(gè)技術(shù)難題，更是一個(gè)管理難題，是一件非常有挑戰(zhàn)性的事情。

最后還有一個(gè)大挑戰(zhàn)，是關(guān)于數(shù)據(jù)量的。1000萬條數(shù)據(jù)簡單換算，大約要用6.5噸硬盤來存儲(chǔ)，如何保證數(shù)據(jù)維護(hù)、管理、存儲(chǔ)、運(yùn)轉(zhuǎn)的可靠性是一個(gè)大挑戰(zhàn)，對(duì)于建立具身智能數(shù)據(jù)工廠而言，或許也需要建設(shè)配套的邊緣云，找到合適的供應(yīng)商提供數(shù)據(jù)服務(wù)。同樣是具身智能數(shù)據(jù)工廠建設(shè)過程中不得不去考慮的問題之一。

總結(jié)

最后我們總結(jié)一下。前面講述的三個(gè)難點(diǎn)，是諾亦騰目前通過合作，通過實(shí)踐積累的一些經(jīng)驗(yàn)。具身智能數(shù)據(jù)工廠，或者說具身智能數(shù)據(jù)的積累很難，很具有挑戰(zhàn)性。但是它本身的價(jià)值與需求的天花板會(huì)很高，會(huì)是一個(gè)有著可觀回報(bào)，或者說能夠積累長期價(jià)值的事情。這一領(lǐng)域目前仍然處于上升期之內(nèi)，低谷期和長尾期尚未到來，因此這件事情非常值得長期堅(jiān)持做下去。

想要做好這件很難的事情，需要擁有很強(qiáng)的能力，也需要攜手各方展開合作：本體廠商、模型廠商，像諾亦騰這樣做設(shè)備的廠商，以及全球的開源社區(qū)、學(xué)界一起努力。對(duì)于諾亦騰而言，我們的目標(biāo)是和合作伙伴們一起努力去積累這樣一些能力，一起做好這件非常有價(jià)值、有意思的事情。

2024年開源創(chuàng)新大會(huì)戴若犁博士演講

謝謝GOSIM組委會(huì)的邀請(qǐng)，我們也愿意給開源社區(qū)做點(diǎn)貢獻(xiàn)，比如聯(lián)合起來弄個(gè)足夠大的、高質(zhì)量的「具身智能開源數(shù)據(jù)集」。各位有興趣的行業(yè)伙伴請(qǐng)聯(lián)系我。

謝謝大家。

最新亚洲精品国自产在线观看,亚洲av成人一区二区三区不卡,人人妻人人玩人人澡人,亚洲日本中文字幕一区二区

用動(dòng)作捕捉技術(shù)建立人形機(jī)器人的「數(shù)據(jù)工廠」（續(xù)）

數(shù)據(jù)精度與連續(xù)性、魯棒性
的平衡以及解法

從「Demo」到「量產(chǎn)」
多席位采集中的各種挑戰(zhàn)

「1000萬條數(shù)據(jù)」的生產(chǎn)
意味著什么？

總結(jié)

北京諾亦騰科技有限公司

NOITOM INTERNATIONAL, INC.

產(chǎn)品與解決方案

產(chǎn)品熱線

最新亚洲精品国自产在线观看,亚洲av成人一区二区三区不卡,人人妻人人玩人人澡人,亚洲日本中文字幕一区二区

用動(dòng)作捕捉技術(shù)建立人形機(jī)器人的「數(shù)據(jù)工廠」（續(xù)）

數(shù)據(jù)精度與連續(xù)性、魯棒性 的平衡以及解法

從「Demo」到「量產(chǎn)」 多席位采集中的各種挑戰(zhàn)

「1000萬條數(shù)據(jù)」的生產(chǎn) 意味著什么？

總結(jié)

北京諾亦騰科技有限公司

NOITOM INTERNATIONAL, INC.

產(chǎn)品與解決方案

產(chǎn)品熱線

數(shù)據(jù)精度與連續(xù)性、魯棒性
的平衡以及解法

從「Demo」到「量產(chǎn)」
多席位采集中的各種挑戰(zhàn)

「1000萬條數(shù)據(jù)」的生產(chǎn)
意味著什么？