
文|任倩
具身数据层的大家竞赛正在连忙升温。NVIDIA Research在2026年发布EgoScale数据与锻真金不怕火框架,在Ego-centric东说念主类操作视频上锻真金不怕火VLA模子,用 20,854小时带动作标注的第一东说念主称东说念主类视频,不雅察到数据限制和考证亏蚀之迤逦近对数线性的scaling law。1X集中东说念主类第一视角及家庭行为数据,通过 Sunday名目集中百万小时级家庭场景视频。光轮智能遴选仿真合成数据和东说念主类视频数据(EgoSuite)的搀杂道路,声称累计录用冲破100万小时,估值飙向十亿好意思金。
几个月内,行业柔顺点已不再仅仅“谁采得更多”,而是“谁能把Human-centric /Ego-centric数据真实作念成高摆脱度、高精度、低成本、可锻真金不怕火的钞票”。
这背后是一场明确的数据范式迁徙。以前一年,大家头部玩家险些同期把眼神转向Human-centric data:不是更大限制的第三东说念主称素材,也不仅仅粗莽而稀缺的真机遥操作,而是更接近东说念主类真实操作分散的数据。而其中Ego-centric——以东说念主类第一视角、真什物理交互和多模态感知为中枢——正连忙成为最要害的一条集中道路。
原因在于,机器东说念主最终要学会的,不是看懂寰宇,而是在真什物理寰宇里把动作作念对。第三东说念主称视频枯竭往返与步骤细节,仿真难以齐备袒护真什物理长尾,纯遥操数据又粗莽且稀缺。真实稀缺的,是一种既迷漫真实、又迷漫密致,同期还能被限制化坐蓐并被模子径直消化的数据。就在这一拐点上,一家遴选从多模态会通与衣着式高精度集中切入这一难点的公司,开动浮出水面。
「暗涌Waves」独家获悉,聚焦Ego-centric数据集中的创业公司星忆科技完成千万级首轮融资,由清华系水木创投领投,泉士老本当作孵化方历久为公司提供产业及老本营救,并参与本轮投资;神州通誉系钥卓老本、资深产业天神团队等跟投。Maple Pledge枫承老本历久出任公司私募股权融资参谋人。
星忆科技孵化自清华大学蓄意机系,首创东说念主宋知珩曾任智元机器东说念主全尺寸双足东说念主形整机居品厚爱东说念主,并厚爱关所有采与遥操体系成立;在此之前,他是镁伽机器东说念主前20号职工,建立立异运用功绩部并担任居品厚爱东说念主,指导研发团队五次完成0到1新址品开发,牵头研发从双臂配合机器东说念主到桌面级智能拓荒,已毕公司首个万台量产与过亿营收。
如若说human-centric/ego-centric数据正在成为具身智能的新地基,那么星忆最凸起的所在,不仅仅押中了标的,而是它恰好把这一标的最难接皆的几段链路放进了统一个组织里。其中枢成员袒护具身数据、模子、衣着拓荒、复杂系统与数据工程等要害方法,酿成了“数据—模子—居品—营业化”皆接的才智结构。
团队技术班底来自清华、北航等高校,同期吸纳了埃夫特、海康威视等资深产业众人,在具身智能、多模态感知、三维手部相识、假造现实、东说念主机交互与蓄意机视觉等标的均有历久酌量,累计在CVPR、ICCV、ECCV、NeurIPS、IJCAI等海外顶级会议和期刊发表论文70余篇,承担多项国度级科研名目。
对标英伟达EgoScale技术旅途,星忆构建的是面向具身智能与寰宇模子的数据集中软硬件体系。其相反化在于:不作念二指夹爪式UMI道路,而是作念高摆脱度基础上的高精度;不单集中视觉,而是同期会通视觉、触觉与姿态;不单提供器具,而是试图买通从集中到锻真金不怕火的齐备闭环。
宋知珩认为,真实有价值的真机数据,不是谁采得多,而是谁能同期鼎沸五个条目:真实、精确、高摆脱度、低成本、可锻真金不怕火。在他看来,星忆刻下最凸起的上风皆集在精度与摆脱度两头,而低成本与可锻真金不怕火性则决定这条道路能否真实走向限制化。
前不久,「暗涌Waves」在北京中关村见到了宋知珩和星忆自研的多模态数据集中衣着拓荒,他和咱们聊了聊数据集采技术道路的根分内歧、毫米级姿态标注的难点以及从数据供应商到物理寰宇接口的漫漫长路。
以下为对话——
Part01
从采得多到采得准
「暗涌」:作念数据的公司格外多,也有融资体量比你们大许多的,星忆科技的定位是什么?
宋知珩:咱们是具身智能的物理数据基础设施。通过自研的高精度衣着拓荒与数据引擎,将东说念主类小巧的“坐蓐力造就”滚动为机器东说念主可学习的“数字养料”。
中枢唯有一件事:让机器东说念主具备在真实复杂的寰宇中完成密致操作的才智。不是让机器东说念主舞蹈,而是让它能像外科医师相通抓稳手术刀。
「暗涌」:为什么遴选在此时此刻、从数据这个方法切入创业?你在智元看到了什么?
宋知珩:我在智元担任全尺寸双足东说念主形整机居品厚爱东说念主,也厚爱数采与遥操。咱们大略显然地看到,整个这个词行业卖得最多的场景仍然是展厅、商演、科研、数采,很难酿成可复制的坐蓐力闭环。
中枢卡点即是高质料的真实数据不及:模子既枯竭对物理寰宇的有用表征,也枯竭可迁徙的操作先验,而咱们作念的,即是补这一层。从外部看,咱们是对标EgoScale;从咱们里面看,这是很早就酿成的一条判断:具身智能最终缺的,不仅仅模子和骨子,要害是建立最高效的数据旅途。英伟达把这条道路公开作念热,也讲解这正在成为行业共鸣。
「暗涌」:为什么EgoScale这样火爆?为什么具身骨子公司都在积极柔顺这条技术道路?EgoScale框架到底迥殊在那儿,冲破点又是什么?
宋知珩:EgoScale之是以连忙走红,中枢在于它考证了一条格外有引诱力的旅途:通过超大限制的东说念主类第一视角数据,已毕从东说念主类行为到机器东说念主操作才智的高效迁徙。这件事对具身智能格外病笃,因为以前机器东说念主锻真金不怕火历久受限于真机数据粗莽、集中慢、袒护场景有限,遥远难以真实作念大限制。
EgoScale的冲破,在于它不是肤浅堆数据,而是构建了一套更系统的锻真金不怕火框架。通过分阶段锻真金不怕火,它先从海量东说念主类第一视角操作数据中学习通用的行为先验,再进一步向机器东说念主动作空间迁徙,显耀普及了机器东说念主在智谋操作任务中的得手率。这样的假想,使它有契机冲破传统“小样本、重遥操作、强依赖骨子数据”的截止。
更要害的是,这条道路自然适配具身行业刻下最中枢的诉求:一方面,东说念主类数据比机器东说念主数据更容易限制化获取;另一方面,这种框架对于不同形态、不同摆脱度的机器东说念主骨子都具备较强的泛化后劲。对于骨子公司来说,谁能更高效地获取可迁徙、可推广、可复用的数据和锻真金不怕火范式,谁就更有契机鄙人一阶段的才智竞争中占据先机。这亦然为什么整个这个词行业都在高度柔顺EgoScale。
「暗涌」:你们和EgoScale有区别吗?在那儿?
宋知珩:有的,咱们不仅有更多的模态,触觉对于密致操作是必不可少的,同期咱们对场景有着更高的兼容性,不局限在实验室,是EgoScale in the wild,对场景险些无拘谨,大略径直在真实的坐蓐场景中捎带咱们的拓荒集中,这对于算法和衣着空闲地都是更高的挑战。

星忆EgoKit多模态数采套件及星忆HBR Engine数据引擎|图片开端:企业供图
「暗涌」:如何相识“寰宇顶尖”?
宋知珩:决定上限的,不仅仅模子参数,而是teacher signal的质料:多模态集中、细粒度手部相识和高精度标注,这些才是高质料具身数据的第一性。思象一下,如若示范动作自己存在抖动、偏移和时序过错,模子学到的不会是才智,而是过错。
东说念主体姿态料到许多时间是厘米级问题,手部则频频要投入毫米级:要害点更密、掩饰更多、手物往返更复杂,技术难度不是线性加多,而是成倍高潮。
也正因此,手部相识是具身数据里最难的一层之一,是L4-L5级别的技术,咱们偶合有大家最佳的这方面才智,而东说念主体姿态是L2,咱们把这一层作念深作念透的基础上,进取再推广到上肢乃至全身,旅途反而更顺。
「暗涌」:为什么一定要作念多模态会通(视觉+触觉+姿态),单纯视觉不够吗?大模子不是还是能看懂寰宇了吗?
宋知珩:不是模子不够明智,而是它从来莫得真实“触摸”过真实寰宇。密致操作至少需要三类信息:三维视觉、身段姿态,以及触觉。
三维视觉告诉你物体在那儿,姿态告诉你手和臂是如何到达那里的。而真实投入往返瞬息后,决定成败的频频是触觉:有莫得往返、是否打滑、该用多纵欲、什么时间该收力。触觉提供的是往返景况、摩擦变化和微滑移信息,它是视觉的止境,亦然力控的发轫。
「暗涌」:传闻你们能作念到戴手套情况下的手势识别,这很难吗?Meta和Apple不是也在作念?
宋知珩:极难。Meta用肉色手套,实践上照旧让模子把它当成“更粗壮的东说念主手”来识别。咱们不错用玄色手套,模子能在特征空间里识别出这是手,并精确领悟姿态。Apple的手势技术很强,但公开道路仍以裸手交互为主。
为什么这病笃?因为触觉最当然的载体即是手套,ued中国官网如若弗成在衣着景况下褂讪完成手部相识,就没法把视觉、触觉和姿态真实会通起来。这背后难的不仅仅识别自己,而是多模态系统要在精度、时延和成本之间同期成立。
「暗涌」:你们提到“毫米级标注”,具体能达到什么精度?成本比拟传统阵势如何?
宋知珩:敌手部这样高密度、强掩饰的任务来说,传统东说念主工标注和通用开源算法都很难同期兼顾精度与一致性。咱们大略在长序列、强往返条目下,把数据引擎的标注才智褂讪推到毫米级,况兼比东说念主类众人的标注才智具备更强的一致性。
成本上,东说念主工标注一秒钟视频(30帧)三个视角,哪怕0.1元标一张图也要3块钱一秒,一分钟180块。咱们弘大的标注引擎,成本是传统东说念主工的几百分之一,但精度更高。这即是“低成本+高质料”的双飞轮。
「暗涌」:为什么不作念仿真数据?英伟达不是也在推仿真到现实的迁徙?
宋知珩:仿真在预锻真金不怕火、政策搜索和并行试错上很有价值,但一朝投入真实寰宇的复杂往返,sim-to-real gap依然显耀。
比如,把一根像面条相通会弯、会回弹、会打滑的柔性排线,准确插进毫米级接口并一次完成扣合,这类任务波及往返、形变、摩擦、掩饰和相连反应修正,很难在仿真中被齐备归附。英伟达推动sim-to-real,标的诚然是对的,但实践不是“用仿真替代真实”,而是让仿真更接近真实,仍需多数真实数据无间对皆和校准。
咱们判断,真实有价值的真机数据要同期鼎沸五个条目:真实(物理交互)、精确(密致操作)、高摆脱度(泛化性)、低成本(可限制化)、可锻真金不怕火(范例化处理)。五个条目不可偏废,仿真数据在“真实”这一关就过不了。
「暗涌」:你们的数据集中进程具体是若何的?如何保证低成本?
宋知珩:传统真机遥操需要租场面、买拓荒、雇东说念主,成本极高。
咱们是一个流式过程:集中员或工东说念主捎带咱们的衣着套件在真实产线或场景操作,数据引擎及时捕捉视觉、触觉、位置、轨迹,并进行毫秒级对皆,酿成可进一步张量化的多模态锻真金不怕火数据。随后,咱们的离线器具链会自动进行“毫米级标注”,过滤无效噪声,酿成不错径直用于具身模子锻真金不怕火的高质料数据。
「暗涌」:真实环境不可控,如何保证数据质料和安全性?数据会开源吗?
宋知珩:咱们有一套内嵌的“质料审计引擎”,自动剔除抖动、丢帧和逻辑分歧理的动作。对于开源,星忆有明确的节拍:咱们将会在本年陆续开源1000至10000小时的高精度数据集。咱们认为,具身智能的鼎沸弗成靠“闭关锁国”,咱们要推动行业共建地基。
「暗涌」:你提到过两个“金字塔”——一个是机器东说念主才智的金字塔,一个是数据的金字塔。它们远隔意味着什么?星忆科技切入的是哪一层?
宋知珩:咱们里面照实会用两个“金字塔”来相识具身智能。
第一个是才智金字塔:从下往上,骨子是底座,其上是绽开智能,再往上是贯通智能;而贯通智能如若络续拆分,又不错分红交互智能和功课智能。前者处理“能弗成听懂、会不会抒发”,后者处理“能弗成在真什物理寰宇里完成谋划、有拘谨的操作任务”。真实决定具身系统上限的,是功课智能这一层。
第二个是数据金字塔,底层是互联网数据,限制最大,提供语义和知识先验;再往上是仿真/合成数据,恰当预锻真金不怕火、政策搜索和并行试错;再往上是以第一东说念主称东说念主类数据为代表的多模态真实数据;最顶层则是真机遥操数据。越往上,数据量越小,但越接近真实任务、真实往返和真实步骤闭环。

数据金字塔|图片开端:企业供图
越往上走,数据越少,但价值密度越高。行业今活泼正缺的,不是又一层大而泛的数据,而是能投入复杂往返、又能被模子有用消化的高质料真实数据。
Part02
从数据供应商到物理寰宇接口
「暗涌」:你们跟其他作念数据集中的公司比如作念UMI(通用操作接口)的、作念真机遥操的,实践区别是什么?
宋知珩:UMI道路的病笃敬爱,在于讲授了东说念主类演示不错成为机器东说念主学习的病笃进口;DexUMI这类职责又把这条道路往更高摆脱度鼓吹了一步。
但星忆和这类道路的区别,不在于是否定同这个标的,而在于经营函数不同:它们优先处理的是低门槛、可迁徙、可推广;而星忆优先处理的,是在高摆脱度前提下,把视觉、触觉、姿态这些决定密致操作上限的信号,真实采全、采准、采成可锻真金不怕火的数据钞票。
咱们认为二指夹爪是工业化留传的产物,只可在特定场景高效完成特定任务,但AGI要求泛化才智——用一套骨子在复杂物理寰宇作念多样操作。这要求结尾实施器具备高摆脱度。咱们不作念二指夹爪,作念“高摆脱度基础上的高精度”。东说念主手有21个摆脱度,UMI的二指夹爪拿不稳手术刀,也按不了打火机,但高摆脱度的智谋手不错。
星忆与这类道路的区别,不在于能弗成低成本采到数据,而在于能否在更高摆脱度前提下,把精度、可锻真金不怕火性和限制化同期作念出来。
「暗涌」:是以你们的居品和就业亦然tob的。
宋知珩:是的。旅途格外显然:第一步,就业于高校和顶级实验室(科研需求),也包括数采厂;第二步,切入机器东说念主骨子和模子厂商(锻真金不怕火需求);第三步,触达最终场景方(落地需求)。咱们要建立一个从数采器具到在线引擎再到场景落地的齐备营业闭环。售卖衣着硬件和数据集,这是两类范例居品。对于只思快速普及模子锻真金不怕火效用的客户,不错径直买制品数据集,咱们有相应的技术营救,不错快速地匡助客户完成对应的模子锻真金不怕火。
「暗涌」:清华系和华为系都在作念具身,你们如何界说我方的独到性?会不会认为你们只作念数据,梗阻端到端的才智?
宋知珩:华为系更擅长从通讯、工程体系和底层架构去相识系统。咱们不肤浅归结为家数相反,要害在于如何界说具身智能里最难、最稀缺的问题。
骨子不错买,算法不错跑开源,但具备真机反应的高精度高质料动作数据是买不到的。它瑕瑜范例化的、强依赖物理反应的。咱们要把这种最难限制化的“工匠技巧”数字化、范例化,让它能像自来水相通供应给整个大脑厂商。
「暗涌」:数据限制的天花板有多高?有东说念主说需要百亿条数据,有东说念主说10亿条就够了,你如何看?
宋知珩:这是一个效用问题。作念模子的东说念主思减少数据需求,作念数据的东说念主思提高质料和限制,最终会在中间match。
早期学界认为需要百亿到千亿条,也即是一亿到十亿小时,咱们认为最终会落在一亿小时这个量级。但这一亿小时不是“加权平均”,而是最高质料的数据——就像东说念主类基因花了四五亿年演化,预锻真金不怕火大模子需要这些高质料数据酿成“具身基因”,然后再通过真机强化学习普及特定任务才智。
「暗涌」:有东说念主说机器东说念主行业的尽头是国度级数据基础设施,你招供吗?你们会站队吗?
宋知珩:与其说是站队,不如说是抱团。这个行业很难单打独斗,需要国度队、产业生态一说念打造。
「暗涌」:你判断具身智能什么时间能真实落地?星忆在这个过程中上演什么变装?
宋知珩:3年进工场,5年进家庭。
工场指特定场景的单一任务,通过真机强化学习提高正确率到99%以上;家庭指不同环境,需要模子具备泛化才智,同期又有安全、秘籍等方面的要求。当今行业举座仍处于POC阶段,纯端到端有经营的准确率时常唯有70%–80%,尚不及以援救褂讪落地,仍需依赖东说念主工监督或rule-based机制进行兜底。
在大家具身智能疆域中,Physical Intelligence和Generalist更聚焦模子与通用政策的表层冲破,而星忆切入的,是更难被替代的一层:以高质料、限制化的真什物理数据积存,界说AGI时间的通用行为接口。
「暗涌」:你们的团队竖立很跨界——清华学术配景、智元和镁伽量产造就,这种组合如何滚动为竞争力?
宋知珩:许多东说念主把具身智能相识成模子、硬件或场景的单点竞争,但更底层的竞争,是把真实寰宇造就滚动为机器东说念主才智的系统效用竞争。咱们团队真实的竞争力,在于将学术、工程和产业最难接上的链路,在团队里面充分买通:咱们既懂真实寰宇造就如何被集中、对皆、表征并千里淀为可锻真金不怕火钞票,也懂模子如何基于这些钞票完成学习,并在真实场景中无间考证、校准和回流。
单点才智不错补,闭环才智很难长出来。下一阶段具身智能真实拉开差距的,不是谁能作念出一个更亮眼的模子、一个更好的硬件,或者一个更能传播的Demo,而是谁能最初把高范例数据钞票的限制化坐蓐才智建立起来,并把它作念成一套从真实寰宇无间学习、无间回流、无间长出才智的系统。谁先把这套系统作念出来,谁才更有契机界说下一阶段具身智能的产业旅途。
NBA下注app官网下载