Access Required
EI.DATA
场景 = 数据 = 智能
HOW WE BUILD EI.DATA INFRA
Scroll
01 // About Me

About Me

一个信仰AI、专注AI数据,以技术为内核的产品业务负责人
Profile
灵图 (2007-2009)
算法、数据
数据行业启蒙,负责地图数据建模及路线规划算法实现
百度 (2009-2023)
业务一号位、高级管理者、国际化经验
百度地图创始团队核心成员之一,负责过地图数据、算法、产品和运营等不同团队
百度地图国际化产品总经理,将百度地图产品服务拓展到全球200多个国家和地区
百度智能驾驶数据业务总经理,将高精地图在基于规则的智驾时代大规模商业化
理想汽车 (2024-2026)
AI、大模型、自动驾驶、数据闭环
理想自动驾驶数据闭环负责人,支撑理想两代基于AI大模型的智驾系统量产上车
理想自动驾驶创新业务负责人,负责技术预研与对外合作、海外拓展、L3/4试点
华中科技大学
计算机本科硕士学位 (2000-2007)
中欧国际工商学院
工商管理EMBA学位 (2023-2026)
02 // Track Record

完整经历自动驾驶发展,打造了第一个物理AI的数据基础设施

Rule-based
E2E + VLM
VLA
World Model
数据闭环流程图
1.5B+
km of vehicle collected data
超过15亿公里车辆采集数据
10B+
frames of period training data
超过100亿帧训练数据
200+
triggers, 15-45s clips
200+种触发器采集片段
1min
data feedback
1分钟数据反馈速度
03 // Market Value

物理AI的具身智能时代已到来,具身数据将更具价值

AI时代场景模型数据价值和机会
自动驾驶 场景单一,
道路驾驶
技术路线收敛 来源:主机厂主导,数据垄断
内容:视觉、点云等少量模态
规模:等效约百万小时
数据公司沦为低端外包标注
市值百亿人民币级
代表公司数据堂、奥鹏、曼孚等
大语言模型 场景较多,
LLM、代码
及各种垂类
技术路线基本收敛 来源:来自互联网,数据开放
内容:文本、图像、视频多模态
规模:超过万亿tokens
通过深挖垂类场景提供价值
市值数百亿美金
代表公司Scale AI、Surge AI等
具身智能 场景众多,
极度分散,
千行百业
技术路线还未收敛 来源:从无到有,数据多样,需采集人类和世界交互的数据
内容:视觉、语言、触觉、力觉等复杂多模态
规模:预计上亿小时,是自动驾驶数据量的100倍以上
需求和供给失衡,数据价值极高
有独立三方数据公司机会
市值预计数千亿人民币级
当前正是切入赛道的绝佳时机
04 // Competitive Landscape

当前行业玩家主要分三类,场景切入派是主要竞对

分类代表玩家特点主要客户劣势
独立数据
公司
光轮智能 合成数据投入早,规模较大
国际客户关系,有订单基础
NVIDIA、Generalsit等 在场景打通和人力组织存在困难,数据难以快速scaling
鹿明机器人 从硬件切入(UMI背景)
卖设备+服务
数采公司(卖硬件为主)
简智机器人 数据治理能力(智驾背景)
工程化落地较快
蚂蚁灵波、小米等
模型切入 觅蜂科技 和模型绑定,快速闭环验证
早期获取支持较多
智元、字节、海外大厂 站队客户,不中立
场景切入 京东云 场景-数据-模型-本体全链路布局,全栈自研
有自有场景,线下能力强
众擎、智元、千寻等
(主要是被投公司)
求大求全,不聚焦
05 // Positioning

目标:成为中国最大的具身数据基础设施

使命
数据驱动实现物理AGI
愿景
成为中国最大具身数据基础设施
战略目标
分解三大核心目标:
【商业】产品市场份额和年收入达到国内第一
【产品】高质量数据集产品规模达到上亿小时
【技术】建立全球范围的具身数据技术影响力
06 // Strategy

打法:快速打通"场景-数据-模型"正向迭代闭环

场景-数据-模型正向迭代闭环
07 // Products

产品方案

产品方案:数采硬件、数据集、解决方案
08 // System Architecture

系统架构

系统架构图
09 // Business Model

商业模式

区域/
分类
国内 海外
2B 2G 2A 2B/2A
销售端
数据交易:销售数据使用权,可重复销售;主打标品,接受大客户定制
硬件售卖:买断式,类似消费电子产品;可选签订数据回购协议
方案集成:帮场景方落地全套机器人服务;场景数采,联合模型后训练
方案总包:项目制,接数采总包订单,项目产出数据集,所有权归政府;项目竞标,中标后交付项目获得收入
硬件销售:同2B模式;一般不回购数据
硬件销售:类似2B硬件销售;价格策略更灵活
数据交易:同2B;按需,预估规模较小
数据交易:考虑全球各国家在数据隐私和安全合规的限制,面向海外交易的数据生产和销售均发生在海外,采用自产自销的模式
定价策略:采用和国内类似的数据集定价策略,但整体产品定价高于国内,主要考虑海外人力成本更高且客户支付能力更强
供应端
自有场景:人员提供数采补贴,配备硬件;补贴和费用由数据公司承担
合作场景:主动挑选,签订长期框架协议;按照采集数据量做价采购
数据采购:向政府采购数据集,或者帮助政府分销数据集获得分成;看数据质量情况,可选进行采购
联合实验室:共同开展课题研究,论文成果共有;公司提供预算支持
硬件:复用一套采集硬件;国内生产,运输海外使用
技术:复用国内数据技术平台;支持海外独立部署和运营
分类 销售端 供应端
国内
2B
数据交易:销售数据使用权,可重复销售;主打标品,接受大客户定制
硬件售卖:买断式,类似消费电子产品;可选签订数据回购协议
方案集成:帮场景方落地全套机器人服务;场景数采,联合模型后训练
自有场景:人员提供数采补贴,配备硬件;补贴和费用由数据公司承担
合作场景:主动挑选,签订长期框架协议;按照采集数据量做价采购
国内
2G
方案总包:项目制,接数采总包订单,项目产出数据集,所有权归政府;项目竞标,中标后交付项目获得收入
硬件销售:同2B模式;一般不回购数据
数据采购:向政府采购数据集,或者帮助政府分销数据集获得分成;看数据质量情况,可选进行采购
国内
2A
硬件销售:类似2B硬件销售;价格策略更灵活
数据交易:同2B;按需,预估规模较小
联合实验室:共同开展课题研究,论文成果共有;公司提供预算支持
海外
2B/2A
数据交易:考虑全球各国家在数据隐私和安全合规的限制,面向海外交易的数据生产和销售均发生在海外,采用自产自销的模式
定价策略:采用和国内类似的数据集定价策略,但整体产品定价高于国内,主要考虑海外人力成本更高且客户支付能力更强
硬件:复用一套采集硬件;国内生产,运输海外使用
技术:复用国内数据技术平台;支持海外独立部署和运营
10 // Roadmap

Roadmap

2026.12
2027
2028
2030
里程碑 验证PMF 客户拓展 规模收入 规模盈利
产品 基于X硬件数采与交付
数据集50-100万小时
聚焦家庭场景(/w X)
发布开源数据集及论文
发布自研数采硬件
数据集200-300万小时
拓展场景(客户驱动)
持续发表顶会论文10+篇
发布换代数采硬件
数据集400-600万小时
覆盖多场景(主动规划)
持续发表顶会论文20+篇
产品市场份额第一
数据集2500-5000万小时
覆盖全场景
持续发表顶会论文30+篇
客户 标杆客户:X,1家
订单:1亿
客户:8-10家
订单:20亿
客户:15-20家
订单:50亿
客户:30家+
订单:100亿+
财务
预测
收入:1亿
毛利率:74%
总费用:0.6亿
净利润:0.2亿
净利率:16%
收入:6亿
毛利率:73%
总费用:3亿
净利润:1.3亿
净利率:22%
收入:15亿
毛利率:72%
总费用:7亿
净利润:3.8亿
净利率:26%
收入:100亿
毛利率:82%
总费用:39亿
净利润:43亿
净利率:43%
11 // Team

团队配置

Head
首席科学家
预研
算法
工程
硬件
产品
BD
GR
年份预研算法工程硬件产品BDGR总计
7月2
史** 翟**
2
马** 徐*
2
吕** 吴**
1
雷**
2
杨** 田**
1
廖*
1
鄂**
10+
2026512101055350
202710303030201510145
202820606035303015250
202920808040403515310
20302010010040504015365
注:高校合作建立联合实验室,预计每校每年10-20个学生,预计同时合作2-3所,费用计算在业务费用中
场景 = 数据 = 智能
FROM SCENE TO DATA, FROM DATA TO INTELLIGENCE