我儿子也需要靠数据争取机会(“自动驾驶数据标注”从沉寂中醒来,国内机会窗口至少能持续5-10年|专访龙猫数据CEO昝智)

自动驾驶数据标注正从沉寂中醒来。

这种趋势,从2021年初现端倪。在此之前,国内汽车行业除了造车新势力与自动驾驶技术公司热衷于投入“数据”外,传统主机厂几乎全部缺席。但去年,国内一批主流的主机厂如吉利、上汽、广汽等,纷纷在自动驾驶数据标注方面开始投入。到今年,投入预算已经在几十万元的基础上翻了十余倍。

即便市场机会已开始显现,但龙猫数据在累计服务了60余家主机厂和自动驾驶公司后,依然认为国内市场处于早期阶段。

“以特斯拉作为参照,他们花在算力上的钱就有十几亿美金,估计能占到研发总投入的百分之十几,对比就会发现国内主机厂的投入规模还很小。”龙猫数据CEO昝智认为,未来国内主机厂将会不断提高关于数据标注的预算,这个机会窗口至少得持续5~10年,预计2030年才能完全释放出来

一方面,主机厂眼前还有三大痛点(数据、算力、人才)需要解决。在数据层面,主机厂现在的数据积累还很早期,随着功能的迭代,背后的数据也需要不断迭代,未来各家要求的数据类型,数据格式,数据标注的方法,都需要不断迭代;在算力层面,高端AI芯片的短缺问题亟待解决;在人才层面,从感知到规划到决策,主机厂对各方面算法的人才,都需要进行全面储备。

另一方面,数据标注技术的升级也需要一个循序渐进的过程。现在的数据标注行业还处于不那么光鲜的状态。成熟机构的技术进展主要体现在工具层面,利用AI辅助提高标注效率。

昝智透露,“现阶段谈「AI全自动标注」还为时过早,主机厂也非常清楚现在的数据标注是怎样的进展。”

主机厂仍处于解决基础能力阶段,标注技术仍处于AI辅助阶段。当前,数据标注公司要想抓住其中的机会,产品/服务的体验比讲好故事更重要。

在工具系统方面,随着越来越多的主机厂开始布局自己的数据中台,各家要快速实现内部的数据闭环,采购外部供应商的数据标注工具成为一条“捷径”。

相比同类型「工具系统」,龙猫数据在研发投入、迭代速度、体验细节等方面拥有差异性。目前其工具系统支持部署至客户服务器内部,并与客户系统端上下游打通,实现完整的自动驾驶数据闭环流转。

昝智向36氪介绍:“我们仅工具软件的研发团队就有30多人,累计投入已有几千万,平均每周都会有版本迭代,这使得我们的软件加速系统内包含了几十项独创功能,这些功能都是与众多自动驾驶客户的具体合作中积累出来的。”

例如,工具系统支持以像素块为基础单位精细化操作,同时内嵌自主研发AI预标注算法,如预分割、预打点、预转写、自动追踪等功能,提升标注效率。

在标注服务方面,一直以来标注的速度与质量是优先级最高的两项指标。

行业中,要实现标注速度与质量的提升大多会选择“人海战术”。但昝智认为,“堆人固然重要但一定要堆「训练有素的军队」,而不是「散乱无组织的群演」,否则堆的越多损失的越惨重。”

例如,面对一个全新的项目,项目经理精准理解客户需求比迅速下发任务更关键;资深标注人员优化标注方法后再大规模堆人力比传统方式更能提升效率;成“建制”的标注团队管理方式比散乱的管理方式更能把控质量。

总之,当AI全自动标注还是全行业共同追逐的一个梦时,面对主机厂商提出的更高要求,现阶段数据标注公司不得不持续地卷技术细节、卷管理能力、卷服务质量、卷行业积淀……

关于未来,即便短期内实现真正的AI自动标注仍困难重重。比如它需要标注公司更懂自动驾驶的解决方案,需要去做传感器配置、采集数据、做算法预演……

昝智依然认为,“AI自动标注是未来的趋势,。数据标注公司一直以来都在为提高标注质量和效率而努力,用多个传感器去校正单一传感器的数据,或者用多维度的数据去校正单一维度数据的方式,是可以实现真正的AI自动标注的。”

从单个场景到多个场景实现AI自动标注,一定是一个循序渐进的过程。技术的进化程度越高,人工标注的占比就会越小。昝智说,“我们不担心未来没有机会,因为大家能想出来的机会会非常多,而且能实现AI自动标注的公司起码值百亿美金以上。”

而这对于那些不想被时代抛弃的数据标注公司而言:现在,是时候要迈出离AI自动标注更近的一步了。

征集:欢迎自动驾驶数据标注”方向的新锐项目,联系我们一起交流。)