1
数据标注为通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。中国数据标注行业参与企业类型按参与模式主要分为众包和自建工厂两种模式,其中,众包模式主要包括百度众包、京东众智、龙猫数据等;工厂模式主要包括贝赛、云测、爱数智慧、海天瑞声、阿里数据标注、元坤智能数据、点我科技等。
头部企业为自建数据团队,中小数据供应商占比较大
目前,我国国内数据标注市场第一梯队包括头部公司组建自己的数据标注部门,京东(京东众智)、百度(百度众测)、腾讯、阿里(阿里数据标注)都已经拥有自己的标注平台和工具。头部公司之外,国内近年兴起众多数据标注公司,如龙猫数据、Testin云测、倍赛BasicFinder、数据堂等。这些公司仅次于头部公司,都具有相当的规模,位于第二梯队。
在中国数据标注行业参与主体中,按规模划分,品牌数据服务商、中小数据供应商和需求方自建基础数据团队构成市场竞争关系,为AI数据标注市场的主要供应方,在2019年AI数据标注市场份额占比分别为30.4%、47.0%和22.6%,目前中小数据供应商是市场中的主要供应力量。
按模式分为数据标注公司和众包平台,服务领域广泛
2
数据标注行业前景十分广阔。
人工智能行业经过多年的发展,目前处于大规模商业化落地的阶段。然而很多AI企业的商业化落地之路并不通顺,一个很重要的原因就是标注数据集的数量与质量不达标。
以无人驾驶领域为例,在实验阶段,无人驾驶汽车更多是在实验室、园区等特定地段试跑,此时只需要简单的路况数据即可满足实验的需要。
然而,商业化应用以后,无人驾驶汽车在实际的行驶过程中,将会面对很多未知情况,此时就需要海量的数据集做支撑。
3
我也正在考察