1. AGI的发展更进一步催生海量数据,我国已是全球数据大国,数据是形成新质生产力的优质生产要素。2. 大模型赋能各种场景应用的工作离不开各种数据标注,以数据为中心的AI是一门系统的学科,并且会是一场运动,数据标注将迎国家级建设。3. 数据要素、数据标注蓝海或将孕育下一个“阿里”“腾讯”。
数据标注行业作为人工智能领域的重要组成部分,其需求正在不断增长。近年来,数据标注行业发展迅速,规模实现了显著增长。以2023年为例,该行业的规模已经达到了60.8亿元,同比增长了约19.69%。据预测,到2024年,数据标注市场规模有望进一步扩大至130亿至180亿元,到2025年则可能达到200亿至300亿元。这表明数据标注行业正处于快速发展的阶段,并有望在未来继续保持增长势头。另一方面,据企查查数据统计,截至2023年,数据标注行业相关企业数达到1123家,呈现出井喷的趋势。预计在未来,随着大数据产业的不断发展,数据标注相关企业数量将继续增长。OpenAI、谷歌、Meta和微软的人工智能成果背后,就有无数肯尼亚、乌干达和印度的数据标注师在工作。目前该行业国外公司主要玩家包括:ScaleAI、Appen、CloudFactory、LightTag、Alegion等。国内方面,主要代表厂商有云测数据、海天瑞声。据了解,云测数据标注平台为企业提供了处理大规模感知数据的能力,可助力企业AI数据训练综合效率提升200%、标注精准度最高达99.99%。随着大模型的海量训练数据催生出巨大的数据标注需求,数据标注也将催生新的工作机会。大模型时代的到来,正加速推动人工智能开发从以模型为中心朝着以数据为中心的方向转变。云测数据认为,当前大模型算法技术的突破对人工智能行业化落地产生革新,对应处理数据类型更加丰富,云测数据发布的面向垂直行业的大模型数据解决方案,可以帮助垂直行业企业可以更好的落地大模型相关算法应用,成就AI企业数据核心壁垒;海天瑞声认为,当大模型向多模态能力维度拓展时,高质量多模态训练数据集的持续学习训练的重要性将更加凸显,为了满足这一需求,海天瑞声将继续加强在多模态数据集方面的研发和生产能力,提供更加丰富、高质量的多模态训练数据集。