2021年中国AI语音识别行业需求现状与发展前景分析 数据标注准确率提升有利于行业技术升级

刘甜

由于AI语音发展时间从整个技术长河的角度而言并不长,从听清逐渐实现听懂,最后到满足用户随心所欲,还需要不断的训练、试验,以及技术迭代。

对于语音识别厂商而言,如何在现实场景下将声学、语言学等多学科技术融合,实现技术迭代和算法提升,从而提供高准确率的语音识别服务是行业的重要成功因素之一。

数据标注指使用自动化工具通过分类、画框、注释等等对收集来的数据进行标记以形成可供计算机识别分析的优质数据的过程。数据标注行业高速发展,为AI语音识别行业提供底层技术支撑,有利于提升语音识别技术准确率,从而推动行业发展。

市场需求爆发,数据服务等技术提供强力支撑

在过去五年间,中国AI语音的需求逐渐爆发,产品及服务主要包括智能音箱、智能车载和智能硬件及消费及互联网增值服务。从市场规模来看,2020年,中国AI语音行业市场规模突破100亿元,达到114亿元左右,2015-2020年年均复合增长率约为49%。

图表1:2015-2020年中国AI语音行业市场规模(单位:亿元)

从产业链来看,中国AI语音识别市场上游主要为数据服务提供商(包含数据标注企业)与云服务的企业。语音识别解码过程中包含了声学模型和语言模型的识别建模和模型训练两个部分,在运行过程中训练数据量和计算量需求极大。

在此过程中,数据标注企业通过分类、画框、标注、注释等,对语音数据进行处理,并标记特征供机器学习,最终实现计算机能够自主识别。

图表2:Al语音识别产业链分析

数据标注行业高速增长,语音类数据需求量大

从数据标注产业来看,到2019年,数据标注行业市场规模为30.9亿元,到2020年行业市场规模突破36亿元,预计2025年市场规模将突破100亿元,说明我国数据标注行业处于高速发展阶段。

图表3:2018-2025年中国数据标注行业市场规模及增长情况(单位:亿元)

按数据类型划分,中国人工智能数据标注市场以语音、图像、NLP领域的标注服务为主。其中,2018年语音类数据标注服务市场规模为6.6亿元,语音类数据采集与标注服务市场规模为2.8亿元。

2019年,语音类数据整体需求规模占比较2018年略有下滑,但仍在40%左右的水平,说明语音类数据在数据标注服务市场中的地位较为重要,市场需求量大。

图表4:2018-2019年中国数据标注行业语音类数据占比情况(单位:%)

注:2018年为各类数据在人工智能数据资源定制服务市场中的占比,2019年为各类数据在AI数据标注市场中整体需求占比。

数据底层技术升级,语音识别准确率逐步提升

在过去5-10年,Al语音识别技术的快速商业化的主要原因在于技术端的快速发展,如计算能力的提升、算法框架的优化和大数据的升级等。其中,高质量、精细化的标注数据直接影响算法的准确性。

从底层数据来看,更加贴近真实使用场景的语料库也为语音识别技术提供了更加有效的训练素材,从而大幅提升了Al语音识别产品及服务的使用体验。

由此可见,在数据底层技术升级的影响下,语音识别技术准确率得到提升,为Al语音识别的商用渗透提供了强大的市场驱动力。

图表5:2012-2020年语音识别头部厂商准确率(单位:%)

更多数据来请参考前瞻产业研究院《中国数据标注行业市场前瞻与投资战略规划分析报告》,同时前瞻产业研究院提供产业大数据、产业规划、产业申报、产业园区规划、产业招商引资、IPO募投可研等解决方案。

更多深度行业分析尽在【前瞻经济学人APP】,还可以与500+经济学家/资深行业研究员交流互动。

可行性研究报告
刘甜

本文作者信息

刘甜(产业研究员、分析师)

关注(5417488)赞(65)

邀请演讲

广告、内容合作请点这里:寻求合作

咨询·服务

相关阅读

精彩推荐