至今为止最大!亚马逊发布文本转语音模型BASETTS【附智能语音技术发展趋势】
瞻观前沿
亚马逊 AGI 的人工智能研究人员团队宣布开发出他们所说的有史以来最大的文本转语音模型。最大意味着拥有最多的参数并使用最大的训练数据集。他们在arXiv预印本服务器上发表了一篇论文,描述了模型的开发和训练方式。在这项新的努力中,研究人员试图通过增加参数数量并添加训练库来提高文本转语音应用程序的能力。
这个名为BASE TTS的新模型拥有9.8亿个参数,在同类产品中最大,在规模和能力上都超越了之前的迭代版本。它使用了10万个小时的录音(来自公共网站)来进行训练,其中大部分为英语语音,但也包括德语、荷兰语和西班牙语,这使它成为自然语音的新标准。
研究人员表示,尽管遇到了文本转语音引擎固有的困难,如发音错误或语调错误,但该模型在处理复杂的语言结构方面表现出了非凡的能力。
研究人员进一步指出,与之前的文本转语音模型相比,该模型提高了单词的发音质量。
外媒称,这一突破标志着文本转语音技术的发展向前迈出了重要的一步,在不久的将来有可能得到广泛的应用。
技术价值观察
——智能语音是人工智能的核心技术之一
智能语音是人工智能技术的重要组成部分,包括语音识别、语义理解、自然语言处理、语音交互等。当前,人工智能的关键技术均以实现感知智能和认知智能为目标。语音识别、图像识别和机器人视觉、生物识别等目前最火热的领域,主要解决的是感知智能的需求,就是使得人工智能能够感知周围的世界,能够“听见”或者“看到”。
——智能语音进入加速应用阶段
智能语音技术的关键部分主要包括语音识别、语音处理、语音合成等,随着相关技术的不断成熟,智能语音已经逐渐进入加速应用阶段,在车载语音、智慧教育、智能安防、智能家居、智慧医疗等领域都将出现智能语音技术的身影。
宏观市场观察
——中国智能语音市场规模超过280亿元
2017-2021年中国智能语音市场规模持续增长。根据德勤估算数据,2021年中国智能语音市场规模突破250亿元,达到285亿元,较2020年的217亿元增长31%。
——全球智能语音市场高速发展
从全球视角看,智能语音市场规模高速增长,2021年估算在264亿美元左右,较2020年203亿美元的市场规模增长30%。
中国智能语音技术赛道热力图
根据前瞻产业热力图显示,与智能语音关键技术强关联的城市集群主要集中在华南地区,并且以深圳市为重点发展区域,未来布局智能语音技术及其他相关技术的发展路径,极大可能性在于华南地区优先导入,其中可重点关注广东省深圳市龙华区、广东省深圳市龙岗区所处的智能语音相关企业,以及该地方对于智能语音产业发展投资环境、供给市场的潜力空间。
前瞻经济学人APP资讯组
更多本行业研究分析详见前瞻产业研究院《2024-2029年中国大模型产业发展前景与投资战略规划分析报告》
同时前瞻产业研究院还提供产业大数据、产业研究报告、产业规划、园区规划、产业招商、产业图谱、智慧招商系统、行业地位证明、IPO咨询/募投可研、IPO工作底稿咨询等解决方案。在招股说明书、公司年度报告等任何公开信息披露中引用本篇文章内容,需要获取前瞻产业研究院的正规授权。
更多深度行业分析尽在【前瞻经济学人APP】,还可以与500+经济学家/资深行业研究员交流互动。
广告、内容合作请点这里:寻求合作
咨询·服务