一个完整的对话交互是由“听懂——理解——回答”三个步骤完成的闭环,其中, “听懂”需要语音识别(Automatic Speech Recognition, ASR)技术;“理解”需要自然语 言处理(Natural Language Processing, NLP)技术;“回答”需要语音合成(Text To Speech, TTS)技术。三个步骤环环相扣,相辅相成。语音识别技术是对话交互的开端,是保证对话 交互高效准确进行的基础。
语音识别技术自 20 世纪 50 年代开始步入萌芽阶段,发展至今,主流算法模型已经经 历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的 深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音 识别准确率可高达 98%以上。
中国 AI 语音识别市场参与者众多,主要分为上游、中游、下游。上游:底层技术提供强力支撑,云计算助推AI语音应用普及。中游:语音技术持续升级,生态圈建立赋能产业。下游分析:行业应用多样化,一站式服务需求广
在过去五年间,中国 AI 语音的需求最先在消费级市场爆发,主要得益于互联网及智能 硬件设备厂商加大语音识别的投入经费,以及厂商为提前占据市场推行的智能音箱硬件补贴。
目前,消费级产品及服务主要包括智能音箱、智能车载和智能硬件及消费级互联网增值 服务。然而,目前包括直接面向消费者的产品及服务在内,语音识别的相关应用及使用场景 仍具有局限性。
未来,在消费级产品供应商和开发者共同构建产业生态圈的过程中,语音识 别技术将更好地与其他语音交互技术及软件功能融合,为消费者提供更优质的体验,未来 AI 语音识别市场将迎来广阔的发展空间。
对于专业级市场而言,主要的产品形式包括智能语音开放平台和行业解决方案,下游应 用领域目前主要包括数字化水平相对较高的智慧医疗、智慧教育、企业客服、司法政务、金 融领域等。
AI 语音识别作为人机交互的重要入口之一,除了在语音识别的领域表现出色外, 也要能更好地与其他智能语音技术(包括语义理解、远场语音识别、唤醒目标检测、全双工 交互、个性化识别技术等)进行融合,从而综合提升真实场景中的用户体验。
近年来 AI 语音识别专业级市场的快速增长主要原因除了深度神经网络算法为语音识别带来的准确率大 幅提升外,更重要的是其他智能语音和 AI 技术的发展带来了更广阔的应用场景,预计未来 专业级市场的商业化需求将得到进一步释放。