一文读懂智能语音产业格局:中国力量正在崛起
据《圣经·旧约》记载,人类的语言、口音,最初都是一样的。然而,人类为了对抗上帝“洪水降临”的誓言,联合起来修筑通天高塔“巴别塔”。为了阻止这一计划,上帝打乱了人类的语言和口音,使其变得多种多样。于是,人们难以相互理解,因争斗不断,而四散而去,巴别塔终成废墟。
关于这则寓言的解释,众说纷纭,但令人印象深刻的是语言的力量。
如今,随着AI为代表的新技术、新理念的快速应用和深入发展,语音识别、自然语言处理、机器翻译等智能语音相关技术已经不再神秘。借助AI的力量,推进下一代人机交互技术的落地,让计算机“开口说话”,甚至“能说会道”,成为全球科技界共同面对的难关之一。
智能语音:下一代人机交互技术
从理论上来说,智能语音包括语音识别(Automatic Speech Recognition ,简称ASR)、自然语言处理(Natural Language Processing ,简称NLP)及语音合成(Text To Speech ,简称TTS)三大技术体系。
语音交互流程无论是语音识别,还是自然语言处理和语音合成,都融入了计算机科学、人工智能、语言学等技术和学科。事实上,这三种技术的融合正构成了人与计算机之间语音交互的过程,即“听见”、“听懂”及“会说”。
在AI技术的加入之后,计算机能通过机器学习实现训练和推理,从而让“能说会道”成为可能。同时,随着智能语音的发展,也意味着传统人机交互技术和行业的格局将被彻底颠覆。
应用场景:语音助手贯穿C端、B端
目前,全球智能语音产业链的格局已经形成。与计算机视觉等其他AI相关技术一样,智能语音分为三个层级,即基础层、技术层和应用层。基础层相应对的就是底层硬件;技术层包含语音势识别、自然语音处理、语音合成三大核心技术以及其他分支领域;应用层则代表各类应用场景。
智能语音的应用场景分为C端和B端两大类,分别为移动终端、汽车、家居以及电商、教育、医疗、金融、安防、营销等传统行业。其中,以苹果Siri、微软Cortana为代表的语音助手或对话式机器人,在智能手机、智能音箱、车载设备、陪伴机器人以及客服等场景中被广泛应用。值得注意的是,目前语音助手几乎成为一种通用技术和平台贯穿整个智能语音应用场景,是推动行业发展的重要技术和应用。
同时,在市场的需求的刺激下,智能语音也陆续在翻译机、车载设备、陪伴机器人、服务机器人等应用场景中实现落地,走进了人们的日常生活,能够完成基本的语音交互。总之,智能语音所带来的革命的交互方式,不仅为C端用户带去更好地体验,也有助于B端提升业务的效率,更形成了全新的行业和业态。
行业格局:国外科技巨头 VS 中国新兴力量
在全球,Facebook、亚马逊、苹果、微软和谷歌等科技巨头在智能语音领域快速布局,对传统语音技术大厂Nuance形成了巨大的冲击。而在国内,互联网巨头也不甘示弱,纷纷涉足智能语音市场。同时,中国新兴力量扮演黑马角色,成长速度令人振奋。
纵观行业格局来看,老牌科技巨头和国内BAT基本还是遵循老套路,依靠流量优势来收割市场。例如,线上依托的是云计算平台和流量入口,推动了语音助手或对话式机器人的技术输出;线下推出智能音箱及智能家居设备,开拓出全新的流量入口。
另一边,新兴力量则更紧靠应用场景,例如科大讯飞的翻译机、陪伴机器人;云知声深入医疗、汽车及物联网等领域;思必驰专注汽车、家居和机器人行业,也都闯出一片新天地。
如今,国内外科技及互联网巨头基本已经形成了AI技术的闭环或生态,依靠的就是庞大的财力和研发实力,展开激烈的竞争。其中,即便是苹果Siri都一直被诟病,更被戏称为“人工智障”。而最近,微软确认将放弃iOS/Android版Cortana应用,很可能意味着“小娜”已被微软弃用。可见,传统科技巨头都难以在智能语音市场上轻易占便宜。
而国内的新兴力量则深耕应用场景,并积极向新的场景和领域拓展,实现AI技术的赋能,以求突出重围。流量、入口、技术、应用场景等,都将成为未来行业不可无视的关键词。
然而,由于目前AI发展仍然处于初级阶段,各技术和各领域均未形成牢不可破的“技术壁垒”或“护城河”,所以依旧存在“弯道超车”的可能。未来究竟如何,可谓机遇和挑战并存。
AI入口之争:中国力量正在崛起
入口之争是互联网时代永恒的话题。而结合人机交互到人机对话的大趋势来看,智能语音势必将形成更多全新的AI入口。
以激烈竞争的智能音箱市场为例,各大科技巨头争夺的根本目标仍然是入口。这主要取决于AI对数据的无限渴求,只有依托海量的数据,才能提升AI训练和推理的效率,从而推动相关技术的进步和发展。而更重要的是,如此便利地获取人类语音数据,是迄今为止绝无仅有的,价值自然不言而喻。
同时,在应用场景的层出不穷的当下,智能语音几乎能够应用于任何行业,其对客服行业的影响就是最好的例证。因此,随着智能语音的发展,AI在深入各行各业的同时,更能形成大量的全新的入口,获取更多、更复杂的数据源,意义可谓非凡。
总而言之,智能语音是AI从感知到认知,再到决策这一AI闭环中的核心技术。借助国内丰富的应用场景、海量的数据积累,势必为智能语音等AI技术的发展打造出良好的成长环境,有助于中国力量争夺这一AI关键入口。
另一方面,与计算机视觉不同的是,智能语音技术门槛和难度却更高。尤其在自然语言处理方面,语义的多样性、歧义性等问题都需要逐一克服和解决。而一旦跨过这一道难关,真正意义上的计算机“能说会道”将不再遥远。
如果说“巴别塔”是人类文明的制高点的话,那智能语音何尝不是AI发展中的一座“通天塔”呢?
( 来源:AI报道 )