苹果WWDC2016全球开发者大会将于北京时间6月13日凌晨1点(太平洋时间6月13日上午10:00)在比尔·格雷厄姆市政礼堂开幕,即将获得重大升级的苹果语音助手Siri成为发布会上最大的亮点。在今天的苹果发布会上,苹果正式宣布将Siri应用到Apple TV和macOS上,进一步为用户带来方便。这样Siri可以完成很多智能助理的角色。同时siri加入了语音叫车功能,这和苹果在早前投资滴滴有很大的关系。
随着人工智能浪潮的来临,以及物联网场景下应用需求的不断扩大,智能语音技术在智能家居、智能汽车、教育等领域的应用逐步深入,带动着智能语音产业规模的持续快速增长。再加上“互联网女皇”玛丽·米克尔在报告中大篇章的描述语音识别交互带来的改变,今天借着这股智能语音之风,让我们盘点一下现如今国内外智能语音行业的发展现状。
国外巨头盘点: Nuance没落、亚马逊Google布局智能家居
Nuance
提及语音识别,就不能不说Nuance, Nuance有着辉煌的历史,曾经在语音领域一统江湖。虽然一步步被后起之秀所超越,但现在它仍旧是全球最大的语音技术公司,专利数量和市场份额都遥遥领先。苹果iPhone手机的虚拟语音助手Siri、三星的语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心以及虚拟在线语音助手,都采用了Nuance的一些技术。
不过,苹果和谷歌等巨头近年来都开始自建智能语音团队,并从Nuance不断挖角。2015年初有消息指出,苹果在Nuance的总部波士顿悄悄设立语音技术研发团队,以消除他们对这家公司的依赖。在招聘的过程中,他们把两位Nuance语音科学家Gunnar Evermann、Don McAllaster挖了过来。另外,Google也在做类似挖墙脚的事情。为了避开Nuance的专利障碍,Google在04年的时候就挖走了在Nuance工作十年的联合创始人Mike Cohen,并担任“语音掌门”开发相应的语音识别技术。
从人员流失这个角度来说,Nuance的技术壁垒是在不断地被变相“瓦解”,大公司对他们的依赖会不断的减少,甚至在未来的某一天终止相应的技术合作协议。
苹果
Siri作为苹果内置智能语音软件,依托苹果平台发展非常迅速,作为一款较为成功的语音软件,Siri更类似一个虚拟智能助手。通过Siri,用户可以设置提醒、发送短信或安排日程。搜索只是Siri的一部分,而Siri的搜索非常依赖“知识搜索引擎”Wolfram Alpha这种垂直搜索工具。后者的搜索服务能回答一些古怪的问题,例如“希腊的GDP是多少”,但并不擅长处理日常的关键词搜索,它的亮点就是人机的互动方面,不仅有十分生动的对话接口,其针对用户询问所给予精准的回答,有时候更是让人有种会心一笑的惊喜,甚至如果用户说出一些根本不符合语法的短词,Siri都会大概判断你的意图,并提出相关建议。在支持的语言领域,Siri更是精通英语、中文、法语、德语、日文、意大利文、西班牙文等多种语言,甚至可以区分出粤语和中国台湾地区语言,真正做到了智能识别,当然在一些具体语种上难以做到最好。
其突出优势还在于与ios系统的紧密的整合,目前状态下Siri已经常驻系统后台并且可以接管一些重要的系统功能了。
Google Now是谷歌在I/O开发者大会上随安卓4.1系统同时推出的一款应用,根植于Google自己强大的搜索及周边技术,Google Now可以说是目前最好的语音助手方案。它会全面了解你的各种习惯和正在进行的动作,并利用它所了解的来为你提供相关信息。Google Now解决了Siri的缺陷,在各个方面都表现得更好。Google Now展示了在移动设备中的各种垂直搜索服务。相比于Siri,Google在搜索方面明显做的更好,2014年3月24日, Google Now语音服务正式登陆Windows和Mac桌面版Chrome浏览器,现在用户不仅可以在Android手机使用Google Now语音服务,也可在台式机和笔记本电脑上通过谷歌Chrome浏览器使用这一服务了。
另外,Google还在今年的I/O开发者大会上推出了智能家居中控Google Home,此举被看做是对标亚马逊的Echo在做一些针锋相对的布局,不过,毫无疑问,巨头们都十分看重在智能家居领域的布局。
微软
Cortana(小娜)是微软发布的全球第一款个人智能助理。它“能够了解用户的喜好和习惯”,“帮助用户进行日程安排、问题回答等”。Cortana 可以说是微软在机器学习和人工智能领域方面的尝试。微软想实现的事情是,手机用户与小娜的智能交互,不是简单地基于存储式的问答,而是对话。它会 记录用户的行为和使用习惯,利用云计算、搜索引擎和“非结构化数据”分析,读取和“学习”包括手机中的文本文件、电子邮件、图片、视频等数据,来理解用户 的语义和语境,从而实现人机交互。Cortana与Siri、Google Now以及其他语音软件最大的不同就在于它拥有一个虚拟的“记事本”。微软对Cortana的描述为“你手机上的私人助手,为你提供设置日历项、建议、进程等更多帮助”,它能够和你之间进行交互,并且尽可能的模拟人的说话语气和思考方式跟你进行交流。
亚马逊
亚马逊旗下的Echo可以作为智能家居的控制装置,同时还是一款便携式扬声器,Alexa是预装在亚马逊Echo内的个人虚拟助手,可以接收及相应语音命令,Alexa可以被看成是亚马逊版的Siri语音助手。
在使用Echo的时候,只需要说一声“Alexa”,就可以开始询问问题,包括新闻、创建任务提醒、设定闹钟时间或播放音乐等。亚马逊 Echo 上市不到 2 年时间,销量预计已达到 300 万台。
我们也许可以推断,亚马逊 Echo现阶段的成功,证明了智能语音在智能家居场景下的应用的合理性。
国内BAT布局智能语音:围绕核心业务
百度
百度语音其实很早就被确立为战略方向,2010年与中科院声学所合作研发语音识别技术,但是市场发展相对缓慢。因此直到2014年,百度重新梳理了战略,终于找对了人,请来了人工智能领域的泰斗级大师吴恩达,正式组建了语音团队,专门研究语音相关技术,由于有百度强大的资金支持,到2016目前为止收获颇丰,斩获了近13%的市场份额,其技术实力已经可以和拥有十多年技术与经验积累的科大讯飞相提并论。
阿里巴巴
效仿AlphaGo,阿里云在 2016年会上第一次公开展示实时语音识别技术,并现场挑战世界速记大赛亚军得主。据现场最终评测,机器人在准确率上以 0.67%的微弱优势战胜第 50 届国际速联速记大赛全球速记亚军姜毅。
据了解,从去年开始,阿里集团与蚂蚁客服每接听一个电话,都会立刻启动一个叫风语者的系统,它就是自动语音识别技术,将语音转变成文字,千分之三的人工抽检可以升级为100%的自动质检。除此应用场景之外,阿里YunOS、阿里小蜜以及手淘,现在都已经应用到阿里云的语音识别系统。
腾讯
2016年5月,腾讯云正式上线智能语音服务。智能语音是由腾讯微信AI团队自主研发的语音处理技术,可以满足语音识别、语音合成、声纹识别等需求。
腾讯云智能语音服务不仅能运用在语音质检中,在其他领域中也有布局,比如语音搜索、智能客服、身份鉴定。
相比较其他巨头而言,腾讯在智能语音识别技术上起步很晚,在微信上的体验也比较差劲。
国内新势力:百花齐放
科大讯飞
科大讯飞是目前国内市场上成立时间最长的智能语音公司,2008年在深圳中小企业板上市,目前市值约400亿人民币。科大讯飞是一家传统的TOB企业,主要客户是政府、中兴、华为、联想等电信设备商和终端商。应用领域从军用到民用,包括移动互联网、教育、车联网、智能家居等。同时科大讯飞提供语音云,支持多种方言,国内许多APP的语音识别功能都是用了讯飞的接口,如高德地图等。
借着今年人工智能的热潮,科大讯飞受到一定的追捧和青睐,但不久之前有媒体报道称,其上市8年依靠政府供血,再融资43亿仍缺血
云知声
云知声成立于2012年6月,是目前在人工智能创业公司里面,在智能语音领域做的市场规模最大的一家企业。相比科大讯飞而言,云知声的互联网基因更为强烈。
据了解,云知声打造了“云端芯”生态的业务体系,AI芯、AIUI、AI Service三大解决方案支撑起云知声核心技术的落地和实现。这些方案在家居、医疗、教育、车载等领域有广泛应用。
2016年4月,云知声宣布了其B+轮数千万美金的融资,并宣布品牌全新升级。之后,又重磅推出了“AI芯”战略——和国际芯片巨头以及国内芯片企业全面深度合作,推出物联网智能芯片。目前,这些基于芯片的软硬一体方案已经被广泛应用到智能家居领域,与美的、格力、华帝、海信等多个知名品牌达成合作,联手打造了众多智能硬件产品。云知声合作伙伴目前超过两万家,在车载后装市场上有60%的市场份额。
出门问问
“出门问问”跟讯飞和云知声相比而言,比较偏重C端产品的研发。从微信语音助手到第一只智能手表、到目前的智能车载后视镜。出门问问希望通过打造爆款的方式来打开市场。
2014年12月,出门问问首款中文智能手表操作系统Ticwear发布。2015年6月,出门问问推出智能手表Ticwatch。是出门问问人工智能技术成功落地的一款可穿戴设备。2016年6月,出门问问正式推出首款车载机器人问问魔镜Ticmirror以及ADAS高级驾驶辅助系统问问魔眼Ticeye。
总结:
无论是国内还是国外的公司,都想牢牢的抓住未来互联网的下一个交互入口。在未来的物联网时代,智能语音作为最为符合应用场景的交互方式,也许会成为每个智能硬件的“标配”。