Facebook语音助理为何发展慢?背后有这些故事

  • 时间:
  • 浏览:0

北京时间11月1日早间消息,据美国《福布斯》杂志网站报道,Facebook本月早些我想要发布的智能音箱产品Portal眼前 间题不少,除了数据与隐私争议,这款智能音箱还有个明显的严重不足——缺少Facebook买车人的语音助理,就是搭载亚马逊的Alexa。

原先就跳出有俩个 很尴尬的局面:花3400美元购买Portal的Facebook用户实际上接入的是亚马逊系统,而亚马逊的类式产品Echo Show比Portal离米 便宜400美元。怎么让Facebook无法下发任何语音数据,使其语音技术得到进一步训练。

Facebook从2013年开始 大力投资语音技术。然而,尽管起步较早,作为拥有400275名员工、2017年利润近1400亿美元的世界最大高科技企业之一,该公司尚未在语音领域赢得一席之地,而该技术被广泛认为是下一代人机沟通的媒介。

这凸显出Facebook在将新技术转化为产品方面趋于稳定巨大困难。过去五年,Facebook收购了多家语音公司,并聘请了统统 语音技术专家,但两名知情人士表示,上述投资难以转化为有用的服务。愿因很大程度上在于Facebook内控 的意见分歧——在研发进度上产生混乱,以及开发者无法决定集中的领域。

直到离米 两年前,公司内控 人员才一致同意开发Portal,但我想要太迟。“Facebook想在Portal上使用买车人的语音转文本技术,但还不难 准备好,”一位不我想要透露姓名的资深工程师对媒体说。使用Alexa是有俩个 “重大劣势”,“我想要无法获取数据,就不难 进步和学习,并做出改进。”

Facebook的一位发言人在宣告中指出,Portal用户都时要通过说“嘿,Portal”来激活设备,以启动呼叫和访问设备控制,但该发言人承认,公司时要与亚马逊合作者者 ,“提供或多或少人期望从家用设备中获得的各种工具”。Facebook不难 回答关于语音技术开发的间题。在2016年,Facebook当时的Messenger主管大卫·马库斯(David Marcus)说,该公司对语音技术的开发“严重不足积极”。

产品经理与工程师矛盾干扰开发

事实上,Facebook突然致力于语音技术的开发,但产品经理和语音研发者之间的意见分歧干扰了努力方向。我想要产品经理的开发进度要求快于技术五种发展的水平,这让工程师倍感压力。

一位资深工程人士说,产品经理突然希望语音技术研究能在“多日内”转化为产品。间题在于,我想要语音技术的僵化 性,构建语音技术时要多日以上时间。语音数据在不断变化,麦克风的类型不同,还有不同的口音和麦克风之间不同的出理 硬件。要构建识别语音的软件,还时要首先在语音数据库上进行训练,怎么让将其投入实际应用,怎么让进一步在真实语音上进行训练。

比如苹果手机手机Siri的这俩过程持续两年多。当苹果手机手机在2011年10月推出Siri时,它将语音识别软件外包给了Nuance,有俩个 语音识别领域的老牌企业。但苹果手机手机不喜欢在战略产品方面依靠第三方,怎么让开始 着手建立买车人的软件。2013年,苹果手机手机在波士顿(距离Nuance几英里)设立了语音技术办公室,2015年,苹果手机手机公司悄悄放弃了Nuance这俩合作者者 伙伴。

就语音识别技术总体而言,谷歌趋于稳定领先地位。爱尔兰语音技术初创公司Voysis创始人皮特·卡希尔(Peter Cahill)对硅谷语音领域的描述是:“Google在顶部,怎么让是亚马逊和苹果手机手机,怎么让是Facebook。”他补充说,“最后一家正在努力跳出来。”

当时在Facebook高管团队中,那么人希望使用语音技术研发Siri类式的数字助理,但哪此项目时要长期付出大量时间和人力。我想要研究者和产品经理之间严重不足合作者者 ,最终都不 了了之。

消息人士称,统统 参与开发Facebook语音项目的产品经理对其中所涉及的技术严重不足清醒的认识。经理们也往往每三到十个 月一换,核心人员被吸引到大名鼎鼎的内控 研究部门——FAIR和AML。这就离米 不断栽树,却不给它生根成长的我想要。说到底,Facebook的间题在于缺少“有俩个 有凝聚力的团队”。

比如,Facebook每十个 月举行一次小组产品评审,通常会使研发方向趋于稳定变化,从基于语音的搜索,到新闻转录,再到Messenger语音助理——所有哪此内控 项目均未转化为产品。

收购初创企业获得技术被浪费

值得称道的是,Facebook在语音技术方面起步较早。2013年收购了移动科技(Mobile Technologies)——一家由卡内基梅隆大学(Carnegie Mellon University)推出的初创公司。或多或少人开发了一款早期的翻译应用守护程序Jibbigo,都时要听五种语言的语音,怎么让用另五种语言播放。当Facebook以未公开金额收购这家初创公司及其几十名研究人员时,引发了令人兴奋的猜测,即Facebook将开始 与苹果手机手机Siri我想要更多竞争对手合作者者 。

“语音技术我想要成为或多或少人导航移动设备和网络的法子 ,其重要性日益显现,”当时领导这项交易的Facebook的汤姆·斯托基(Tom Stocky)写道。“这项技术将帮助或多或少人儿更新或多或少人儿的产品以适应进化时要。”

然而,即使Facebook将Jibbigo的团队规模扩充到原先的两倍,后者的语音识别技术最终也没派上用场。据参与交易的人士透露,Facebook主要想利用Jibbigo的技术来翻译用户帖子中的文本,原先就好的反义词依赖微软的必应(Bing)。而Jibbigo研发的语音识别技术在一年后“下马”,买车人补充说,这俩收购基本上就是一场浪费。“它不难 产生足够的点击……(或多或少人)不难 不难 多说另五种语言的或多或少人。”

语音技术由有俩个 关键组成部分组成。第有俩个 是语音识别,还有有俩个 是自然语言理解,也被称为语音AI。

2014年,Facebook收购了Wit.ai——一家专门从事自然语言理解的公司,向开发者授权使用软件,把文本的混乱底部形态变成可用软件查询的数据。然而,Facebook并不难 将该公司的技术和语音识别技术结合起来,就是使用它来帮助企业建立Facebook Messenger聊天机器人,这是在2016年4月发起的一项变现计划。

“Facebook从来不难 明确的语音识别策略,”另一位高级工程人员说。“从来不清楚为哪此要买下(Jibbigo)。这在内控 是个间题。或多或少人儿知道有原先一支团队,但不难 知道或多或少人为哪此跳出在这里。”

内控 研究机构成“鸡肋”

据消息人士透露,Facebook的语音努力最终体现在2015年到2017年的有俩个 领域:有俩个 是转录Facebook视频的音频,以制作实时字幕,原先是发布Facebook人工智能部门FAIR(即Facebook人工智能研究)的尖端研究成果。

Facebook在2013年12月启动FAIR项目,该部门常被比作DeepMind——2014年谷歌花费4亿美元并购的AI研究公司。这俩部门由400名研究人员组成,在AI研究“大咖”Yann LeCun的带领下出理 人工智能中的长期间题。公司内控 还有有俩个 类式部门称为AML(即应用机器学习),有离米 400名工作人员,负责人工智能研究的商业化。

根据Facebook一位资深人士透露,哪此部门的所扮演的角色很僵化 ——聚集一堆研究者,但对产品开发毫无贡献,还引诱技术熟练的工程师脱离产品开发。“它创造了有俩个 平行的研究世界,”消息人士说。

最终,Facebook好的反义词不难 更多投入于语音技术的开发,愿因正如知情者所言:“不难 客户,不难 人对Facebook说‘我时要这俩技术。’”

这正是哪此想在更广泛竞争中胜出的高科技公司所面临的挑战。不断创新愿因在有俩个 尚未被证实的技术上投下决定性赌注,即使缺少明显的客户。Facebook我想要不难 在语音技术上及时发力,等或多或少人出手时,早已时不我待。