资讯

Siri 们的“智障”终于有救了？-全球播报

2023-04-30 17:19:56 字母榜

“今天北京比上海热吗？”

摸着良心讲，问这个问题的时候，并没有想刁难Siri。但是Siri它就是回答不上来。

“今天似乎是晴天。”Siri天真（但驴唇不对马嘴）地回答，配以用户所在的上海的天气卡片。

(资料图片)

用同样的问题去问必应机器人，它虽然没有直接回答是或否，但至少给出了两地的气温数据。

不光是Siri，语音助手们十年间似乎一点长进都没有。用户也已经习惯于对它们降低要求，给出明确、直接的指令：“音量小一些”“关灯”“下一首”。

但ChatGPT的出现改变了一切。人们感受着ChatGPT、新必应机器人、谷歌Bard等一众大语言模型驱动的机器人切题、流畅、丰富的对话能力，Siri们的呆板从未如此明显。

语音助手背后的大公司们也感受到了压力。

北京时间4月28日，亚马逊发布2023年第一财季财报，CEO安迪·贾西（Andy Jassy）在电话会议上表示：“我们已经在Alexa下面建立了一个大语言模型，但我们正在构建一个更大、更通用、更有能力的大语言模型，我认为这将会加速我们成为世界上最好的个人助理的愿景。”

几乎同一时间，The Information爆出消息，苹果的工程师正在酝酿将LLM大语言模型与Siri结合，推出更聪明的Siri，随此后的iOS更新与用户见面。

谷歌似乎将资源在谷歌助手与Bard间进行了重新分配，在架构上将二者融合。

国内，在本月早些时候，阿里宣布所有产品未来将接入“通义千问”大模型，其中当然也包括天猫精灵。在官方演示Demo中，新天猫精灵支持自由对话，根据用户需求和场景随时生成内容，比如“合成1小时歌单，50%穿插摇滚风格的歌曲”。

从令人振奋，到令人失望，从代表未来，到明日黄花，Siri们走过了十几个春秋，终于站在了抉择的路口。

2011年10月，蒂姆·库克（Tim Cook）迎来自己接任苹果CEO后的第一场大型发布会。

全世界期待的iPhone 5没有如约而至，库克拿出的是中间代产品iPhone 4s。拯救那次新品发布的，是苹果全新的数字语音助理产品Siri。

在此之前，手机内嵌语音指令功能并不是个新鲜事。中国用户印象最深的也许是“金立语音王”，按住按钮说出想拨打电话的用户名，手机就会把电话打出去。

但这种语音功能能做的事情很少（基本就是打电话），对指令的识别率也不高，你必须严格说出“打电话给XXX”才行，“给XXX打个电话”都行不通。

Siri显然是另一个维度的产品：用自然的语言，更灵活的指令，使唤设备做更多的事情，如查天气、查地图、读短信、设置提醒事项和闹钟等等。

结果大家都知道了，iPhone 4s成为苹果手机史上的一个经典机型，推出的那个季度销量是上一个季度的两倍有余，分析师也纷纷上调后续的销量预期。据当时Sterne Agee公司发表的投资者声明，Siri正是推动销量的重要原因。

亚马逊在2014年将 Alexa 安装到最初的 Echo 扬声器上，自那以后，Echo 设备迅速扩张，第一代两年销量超过500万台。Alexa语音助手也从智能音箱走向更多终端设备。

而谷歌也在2016年推出，作为 Google Now 的一个扩展，它不仅提供个性化元素——从 Google 日历、 Gmail 和其他 Google 服务中获取信息——还能理解上下文，识别不同的语音配置文件，并支持诸如“持续对话”和“翻译模式”等功能。

基于安卓的手机厂商们，也纷纷定制自己的语音助手，如三星于2017年推出Bixby，同年小米推出“小爱同学”。如今，主流手机厂商几乎都会给设备内置个语音助手，如华为的小艺，OPPO的小布，Vivo的小V等。这些助手也被同步进厂商的其他产品如电脑、平板电脑、智能手表中。

智能音箱作为语音助手最直接的载体，也成为大厂们争相布局的领域，谷歌有Nest Audio，苹果也推出了HomePod，国内阿里有天猫精灵，小米则有小爱音箱。

在消费电子领域，内置语音助手已经相对普及。据TechInsights，2022年内置语音助手的消费电子设备出货量为22亿台，包括智能手机、智能电视、无线音箱、平板电脑、可穿戴设备等。其中手机占50%，可穿戴设备为第二大细分市场。

另据Statista，2022年美国大约有1.42亿语音助手用户，几乎占全国人口的一半。

遗憾的是，有不代表好用，语音助手大行其道的另一面，是其被嫌弃的一生。

虽然Siri的推出引来人们的尝试热情，但失望接踵而来，而且随着时间的推移，这种失望在不断扩大。

早在其刚推出的那几年，网络上就有很多关于Siri奇葩回答的讨论。2012年，也就是Siri发布的次年，投资银行Piper Jaffray分析师基尼·蒙斯特（Gene Munster）最近对Siri进行了一系列测试，发现在1600多项语音测试中，Siri的回答准确率只有68%，而在喧闹的室外环境，这一数字还会降低。

但在那个时候，多数人还是对Siri满意的。彼时研究公司Parks Associates分析总监约翰·巴里特（John Barrett）对482名iPhone用户进行了调查，有55%给予Siri高分评价，21%很满意，只有10%完全不满意。

图源：苹果官网

然而到了2017年，Adobe的研究报告显示，37%的受访用户认为他们与语音助手的互动“并不好”或者“非常糟糕”，26%的用户表示体验“还行”，只有37%的用户持积极态度。

到了2018年，调研公司Creative Strartegies的调查报告显示，Siri的用户满意度仅为20%。

一个具有代表性的事件是，亚马逊的Alexa在2018年还搞出了个“赛博灵异事件”。多位用户表示Alexa在毫无预警的情况下发出诡异的笑声，亚马逊不仅发表公开声明解释原因（可能是将环境噪音错误识别为“Alexa，笑一个”），还紧急上线了产品补丁。

同样的情况也发生在其他语音助手上：自己突然说话、答非所问、不听指挥等等。

到了如今，智能语音助手已经不能符合人们对“智能”的想象。但这些吐槽和抱怨，似乎没有推动语音助手的明显进化。语音助手的“愚蠢”就像房间里的大象，被科技大公司们集体忽视了。

一个最明显的例子是，如果你去观看2011年苹果发布会上的Siri演示，会发现其用法和处理能力和今天相比没有什么明显的差别。

直到ChatGPT的出现，才让这个“大象”被看见。虽然自己也曾推出PC语音助手Cortana，但乘上ChatGPT快车的微软毫不手软，直接点出了问题。

3月，在接受英国《金融时报》采访时，微软CEO萨蒂亚·纳德拉（Satya Nadella）表示：“无论是Cortana、Alexa、Google Assistant还是Siri，这些语音助手笨得像块石头（dumb as a rock）。我们最新推出的产品（必应聊天机器人），具备这些语音助手所无法提供的功能。”

Siri们的“愚笨”，或者说与ChatGPT相比之下的呆板，直接原因自然是背后的技术。

ChatGPT为代表的新一代聊天机器人由大型语言模型（LLM）驱动，这些模型系统经过大量网络数据集的训练，能识别和生成基于数据集的文本，在此基础上生成完整的句子。

而Siri、Alexa和谷歌助手基本上都属于所谓的命令和控制系统。这些系统智能理解有限的问题和请求，如果用户所提出的问题不在其代码中，助手就无能为力。

根据《纽约时报》的一篇报道，曾在苹果负责Siri项目的工程师约翰·柏基（John Burkey）表示，由于设计的繁琐，为Siri添加新功能很难。

他曾于2014年受命对Siri进行改进，而它的数据库就像一个“巨大的雪球”，要在Siri的数据库里添加哪怕一个单词，“实际上就是在一大堆无序的数据库中再添加一些数据。”

同样的问题，Alexa和谷歌助手也有。

作为硅谷头部科技巨头，调用人才和财力为语音助手改头换面不就行了？可惜事情没有那么简单。

第一个问题是，他们有没有动力这么做？

用户自然是希望语音助手更聪明，自从ChatGPT出现，互联网上就不断有“如何将ChatGPT接入我的手机”这样的提问。而且，目前也已经有基于GPT的语音助手应用推出。

但这并不足以让巨头们做出战略决策。Alexa虽然帮助亚马逊抢占了智能音箱市场的份额，但却并没有清晰的商业化路径，甚至是在做赔本买卖。亚马逊的野心是通过语音助手将用户引至电商消费，但随着时间的推移，大部分的用户只不过用Alexa执行诸如“听音乐”“关灯”等基础指令。

去年底，亚马逊宣布裁员1.7万人，其中，负责Alexa的“全球数字”部门成为了裁员重灾区，部分高管离开了公司。据BusinessInsider，这个部门仅在2022年第一季度就亏损了30亿美元，罪魁祸首就是Alexa，这是其他部门亏损总和的两倍。

Alexa

该报道还称，硬件团队2022年预计亏损100亿美元。

谷歌助手虽然在语音助手中占比很高，在美国是市场份额第一的语音助手，但似乎被亚马逊误导，走了同样的弯路。从2016年到2021年的5年里，谷歌发布了8个主要的内嵌主搜的音箱/智能显示器硬件产品，自那以后似乎就陷入停滞。

2022年，谷歌移除了助手对两个内部产品线的支持，NestWifi路由器和Fitbit可穿戴设备。同年，The Information报道称，胡歌欲减少在开发谷歌助手语音辅助搜索功能方面的投资。

谷歌助手和Alexa一样，没有什么赚钱的路径，无广告，无订阅模式，就是一个兢兢业业的助手，还经常帮不到点子上。

将ChatGPT、Bard等聊天机器人背后的大型语言模型应用在语音助手上，自然对功能体验有提升，但仍然无法解决产品商业化的问题。

至于苹果，则深深受制于“保护用户隐私”。几年前Siri因为“偷听”丑闻，收回了所有Siri项目的外包公司，对用户和Siri之间对话的私密性更加尊重。但这对于大语言模型来说，就意味着训练数据的匮乏。

第二个问题是，身形庞大的科技巨头，转起身来有困难。

不管是Siri、Alexa还是谷歌助手，都已经发展多年，要做大变革，最容易被外界忽略，却也最棘手的问题，便是内部的资源分配。

苹果的Siri从一开始就历经坎坷，乔布斯刚开始亲自指导该项目，却在产品上线第二天去世。到了发布一年之后，Siri就已经经历三位负责人，而内部的分歧不断。不仅有管理方式的分歧，也有搜索、语音识别、自然语义的派系纷争。

到了2022年，又有三位关键人物 Srinivasan Venkatachary、Steven Baker 和 Anand Shukla离开，他们是机器学习初创公司Laselike的创始人，后被苹果以1.5亿美元收购。这次离开，他们投入了谷歌的怀抱。

让Siri进行大转向，势必又要涉及到内部人员和资源的重新分配：谁来领导项目？走什么路径？过往人员是去是留？这都是摆在库克面前的老大难问题。

谷歌倒是已经做出了选择。

3月底，CNBC报道了谷歌的团队变化，根据一份泄露的内部备忘录，谷歌助理似乎为公司新的超级巨星Bard让路。

这份名为“助理和Bard团队的变化”的备忘录显示，公司将把Bard作为高度优先事项。曾担任谷歌助理项目副总裁的Jianchang Mao离职，该项目另一位副总裁则将负责Bard团队的工作，此前负责Bard项目的高管继续担任Bard“区域技术领导”。

看起来，谷歌已经做好了将Bard和谷歌助理融合的准备。

至于亚马逊，在长久的沉默之后，终于宣布要用LLM给Alexa做升级，但具体怎么做，并没有对外透露。刚刚经历了裁员重创的内部团队要如何重振希望，是贾西要解决的难题。

Siri们已经意识到了ChatGPT的威胁，不进则退的局面已经形成。至于怎么进，这是个问题。

希望有天我们可以拿起手机问Siri：“今天北京比上海热吗？”并得到令人满意的有效回答。

参考资料：

1、澎湃新闻：《谷歌被曝调整虚拟助理部门领导架构，未来或集成Bard技术》

2、爱范儿：《从领先到落后，苹果 Siri 和它动荡的 7 年时光》

3、大数据文摘：《从“全村的希望”到“大裁员”，亚马逊是如何摧毁Alexa 的？》

为你推荐