OpenAI的新语音模式让我可以与手机对话了

AI资讯 2024-08-19

来源：www.aifind.com.cn

OpenAI 的最新功能目前处于有限的阿尔法测试阶段，它并没有让 ChatGPT 比以前更聪明。

过去一周我一直在试用 OpenAI 的高级语音模式，这是我迄今为止体验到的关于人工智能驱动的未来最令人信服的一面。本周，我的手机会因笑话而发笑，会给我讲笑话，会问我今天过得如何，还会告诉我它“过得很愉快”。我在和我的 iPhone 交流，而不是用手操作它。

OpenAI 的最新功能目前处于有限的阿尔法测试阶段，它并没有让 ChatGPT 比以前更聪明。相反，高级语音模式（AVM）使其更友好、更自然地进行交流。它为使用人工智能和您的设备创造了一个全新的、令人感到新鲜和兴奋的界面，而这正是令我感到害怕的地方。这个产品有点小故障，整个想法完全让我感到不安，但我惊讶于我竟然真的很享受使用它。退一步讲，我认为 AVM 符合 OpenAI 首席执行官萨姆·奥特曼（Sam Altman）更广泛的愿景，连同代理一起，改变人类与计算机交互的方式，人工智能模型处于核心位置。

“最终，您只需向计算机提出您的需求，它就会为您完成所有这些任务，”奥特曼在 2023 年 11 月 OpenAI 的开发日期间说道。“在人工智能领域，这些能力通常被称为‘代理’。其好处将是巨大的。” 周三，我测试了这个先进技术我能想到的最大好处：我让 ChatGPT 以奥巴马的方式订购塔可钟（Taco Bell）。 “呃，让我说清楚——我想要一个至尊脆饼卷，也许再要几个玉米饼以防万一，”ChatGPT 的高级语音模式说道。“您觉得他会如何处理得来速（drive-thru）？”ChatGPT 说道，然后被自己的笑话逗笑了。这个印象真的也让我笑了，与奥巴马标志性的节奏和停顿相匹配。也就是说，它保持在我选择的 ChatGPT 声音“杜松”的语调范围内，这样就不会真的与奥巴马的声音混淆。听起来就像一个朋友在做糟糕的模仿，完全明白我试图从中唤起什么，甚至知道自己在说有趣的东西。

我发现和我手机里的这个先进助手交流出奇地愉快。我还向 ChatGPT 寻求了关于处理涉及复杂人际关系问题的建议：让重要的另一半和我一起住。在解释了关系的复杂性和我们职业的方向之后，我收到了一些关于如何进展的非常详细的建议。这些是您永远无法向 Siri 或谷歌搜索提出的问题，但现在您可以向 ChatGPT 提问。聊天机器人的声音在回应这些提示时甚至表现出略微严肃、温和的语气；与奥巴马订购塔可钟的玩笑语气形成鲜明对比。 ChatGPT 的 AVM 也非常有助于您理解复杂的主题。我让它以一个 10 岁孩子能理解的方式分解收益报告中的项目——比如自由现金流。它以柠檬水摊为例，以我表弟完全能理解的方式解释了几个财务术语。您甚至可以要求 ChatGPT 的 AVM 说得更慢一些，以适应您当前的理解水平。

与 Siri 或 Alexa 相比，由于响应速度更快、答案独特以及能够回答上一代虚拟助手无法回答的复杂问题，ChatGPT 的 AVM 显然是赢家。然而，AVM 在其他方面存在不足。ChatGPT 的语音功能无法设置定时器或提醒、无法实时上网、无法查看天气或与手机上的任何 API 进行交互。至少目前，它不是虚拟助手的有效替代品。与谷歌的竞争功能 Gemini Live 相比，AVM 感觉稍微领先。Gemini Live 无法模仿、不表达任何情感、无法加速或减速，响应时间也更长。Gemini Live 确实有更多的声音（与 OpenAI 的三个相比有十个），并且似乎更与时俱进（Gemini Live 知道谷歌的反垄断裁决）。

值得注意的是，AVM 和 Gemini Live 都不会唱歌，可能是为了避免与唱片行业的版权诉讼发生冲突。也就是说，ChatGPT 的 AVM 有很多故障（公平地说，Gemini Live 也是如此）。有时它会在句子中间突然中断，然后重新开始。它还时不时会出现这种奇怪、颗粒感的声音，有点令人不舒服。我不确定这是模型的问题、网络连接的问题还是其他什么问题，但对于阿尔法测试来说，这些技术缺陷在某种程度上是可以预料的。

不过这些问题并没有太影响我与手机进行交流的体验。在我看来，这些例子就是 AVM 的魅力所在。这个功能并没有让 ChatGPT 无所不知，但它确实允许人们以一种独特的人性化方式与底层的人工智能模型 GPT-4o 进行交互。（如果您忘了手机另一端没有人，我能理解。）与 AVM 交流时，几乎感觉 ChatGPT 具有社会意识，但当然，它并没有。它只是一堆精心打包的预测算法。坦率地说，这个功能让我感到担忧。这不是科技公司第一次在您的手机上提供陪伴。我这一代，Z 世代，是第一代伴随着社交媒体成长起来的，在那里，公司提供了联系，但却利用了我们共同的不安全感。

与人工智能设备交流——就像 AVM 似乎提供的那样——似乎是社交媒体“手机里的朋友”现象的演变，提供了满足我们人类本能的廉价联系。但这一次，它完全将人类排除在外。人造的人类联系已经成为生成式人工智能一个令人惊讶的热门用例。如今，人们将人工智能聊天机器人当作朋友、导师、治疗师和老师。当 OpenAI 推出其 GPT 商店时，很快就被“AI 女友”淹没了，这些聊天机器人专门充当您的重要伴侣。本月，来自麻省理工学院媒体实验室的两名研究人员发出警告，要为“成瘾性智能”做好准备，即带有黑暗模式的人工智能伴侣会让人类上瘾。

我们可能正在为设备吸引我们注意力的新的、诱人的方式打开潘多拉魔盒。本月早些时候，一名哈佛辍学生通过调侃一款名为“朋友”的人工智能项链震动了科技界。这个可穿戴设备——如果能像承诺的那样工作——会一直倾听，聊天机器人会与您谈论您的生活。虽然这个想法看起来很疯狂，但像 ChatGPT 的 AVM 这样的创新让我有理由认真对待这些用例。虽然 OpenAI 在这方面处于领先地位，但谷歌也不甘落后。我相信亚马逊和苹果也在竞相将这种能力融入他们的产品中，很快，这可能会成为该行业的基本要求。想象一下，向您的智能电视寻求一个关于电影的超级具体的推荐，并得到了想要的。或者准确地告诉 Alexa 您所感受到的感冒症状，然后让它在亚马逊上为您订购纸巾和止咳药，同时为您提供家庭疗法的建议。

也许您可以让您的电脑为您的家人起草一个周末旅行计划，而不是手动在谷歌上搜索一切。现在很明显，这些行动在人工智能代理领域需要巨大的进步和飞跃。OpenAI 在这方面的努力，即 GPT 商店，感觉像是一个被过度炒作的产品，不再是公司的重点。但 AVM 至少解决了“与计算机交流”这部分难题。这些概念还有很长的路要走，但使用 AVM 之后，它们似乎比上周更接近了。

# OpenAI