ChatGPT高级语音交互体验将更上一层楼随着这项新功能的加入

文章编号：1787 更新时间：2024-09-26 分类：技术教程 阅读次数：次

资讯内容

智东西编译Vendii编辑漠影：OpenAI宣布高级语音模式新动向

近日，OpenAI在业界引起了一波小范围的震动，宣布将在本周向所有ChatGPT Plus和Team用户开放高级语音模式。
此次更新不仅新增了五种不同风格的声线，还具备记忆功能和自定义指令功能，使得ChatGPT的交互体验更加丰富和个性化。
而这一切的更新，仅适用于GPT-4o模型，并不包括最近发布的o1。

一、新增五种风格声线及两大功能

根据OpenAI的说法，所有订阅了ChatGPT Plus和Team计划的付费用户都将在本周内获得ChatGPT高级语音模式的使用权限。
这一模式除了已经推出的四种风格声线（活跃真诚的Breeze、开放积极的Juniper、沉着直率的Cove和自信乐观的Ember）外，还新增了五种不同风格的声线：随和且多才多艺的Arbor、开朗率真的Maple、聪慧随性的Sol、冷静坚定的Spruce和聪明好学的Vale。
这些新增的声线进一步丰富了ChatGPT的语音表现方式，为用户带来更加多样化的交互体验。

除此之外，OpenAI还为ChatGPT的高级语音模式新增了自定义指令功能和记忆功能。
自定义指令功能允许用户根据自己的需求定制ChatGPT的回复方式，包括设定对话的正式程度、回复的长度、称呼方式，以及是否持有观点或保持中立。
用户还可以通过这个功能告诉ChatGPT更多关于自己的信息，以便ChatGPT提供更加个性化和贴合用户需求的回答。

记忆功能则是指ChatGPT能够记住用户在不同对话中提供的信息，并在后续的交流中提供更加相关和个性化的回答。
例如，如果用户告诉ChatGPT他们有某些饮食限制，记忆功能将使得ChatGPT在未来涉及到菜谱建议之类的对话中考虑到这些限制，并提供相应的建议或信息。
这些新增功能使得ChatGPT的高级语音模式更加智能、更加人性化。

值得一提的是，OpenAI此次更新还宣布ChatGPT的高级语音模式将支持包括普通话在内的50多种语言。
这一举措无疑将进一步拓宽ChatGPT的应用范围，满足不同国家和地区用户的需求。

二、延迟发布的背后原因：AI语音功能引发争议，测试确保安全性

OpenAI将AI语音功能添加到ChatGPT的尝试并非一帆风顺。
早在5月份，当人们发现GPT-4o中的一个声线与女演员Scarlett Johansson的声音极为相似时，就引发了争议。
这一事件让人们开始担忧AI开发商在创建语音助手时可能会模仿知名人士的声音。
尽管OpenAI后来否认了这一声线与Johansson有关联，并立即下架了相关声线，但这一事件仍然给OpenAI带来了不小的压力。
为了确保语音模式的安全性，避免被用于欺诈等不当行为，OpenAI进行了大量的安全测试。
这些测试包括与外部红队测试人员的合作，以及针对不同语言和地区的广泛测试。
由于需要进行充分的测试，ChatGPT高级语音模式的推出时间从最初计划的6月底推迟到了7月底或8月初。
而现在，随着OpenAI正式向所有付费用户开放ChatGPT高级语音模式，意味着它已经做好了充足的准备。

三、结语：AI语音赛道正日益激烈

自苹果Siri和亚马逊Alexa等AI语音助手兴起以来，AI开发商们一直在寻求提升用户与生成式AI的对话体验。
在这一背景下，OpenAI的更新动态反映了AI语音赛道的日益激烈竞争。
不仅OpenAI，其他AI公司也在不断努力，推出更多具有创新性的产品。
例如，由前谷歌Deepmind成员Alan Cowen创办的初创公司HumeAI，以及法国AI公司Kyutai，都在情感智能AI领域取得了显著进展。
谷歌也推出了智能语音助手GeminiLive。
据路透社报道，Meta也在开发模拟知名演员声音的语音助理，这一功能将在明天的Meta Connect 2024大会上宣布。
这一系列的动态表明，AI语音领域正在迎来前所未有的发展机遇，未来将有更多的创新和突破。
我们期待这一领域的持续发展，为用户带来更加丰富和个性化的交互体验。