敲黑板划重点!GPT-4o深夜炸场!OpenAI新发布会信息量巨大

AI快讯 2024-05-14

在美国当地时间5月13日上午10点(北京时间5月14日凌晨1点),备受瞩目的OpenAI春季发布会如期举行。与以往不同的是,这次发布会并未带来传说中的GPT-5或全新的搜索引擎,但一个全新的旗舰模型GPT-4o却以其卓越的多模态、实时交互能力,引发了全球科技界的热烈讨论。

image.png

GPT-4o的发布不仅让人们感叹科技的力量,更是将科幻电影《她》中的未来场景变成了现实。在直播演示中,GPT-4o所展现出的强大能力,足以让人为之惊叹。更令人兴奋的是,GPT-4o以及ChatGPT Plus会员版所有的功能,将免费向所有用户开放,这无疑将极大地推动AI技术的普及和应用。

那么GPT-4o到底有多强?GPT-4o的强大之处,不仅在于其能够处理复杂的语言任务,更在于其多模态交互的能力。在演示中,GPT-4o不仅能够在语言不通的两个人之间充当翻译机,更能够在实时语音交互中展现出零延迟的自然对话,充分理解并响应语音中的语气、音调等信息。此外,GPT-4o还能够通过视觉和语音的结合进行多模态交互,帮助用户解决数学问题、辅助编程等任务。

image.png

比如让ChatGPT在语言不通的两个人之间充当翻译机,听到英语就翻译成意大利语,听到意大利语就翻译成英语。

发布会直播之外,总裁哥Brockman还发布了额外的5分钟详细演示。

而且是让两个ChatGPT互相对话,最后还唱起来了,戏剧感直接拉满。

这两个ChatGPT,一个是旧版APP,只知道对话,另一个则是新版网页,具备视觉等新能力。(我们不妨取Old和New的首字母,分别叫TA们小O和小N)

Brockman首先向小O介绍了大致情况,告诉她要和一个拥有视觉能力的AI对话,她表示很酷并欣然接受。

接着,Brockman让她稍作休息,并向小N也介绍情况,还顺带展示了小N的视觉能力。

只见打完招呼后,小N准确地说出了Brockman的衣着打扮和房间环境。而对于要和小O对话这件事,小N也感到很有趣。

接下来就是小O和小N相互对白的时间了,TA们依然是从Brockman的衣着开始聊起,小O不断提出新的问题,小N都一一解答。

接着,他们又谈论了房间的风格、布置和光线,甚至小N还意识到了Brockman正站在上帝视角凝视着TA们。

如果你看了这段视频就会发现,画面中出现了一个女人在Brockman身后做了些恶搞的手势。

这可不是乱入,是Brockman和女人串通好,专门给小N设计的一道“考题”。

就在小O和小N聊的正开心的时候,Brockman选择加入,直接问有没有看到什么不正常的地方。

结果是小N直接识破了Brockman的小伎俩,直接复述出了女人在他身后做小动作的场景,小O听了之后直接感叹原来在这里享受乐趣的不只有我们两个。

Brockman把这句话当成了夸赞,并对小O表示了感谢,还愉快地加入了TA们的对话。

之后是最后也是最精彩的部分,在Brockman的指挥下,小O和小N根据刚才聊天的内容,直接开启了对唱模式。

只过了简单几轮,衔接地就十分密切,而且旋律悠扬,音色也是和真人毫无二致。

最后视频以Brockman唱出的一句Thank you结束,在视频外的推文中他还透露新的语音对话功能将在数周内向Plus用户开放。

通过演示不难发现,其实GPT-4o的核心功能主要表现在以下几点:

首先,GPT-4o实现了零延迟的实时语音交互,其表现自然、真实,充满情感。在演示中,当演示者表现出紧张情绪时,GPT-4o能够迅速识别并给予安慰和指导。此外,GPT-4o还能够根据要求调整语气和音调,甚至在被要求时,能够以机器人的声音或唱歌的形式来讲述故事。

与之前的模型相比,GPT-3.5和GPT-4在语音模式下的平均延迟时间分别为2.8秒和5.4秒,这无疑会影响对话的流畅性。而GPT-4o则无需先将语音转录为文本,因此能够更直接地理解和响应语音中的语气、音调等信息。

除了语音交互,GPT-4o还能通过视觉和语音的结合进行多模态交互。例如,在发布会上,OpenAI展示了GPT-4o如何通过摄像头视觉解析图形报表,帮助用户解决数学问题。

image.png

在编程辅助方面,GPT-4o的实时交互能力也得到了显著提升。它能够实时检查代码,解释代码的功能,并指导用户如何调整代码以获得期望的结果。

此外,GPT-4o还能够进行视频通话,并实时分析面部情绪。在演示中,GPT-4o能够准确地识别并响应演示者的情绪状态。

image.png

在语言能力方面,GPT-4o支持超过50种语言,并在质量和速度上都有所提升。在官方演示中,GPT-4o成功实现了英语和西班牙语之间的实时同声传译。

image.png

不过,GPT-4o的新语音模式在未来几周内会优先对ChatGPT Plus会员开放。

image.png

此外,GPT-4o也向开发者开放了API。与GPT-4Turbo相比,GPT-4o价格减半,但速度却快了2倍,速率限制高出5倍。OpenAI称,接下来会向部分API合作伙伴提供新的音频和视频功能支持。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章