GPT-4o是OpenAl最新推出的一款先进的人工智能模型,GPT-4o不仅具备强大的多模态推理能力,能够灵活处理语音、文本和视觉信息,更在实时响应、情感识别与模拟等方面展现了出色的性能。GPT-4o的设计注重提高运算速度和降低成本,其速度是之前模型的两倍,而成本仅为一半。GPT-40在多语言处理、音频和视觉理解上表现突出,同时在安全性设计上进行了强化,以确保交互的安全性。目前,该模型的文本和图像功能已在ChatGPT中逐步推出,用户可免费体验,后续将推出音频和视频功能。
多模态交互:GPT-4o不仅能够处理文本,还能处理语音和视觉信息,能够理解和回应更广泛的用户输入,包括实时视频分析。
实时对话反馈:该模型能够提供即时的响应,无论是在文本对话、语音交互还是视频内容分析中,都能快速给出反馈。对音频输入的响应时间极短,平均为320毫秒,与人类对话反应时间相近。
情感识别与模拟:GPT-4o能够识别用户的情感状态,并在语音输出中模拟相应的情感,使得对话更加贴近人与人之间的自然交流。
编程代码辅助:GPT-4o能够分析和理解编程语言中的代码片段,帮助用户理解代码的功能和逻辑:用户可以通过语音向GPT-4o提出关于代码的问题,模型会以语音形式回应,解释代码的工作原理或指出潜在的问题。
多语言支持:GPT-4o支持超过50种语言,能够服务于全球各地的用户,满足不同语言环境的需求,此外,还支持多种语言的实时同声传译,如英语口译为意大利语。
文本性能评估:GPT-4o在多语言理解均值(MMLU)基准测试中创下了87.2%的最高得分,GPQA得分为53.6%排名第一、MATH得分76.6%排名第一、HumanEval得分90.2%排名第一、MGSM得分90.5%排名第二(略低于Claude3Opus)。这显示了其在常识问题上的强大推理能力和文本处理能力。
音频ASR性能:GPT-4o比Whisper-v3显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
音频翻译性能:GPT-4o在语音翻译方面达到了新的最先进水平,并且在MLS基准测试中优于Whisper-v3,超越Meta的SeamlessM4T-v2和谷歌的Gemini。
视觉理解评估:GPT-4o在视觉感知基准上实现了SOTA最先进的性能,超过Gemini1.0Utra、Gemini1.5Pro和Claude3Opus。
M3Exam - M3Exam 基准测试:既是多语言评估也是视觉评估,由来自其他国家标准化测试的多项选择题组成,有时还包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。
GPT-4o的文本和图像功能已经开始在ChatGPTE中逐步推出,用户可以在ChatGPT平台上免费体验到GPT-4o的相关功能,但免费版有使用次数限制。Ps用户的消息限制将比免费用户高出5倍。
同时,OpenAli还计划在未来几周内推出基于GPT-4o的Voice Modet的新版本,这将作为ChatGPT Plus的一个alpha版本提供给Plus用户。此外,GPT-4o也将通过AP提供给开发者,作为文本和视觉模型。开发者可以利用API来集成GPT-4o到他们自己的应用程序中,而且GPT-4o在API中相比GPT-4Tubo更快、更便宜,并且有更高的速率限制。
至于GPT-4o的音频和视频功能,OpeA将在未来的几周和几个月内继续开发技术基础设施、通过训练后提高可用性以及确保安全性,之后才会发布这些功能,并逐步向公众提供。