GPT-4o大模型对行业应用的影响及启示
近期GPT-4大模型迭代了最新版本“GPT-4omni”(以下简称“GPT-4o”)。GPT-4o大模型由单一神经网络同时处理文本、音频和图像,可直接将音频映射到音频作为第一模态,实时将视频流传输至Transformer大模型,根据需求输出多模态任意组合,可区分多个特定说话者,识别音调或背景噪声,具备较好的视觉和推理分析能力。GPT-4o可实时对3D环境进行精准感知和推理判断,结合当前的环境属性与用户进行语音交互。相比GPT-4之前的版本GPT-4 Turbo,GPT-4o响应时间短,价格便宜近50%,本次Open AI发布的GPT-4o极有可能是GPT-5发布前的“过渡”版本。
GPT-4o对部分行业应用带来的影响
GPT-4o是近年Open AI发布的最“聪明”的大模型,将改善情感类、效率类和安全类等场景的应用,对部分行业应用带来一定影响。
GPT-4o将升级教育、客服、商业分析等行业应用,成为高度逼真且有情感的“真人”AI助理。GPT-4o具备较强的记忆和逻辑能力,通过对用户过往交互信息推理分析,可为用户“量身定制”交互方式和习惯,充分理解对话内容并可自主发表建议,同时也支持与多用户同时实现交互。另外,用户可实时打断和转移与大模型的交互话题,使AI陪伴更加真人、可靠和多样。最近在国外一个对盲人陪护所发布的视频中,GPT-4o可有效助力盲人用户出行,实时交互所处的环境信息细节,场景描述,丰富盲人的情感生活,同时也可为盲人用户实时打车,提高出行效率。
GPT-4o大模型升级智能座舱用户交互体验,助力自动驾驶实时建图、增强感知并缩短推理时间。GPT-4o将改善并升级智能座舱用户交互效果,促进“人机交流”向“人与真人交流”过度。此外,当前大模型对自动驾驶的帮助重点集中在仿真训练场景的搭建与扩充,实现更精确的自动化标注等,对较复杂且高动态的道路环境通常无法较快的响应,难以实时生成准确有效的规划和决策。一方面GPT-4o可提高实时城市NOA(Navigate on Autopilot 驾驶辅助系统)建图生成效率,使车辆减少对高精地图的依赖。另一方面相比传统多模态大模型视觉感知结果需通过文字转换输入神经网络,视觉感知结果直接输入神经网络使信息细节更加丰富,可将车辆所处的环境信息进行精准分层和分类,使自动驾驶系统在处理驾驶动作时进行更好的任务优先级排序,保持最优驾驶决策逻辑,更贴合人类驾驶思维。此外,整合成一个神经网络的多模态大模型可实现推理加速降低时延,实时感知道路环境,及时推理分析周围障碍物信息、其他交通参与者意图等,在一定程度上将提高低速自动驾驶的安全性。
GPT-4o大模型将提升无人机出行效率和安全,促进低空经济发展。当前接入传统多模态大模型的物流无人机由于自身电量有限,在实际处理任务时,往往由于大模型规划和推理任务时间过长,易出现尚未完成任务就返回充电等问题,GPT-4o将在单位时间内帮助无人机完成更多的推理任务。此外,无人机在复杂场景环境飞行也易发生与障碍物碰撞或因任务规划错误而出现炸机等问题,GPT-4o在确保无人机实现高正确率路径规划的同时,其推理加速在一定程度上也确保了无人机的飞行安全,使无人机在复杂环境飞行避障更加“灵巧”,满足无人机飞行的可靠性和安全性。
GPT-4o大模型将强化人形机器人应用,升级人形机器人“类人情感“。一方面GPT-4o使人机交互变快,机器人可迅速根据需求规划自身任务,使部分身体动作更接近人类的反应速度。另一方面机器人将增强情感功能,可区分多人对话,判断对话人的精神状态并生成更好的语言反馈。
GPT-4o大模型潜在的问题
GPT-4o的高效多模态处理能力虽然改善了交互体验,但是面向部分应用场景仍存在一定的局限性。
一是大模型部分推理性能仍有待于探索。GPT-4o将更侧重感知和语言交互体验功能,相比GPT-4 Turbo训练所需的参数和算力成本可能会变少,因此将文本、图像、视频整合进一个神经网络是否会造成大模型部分推理能力下降或具备一定程度的局限性仍需要继续测试和验证。
二是部分行业场景推理对时延和可靠性要求高,GPT-4o仍有待优化。GPT-4o虽然强化了与周围应用环境的多模态交互,缩短了推理响应时间,但是在解决一些对时延与可靠性要求更高的场景仍需优化,如在工业质检与制造行业,在规定的无故障时间内,较低时延且稳定的大模型推理将有效提高工业产品瑕疵检测率与工业生产效率。再者如安全性高的自动驾驶行业,自动驾驶车辆端到端实时推理时延要求200ms以下,而GPT-4o平均时延为320ms, 因此面向工业质检和制造和高速自动驾驶车辆GPT-4o推理加速和稳定性仍有待优化。
三是AI助理将高度“真人化”,相比过去的AI治理难度将增加。在最新部分功能演示的视频中,GPT-4o展示了较好的数学能力和客服能力,语音也十分贴近真人,这将为投机分子和不法人员提供了可乘之机,如可通过“真人助理”完成作业和学术论文、通过声音模仿完成远程线上面试、客服助理虚开发票等滥用和欺诈行为。因此相关行业和监管机构应制定相关规范和措施。
运营商启示和建议
优化大模型产品商业化应用策略。GPT-4o大模型的发布并向全球用户免费开放表明了未来Open AI新版本通用大模型将分别提供同时面向企业专业开发者和个人用户免费的版本,这将成为Open AI更大规模抢占全球用户市场份额的重要商业手段。运营商可参考Open AI产品市场建设策略构建类似GPT-4o的面向不同行业属性与用户群体的通用大模型底座。
构建注重推理加速和交互体验的通用大模型,赋能行业应用。着重推理加速和交互体验的通用大模型底座除可为用户交互注入更多的情感外,还可为部分行业应用提高效率,保障应用安全性,降低成本。运营商可采用GPT-4o大模型的建设方法,在软件层面将文本、图像、视频等多模态打造成一个神经网络,同时不断改善网络结构,升级视频编解码器,优化通信协议、部分计算和缓存等。在硬件层面也需继续优化,提升GPU与存储或内存之间的数据传输效率,设置较为合理的推理参数,提高硬件的吞吐率等。
加强防范高度“真人化”交互带来的安全风险。运营商应可与行业机构、相关监管部门合作,在原有治理规范基础上,针对应用场景探索和更新AI治理政策,升级大模型治理工具,确保大模型应用的严谨性、合理性和安全性等,如AI助手自动与厂商进行客服对话前,可自动加入如“本次对话由AI助理”完成等相关信息,提前告知对方身份,进而做到提前防范。