GPT-4时代：大模型遍地开花，行业瓶颈与机遇并存

AI快讯 2024-04-11

GPT-4的风潮已经席卷全球一年有余，各类大型语言模型如雨后春笋般涌现，让全世界仿佛一夜之间充满了GPT-4级别的强大存在。从Google Cloud Next 24大会上的Gemini 1.5 Pro，到马斯克旗下xAI公司的Grok 2.0，再到Meta即将推出的Llama 3，大型语言模型之间的竞争愈发激烈。

在这一波浪潮中，Google显然不甘示弱。在Google Cloud Next 24大会上，Gemini 1.5 Pro的亮相引起了广泛关注。这款对标GPT-4的模型不仅性能出众，更在音频理解能力上有所突破，可以直接理解、总结上传的视频、音频内容，省去了用户将音频转为文字的繁琐步骤。此外，Gemini 1.5 Pro还增加了系统指令、JSON模式以及函数调用优化等功能，并伴随着一系列从芯片到系统的全面解决方案，展现了Google在大型语言模型领域的雄心壮志。

与此同时，马斯克也加入了这场竞争。他透露，自己的人工智能初创公司xAI正在训练Grok 2.0，并计划于5月份推出。马斯克对Grok 2.0充满信心，认为它将超越市面上所有大模型标准，甚至扬言训练Grok 3将使用10万张H100 GPU，届时连GPT-5也将无法匹敌。

而Meta也不甘示弱，计划于下周推出Llama 3的两个小版本。去年发布的Llama 2系列因其免费开源而广受社区欢迎，如今Llama 3的消息更是振奋了开发者的情绪。扎克伯格年初宣布的35万张H100 GPU即将投入使用，预示着Llama 3的强大性能。Meta声称，Llama 3完全版将是多模态的，可能超过1400亿个训练参数，有望成为“开源版GPT-4”。

然而，随着大型语言模型的不断涌现，人们也开始意识到这一领域似乎进入了一个瓶颈期。GPT-4作为最强模型已经持续了一年多，而同样水平的模型也开始变得“到处都是”。对于OpenAI来说，这无疑是一种焦虑。尽管它推出了GPT-4 Turbo的正式版，但外界期待的显然不止于此。

这种瓶颈期对行业来说意味着什么呢？对于那些期待AGI快速到来的人们来说，这无疑是一个令人沮丧的消息。然而，对于那些期待生态和商业机会爆发的人们来说，瓶颈可能并不是一件坏事。它意味着底层模型能力和技术路线的颠覆频率变得不再那么疯狂，这为建立在上面的应用和中间层提供了更高的确定性。同时，对于大型企业客户来说，他们也可以不再“等等看”，而是可以开始考虑将预算投入到这些相对稳定的技术上。

在这个全新的局面下，Sam Altman正面临着前所未有的挑战。他需要带领OpenAI不断突破自我，以应对来自Google、Meta等巨头的竞争压力。同时，他还需要思考如何在保持技术领先的同时，为生态和商业机会的发展创造更多可能性。