拳打Llama-3-70B,脚踢GPT-4 Turbo,通义千问到底做对了什么

AI快讯 2024-05-10

国内开发者或许未曾预料,他们的AI大模型作品能够像热门的网络文学或短剧一样,吸引全球网友翘首以盼。韩国网友甚至开始自问:为何我们没有如此出色的模型?

这个备受瞩目的“明星”正是来自阿里云的通义千问(英文名Qwen)。近一年来,它在各大社交平台上频繁亮相,话题无外乎两个:通义千问又推出了新模型!通义千问的新模型真是太实用了!

image.png

有人更是以通义千问为案例,反驳了中国在人工智能领域落后的观点。这并非空穴来风,最近的HuggingFace开源大模型排行榜Open LLM Leaderboard上,新开源的Qwen1.5-110B竟一举登顶,性能超越Llama-3-70B。

image.png

这一成就已在通义千问的新版本——通义千问2.5中得以延续。这款模型在中文场景下的性能已超越GPT-4 Turbo,成为当前最强大的中文大模型。

地表最强的中文大模型Qwen1.5-110B

这款模型于4月28日开源,是Qwen1.5系列中规模最大的一款,拥有超过1000亿参数。它能处理长达32K tokens的上下文,并支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。

在技术层面,Qwen1.5-110B采用了Transformer解码器架构,并引入了分组查询注意力(GQA)机制,使得模型推理更为高效。因此,它在MMLU、TheoremQA、ARC-C、GSM8K、MATH和HumanEval等多个基准测评中均取得了优异成绩,不仅超越了自家的Qwen1.5-72B,还战胜了Meta的Llama-3-70B。

而在对话聊天场景中,Qwen1.5-110B-Chat在MT-Bench和AlpacaEval 2.0基准测试上的表现也优于Llama-3-70B-Instruct。

或许有些开发者会担心,Qwen1.5-110B虽好但过于庞大。然而,通义千问的“家族”已为我们提供了多种选择。在Qwen1.5-110B发布之前,通义千问已开源了从0.5B到72B的七种尺寸模型,适用于从端侧到服务器的各种部署场景。

以Qwen1.5-72B为例,这款模型不仅曾登顶HuggingFace和OpenCompass开源大模型排行榜,还在MT-Bench和Alpaca-Eval v2评测中表现出色,超越了Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-Instruct等模型。在开放研究机构LMSYS Org推出的Chatbot Arena基准测试平台上,Qwen1.5-72B更是多次进入全球Top 10,创造了国产大模型的佳绩。

image.png

通义千问 2.5 赶超 GPT-4 Turbo

通义千问2.5则在坚持开源的同时,不断“修炼内功”,提升了理解能力、逻辑推理、指令遵循和代码能力等基础能力。相较于前序版本通义千问2.1,通义千问2.5在这些方面分别提升了9%、16%、19%、10%。在中文语境下的文本生成、知识问答、生活建议和闲聊对话等场景中,通义千问2.5更是超越了GPT-4,成为中文社区的首选。

在OpenCompass权威大模型评测基准平台上,通义千问2.5的得分与GPT-4 Turbo相当。这是国产大模型首次在该基准上取得如此出色的成绩,充分展现了通义千问持续进化的巨大潜力。

如今,通义千问已站在国内外大模型领域的第一梯队。

相较于前序版本通义千问 2.1,通义千问 2.5 的理解能力、逻辑推理、指令遵循和代码能力分别提升了 9%、16%、19%、10%,将基础能力「卷」出新高度。

其中,中文语境下的文本生成和理解、 知识问答、生活建议、闲聊对话等垂直场景的能力更是赶超 GPT-4,成为中文社区最佳选择。

在权威大模型评测基准平台 OpenCompass 上,通义千问 2.5 的得分追平了 GPT-4 Turbo。这是国产大模型首次在该基准上取得如此出色的成绩,让我们看到了通义千问能力持续进化的巨大潜力。

而得益于更强大的基础能力,通义千问 2.5 在文档处理、音视频理解和智能代码使用场景形成了独有优势。

首先,通义千问 2.5 具备了超强的文档处理能力,在支持输入的文本长度上可以单次处理 1000 万字,在支持输入的文档数量上可以单次处理 100 个文档,实现了单次最长和最多。

通义千问 2.5 支持丰富的文件格式和文本类型,比如 Word、PDF、Excel 以及表单、合同、白皮书、论文、财报研报等。文本任务也多样化,比如解析标题、文本段落、表格、图表等多种版面类型及文档层级目录的识别和抽取。在输出时支持 Markdown、JSON 等格式,对用户友好、易用性拉满。

其次,通义千问 2.5 具有出色的音视频理解能力。

在通义千问语言能力、LLM 能力、多模态能力和翻译能力的加持下,通过通义听悟、语言视觉 AI 模型等,实现音视频场景的信息挖掘、知识沉淀和高效阅读。相关能力已在钉钉、阿里云盘等内部产品以及合作伙伴的具体场景中有了广泛的落地实践,让模型应用实现「开花结果」。

此外,通义千问 2.5 赋予了开发者和企业卓越的智能编码能力。

以通义代码大模型CodeQwen1.5为底座的智能代码助手「通义灵码」,它的国内用户规模已经达到了第一,其中插件下载量超过 350 万,每日推荐代码超过 3000 万次,开发者采纳代码超过 1 亿行。同时,正式发布的通义灵码企业版能够基于企业需求进行定制,帮助他们提升编码体系的整体效率。

image.png

可以预见,随着通义千问 2.5 的到来,它将成为更强大的模型底座,进而为普通用户、开发者和企业客户提供更多样化、更准确、更快速的生成式 AI 体验。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章