燃爆全网！阿里通义千问Qwen2-72B，国内通用能力测评一骑绝尘

AI快讯 2024-07-10

根据SuperCLUE最新发布的2024年上半年中文大模型基准测评报告，阿里巴巴的通义千问开源模型Qwen2-72B-Instruct凭借其卓越表现，不仅在国内通用能力测评中独占鳌头，更在全球范围内树立了开源模型的新标杆。

此次SuperCLUE报告深入剖析了国内外共计33个大模型的全面测评结果，Qwen2-72B以一级总分77分的优异成绩，与Claude-3.5-Sonnet并驾齐驱，紧随OpenAI的GPT-4o之后，位列第二。这一成绩不仅超越了包括百度文心一言4.0、讯飞星火V4.0、Llama-3-70B等在内的众多知名开闭源大模型，更彰显了其强大的综合实力。

在测评的三大维度——理科、文科及Hard任务上，Qwen2-72B均展现出了均衡且出色的能力。特别是在理科任务中，尽管与GPT-4o存在5分的差距，但其在计算、逻辑推理及代码测评方面的强劲表现仍令人印象深刻。文科及Hard任务上，Qwen2-72B同样不甘示弱，以接近GPT-4o的高分完成了挑战，体现了其在知识理解、语言应用及精确指令遵循等多方面的优秀能力。

尤为值得一提的是，在端侧小模型测评环节，Qwen2-7B以70亿参数的规模，力压上一代320亿参数的Qwen1.5-32B及130亿参数的Llama-3-8B-Instruct，成功登顶榜首。这一成就不仅验证了Qwen系列模型在小尺寸模型领域的极致优化能力，也为端侧小模型的广泛应用提供了强有力的支持。

截至目前，Qwen系列模型的下载量已突破惊人的2000万次大关，其应用场景广泛覆盖工业、金融、医疗、汽车等多个垂直领域，展现了强大的市场潜力和应用价值。

SuperCLUE报告高度评价了Qwen2-72B的卓越表现，认为其不仅超越了众多国内外闭源模型，更在引领全球开源生态方面发挥了重要作用。报告指出：“Qwen2-72B以其全面而均衡的能力，成为了一个非常有竞争力的通用开源大模型，尤其适用于推理、数理分析、信息处理及相对专业复杂的场景。我们强烈推荐将其应用于工业、金融、医疗、汽车等垂直专业领域。”

综上所述，阿里通义千问的Qwen2-72B-Instruct模型在SuperCLUE的最新测评中取得了令人瞩目的成绩，不仅在国内通用能力测评中拔得头筹，更在全球开源模型领域树立了新的标杆。随着其应用场景的不断拓展和深化，我们有理由相信Qwen系列模型将在未来发挥更加重要的作用，而想要体验通义千问就可以直接在AI569工具导航站搜索使用即可。