燃爆全网!阿里通义千问Qwen2-72B,国内通用能力测评一骑绝尘

AI快讯 2024-07-10

根据SuperCLUE最新发布的2024年上半年中文大模型基准测评报告,阿里巴巴的通义千问开源模型Qwen2-72B-Instruct凭借其卓越表现,不仅在国内通用能力测评中独占鳌头,更在全球范围内树立了开源模型的新标杆。

此次SuperCLUE报告深入剖析了国内外共计33个大模型的全面测评结果,Qwen2-72B以一级总分77分的优异成绩,与Claude-3.5-Sonnet并驾齐驱,紧随OpenAI的GPT-4o之后,位列第二。这一成绩不仅超越了包括百度文心一言4.0、讯飞星火V4.0、Llama-3-70B等在内的众多知名开闭源大模型,更彰显了其强大的综合实力。

image.png

在测评的三大维度——理科、文科及Hard任务上,Qwen2-72B均展现出了均衡且出色的能力。特别是在理科任务中,尽管与GPT-4o存在5分的差距,但其在计算、逻辑推理及代码测评方面的强劲表现仍令人印象深刻。文科及Hard任务上,Qwen2-72B同样不甘示弱,以接近GPT-4o的高分完成了挑战,体现了其在知识理解、语言应用及精确指令遵循等多方面的优秀能力。

image.png

尤为值得一提的是,在端侧小模型测评环节,Qwen2-7B以70亿参数的规模,力压上一代320亿参数的Qwen1.5-32B及130亿参数的Llama-3-8B-Instruct,成功登顶榜首。这一成就不仅验证了Qwen系列模型在小尺寸模型领域的极致优化能力,也为端侧小模型的广泛应用提供了强有力的支持。

image.png

截至目前,Qwen系列模型的下载量已突破惊人的2000万次大关,其应用场景广泛覆盖工业、金融、医疗、汽车等多个垂直领域,展现了强大的市场潜力和应用价值。

SuperCLUE报告高度评价了Qwen2-72B的卓越表现,认为其不仅超越了众多国内外闭源模型,更在引领全球开源生态方面发挥了重要作用。报告指出:“Qwen2-72B以其全面而均衡的能力,成为了一个非常有竞争力的通用开源大模型,尤其适用于推理、数理分析、信息处理及相对专业复杂的场景。我们强烈推荐将其应用于工业、金融、医疗、汽车等垂直专业领域。”

综上所述,阿里通义千问的Qwen2-72B-Instruct模型在SuperCLUE的最新测评中取得了令人瞩目的成绩,不仅在国内通用能力测评中拔得头筹,更在全球开源模型领域树立了新的标杆。随着其应用场景的不断拓展和深化,我们有理由相信Qwen系列模型将在未来发挥更加重要的作用,而想要体验通义千问就可以直接在AI569工具导航站搜索使用即可。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

相关文章