FlagEval (天秤)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对广泛的语言基础模型、跨模态基础模型实现了评测。后续将全面覆盖基础模型、预训练算法、微调/压缩算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。

image.png


  • 建立科学、公正、开放的评测基准、方法、工具集:FlagEval旨在通过提供标准化的评测框架和工具,协助研究人员全方位评估基础模型及训练算法的性能。

  • 覆盖广泛的评测任务和数据集:FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。这些评测任务和数据集覆盖了多种自然语言处理任务,如语言理解、语言生成、文本分类等。

  • 升级评测框架:在评测过程中,FlagEval不断进行框架升级,以细化评测指标并提高评测的准确性。例如,在最近的评测中,FlagEval细化了“安全与价值观”与“推理能力”两个评测维度,以更好地评估模型的性能。

  • 主观评测数据集更新:为了保证评测结果的一致性,FlagEval采用了“多人‘背靠背’评测+第三方仲裁”的方式。基于最新的CLCC v2.0主观评测数据集,FlagEval重点评测了近期热门的7个开源对话模型。

  • 覆盖多种评测对象和场景:FlagEval不仅关注语言大模型,还推出了多语言文图大模型评测及文图生成评测等工具。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。

  • 探索主观评测的辅助方法:FlagEval还探索利用AI方法实现对主观评测的辅助,以大幅提升评测的效率和客观性。

总的来说,FlagEval是一个全面、开放、科学的大模型评测体系及开放平台,旨在通过提供标准化的评测框架和工具,协助研究人员全方位评估基础模型及训练算法的性能,推动人工智能技术的发展。

@版权声明:部分内容从网络收集整理,如有侵权,请联系删除!

类似网站