产品介绍
FlagEval 是一个面向AI大模型的开源评测工具包,同时也是一个开放的评测平台。
FlagEval 评测平台的目标是覆盖三个主要的评估对象——基础模型、预训练算法以及微调/压缩算法,以及四个关键领域下丰富的下游任务,包括自然语言处理(NLP)、计算机视觉(CV)、语音(Audio)和多模态(Multimodal)。您可以在我们的官方网站 flageval.baAI.ac.cn 上找到更多信息。我们致力于建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。
FlagEval 开源评测工具包现在包含以下子项目。
“悟道·天秤”(FlagEval)是北京智源人工智能研究院发布的悟道3.0大模型系列之一,包含“悟道·天鹰”(Aquila)语言大模型系列、天秤(FlagEval)开源大模型评测体系与开放平台,以及一系列多模态模型成果。
FlagPerf建立了评测Case的各项标准、支持容器内评测模式;新增国产芯片的评测系列,包括昆仑芯、天数智芯等;评测系列从语言大模型扩展到多种主流视觉模型。FlagEval包含多种开源多模态模型评测工具和FlagEval(天秤)大模型评测平台。FlagData包含数据分析工具、数据清洗工具、微调数据标注工具等。
mCLIPEval
mCLIPEval 是一个多语言 CLIP(Contrastive Language–Image Pre-trAIning)系列模型的评测工具包,特点如下:
支持多语言(12种)评测数据和单语言(英文/中文)评测数据;
支持多种任务评测,包括 Zero-shot classification、Zero-shot retrieval 以及 zeroshot composition等;
支持已适配的基础模型及用户自定义基础模型的评测,目前已适配的基础模型包括FlagAI 中的(AltCLIP, EVA-CLIP),OpenCLIP ,Chinese CLIP,Multilingual CLIP ,TAIyi系列等;
支持多种数据来源,如torchvision,huggingface,kaggle等;
通过多种可视化的方式展示评测结果,方便对多个模型进行比较。