FlagEval

FlagEval

AI大模型的开源评测工具包

产品介绍

FlagEval 是一个面向AI大模型的开源评测工具包,同时也是一个开放的评测平台。

FlagEval 评测平台的目标是覆盖三个主要的评估对象——基础模型、预训练算法以及微调/压缩算法,以及四个关键领域下丰富的下游任务,包括自然语言处理(NLP)、计算机视觉(CV)、语音(Audio)和多模态(Multimodal)。您可以在我们的官方网站 flageval.baAI.ac.cn 上找到更多信息。我们致力于建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。

FlagEval 开源评测工具包现在包含以下子项目。

“悟道·天秤”(FlagEval)是北京智源人工智能研究院发布的悟道3.0大模型系列之一,包含“悟道·天鹰”(Aquila)语言大模型系列、天秤(FlagEval)开源大模型评测体系与开放平台,以及一系列多模态模型成果。

FlagPerf建立了评测Case的各项标准、支持容器内评测模式;新增国产芯片的评测系列,包括昆仑芯、天数智芯等;评测系列从语言大模型扩展到多种主流视觉模型。FlagEval包含多种开源多模态模型评测工具和FlagEval(天秤)大模型评测平台。FlagData包含数据分析工具、数据清洗工具、微调数据标注工具等。

mCLIPEval

mCLIPEval 是一个多语言 CLIP(Contrastive Language–Image Pre-trAIning)系列模型的评测工具包,特点如下:

支持多语言(12种)评测数据和单语言(英文/中文)评测数据;

支持多种任务评测,包括 Zero-shot classification、Zero-shot retrieval 以及 zeroshot composition等;

支持已适配的基础模型及用户自定义基础模型的评测,目前已适配的基础模型包括FlagAI 中的(AltCLIP, EVA-CLIP),OpenCLIP ,Chinese CLIP,Multilingual CLIP ,TAIyi系列等;

支持多种数据来源,如torchvision,huggingface,kaggle等;

通过多种可视化的方式展示评测结果,方便对多个模型进行比较。

FlagEval 宣传代码:


FlagEval 宣传示例图

猜你喜欢


讯飞智检
讯飞智检
校对合规审查的智能产品
Sapling AI Content Detector
Sapling AI Content Detector
免费在线AI内容检测工具
天目智能识别系统
天目智能识别系统
天目智能识别系统 AIGC识别
StudyCorgi
StudyCorgi
ChatGPT 论文写作检测器
Smodin Content Detector
Smodin Content Detector
免费 AI 内容检测器
GPT Detector
GPT Detector
检测内容文本是否由ChatGPT生成
GPTZero
GPTZero
免费AI內容检测工具
Originality AI
Originality AI
基于人工智能技术的在线学术诚信检测工具
CopyLeaks
CopyLeaks
基于AI人工智能的抄袭和内容检测工具
FlagEval
FlagEval
AI大模型的开源评测工具包
鹊凿
鹊凿
蚂蚁链旗下综合数字版权服务平台
FeaturePrint
FeaturePrint
专注于光学技术的AI鉴定模型
更多

最新上架


在问
在问
功能全面又免费的人工智能网站。
AI对话鸭
AI对话鸭
领先的AI聊天对话平台
小悟空
小悟空
超强的 AI 对话助手
酷盖AI实验室
酷盖AI实验室
跨入免费算力时代 探索你的无限想象
墨鱼Aigc
墨鱼Aigc
AI伪原创文案写作工具
Chato
Chato
基于AI轻松定制你的机器人
沐灵AI
沐灵AI
AI 聊天工具
Luca
Luca
开源大语言模型,多领域应用