OpenAI o1-mini模型发布!专注于快速解决专家级推理问题

发布时间:2024-10-11来源:小智

OpenAI o1-mini模型发布日期:2024年9月12日,产品名称:OpenAI o1-mini,目标:推进成本效益高的推理能力

发布日期:2024年9月12日

产品名称:openAI o1-mini

目标:推进成本效益高的推理能力

特点:专注于 STEM(科学、技术、工程、数学)领域的推理,尤其是在数学和编程方面

性能

基准测试:

数学:在高中数学竞赛 AIME 中,o1-mini(70.0%)与o1(74.4%)接近,显著优于 o1-preview(44.6%)

编程:在 Codeforces 竞赛网站上,o1-mini 达到1650 Elo,与o1(1673)接近,优于 o1-preview(1258)

STEM:在需要推理的学术基准测试中,如GPQA(科学)和 MATH-500 ,o1-mini 优于 GPT-4o人类偏好评估:在推理密集型领域,o1-mini 比 GPT-4o 更受偏好,但在语言密集型领域则不如 GPT-4o

速度

o1-mini 在处理问题时比 o1 快 3-5 倍

安全性

训练:使用与 o1-preview 相同的对齐和安全技术

标准有害提示安全完成率:99%

挑战性有害提示安全完成率:93.2%(比 GPT-4o 的 71.4% 高)

良好完成率:在 StrongREJECT 越狱评估中,o1-mini 得分为 0.83,比 GPT-4o 的 0.22 高

限制与未来计划

限制:o1-mini 在非 STEM 领域的知识(如日期、传记、琐事)与小型语言模型如 GPT-4o mini 相当

未来计划:将改进这些限制,并探索将模型扩展到 STEM 以外的其他模态和专业领域

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。
如本文内容影响到您的合法权益(内容、图片等),请及时联系本站小编,微信号:iDAOHANGCN,我们会及时删除处理。

推荐资讯


更多

最新上架


在问
在问
功能全面又免费的人工智能网站。
AI对话鸭
AI对话鸭
领先的AI聊天对话平台
小悟空
小悟空
超强的 AI 对话助手
酷盖AI实验室
酷盖AI实验室
跨入免费算力时代 探索你的无限想象
墨鱼Aigc
墨鱼Aigc
AI伪原创文案写作工具
Chato
Chato
基于AI轻松定制你的机器人
沐灵AI
沐灵AI
AI 聊天工具
Luca
Luca
开源大语言模型,多领域应用