OpenAI o1-mini模型发布!专注于快速解决专家级推理问题

发布时间:2024-10-11来源:小智

OpenAI o1-mini模型发布日期:2024年9月12日,产品名称:OpenAI o1-mini,目标:推进成本效益高的推理能力

发布日期:2024年9月12日

产品名称:openAI o1-mini

目标:推进成本效益高的推理能力

特点:专注于 STEM(科学、技术、工程、数学)领域的推理,尤其是在数学和编程方面

性能

基准测试:

数学:在高中数学竞赛 AIME 中,o1-mini(70.0%)与o1(74.4%)接近,显著优于 o1-preview(44.6%)

编程:在 Codeforces 竞赛网站上,o1-mini 达到1650 Elo,与o1(1673)接近,优于 o1-preview(1258)

STEM:在需要推理的学术基准测试中,如GPQA(科学)和 MATH-500 ,o1-mini 优于 GPT-4o人类偏好评估:在推理密集型领域,o1-mini 比 GPT-4o 更受偏好,但在语言密集型领域则不如 GPT-4o

速度

o1-mini 在处理问题时比 o1 快 3-5 倍

安全性

训练:使用与 o1-preview 相同的对齐和安全技术

标准有害提示安全完成率:99%

挑战性有害提示安全完成率:93.2%(比 GPT-4o 的 71.4% 高)

良好完成率:在 StrongREJECT 越狱评估中,o1-mini 得分为 0.83,比 GPT-4o 的 0.22 高

限制与未来计划

限制:o1-mini 在非 STEM 领域的知识(如日期、传记、琐事)与小型语言模型如 GPT-4o mini 相当

未来计划:将改进这些限制,并探索将模型扩展到 STEM 以外的其他模态和专业领域

免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。
如本文内容影响到您的合法权益(内容、图片等),请及时联系本站小编,微信号:iDAOHANGCN,我们会及时删除处理。

推荐资讯


亚马逊云科技宣布提供完全托管的DeepSeek-R1模型

亚马逊云科技宣布提供完全托管的DeepSeek-R1模型

亚马逊云科技今日宣布,DeepSeek-R1现已作为完全托管的无服务器大语言模型(LLM)在Amazon Bedrock上正式可用, 这也是首个将该模型作为完全托管服务推出的云服务提供商。

2025-03-11
借力DeepSeek 银行业智能化变革提速!

借力DeepSeek 银行业智能化变革提速!

记者日前从工商银行了解到,该行在同业率先完成DeepSeek最新开源大模型的私有化部署,并将其接入行内“工银智涌”大模型矩阵体系,推动金融业务场景的智能化升级。

2025-03-11
00后主播借DeepSeek创销售神话,单日狂揽3.3亿!

00后主播借DeepSeek创销售神话,单日狂揽3.3亿!

一群初出茅庐的00后主播,凭借一款名为DeepSeek的AI工具,在短短一天内创造了3.3亿元的惊人销售额,这一数字迅速刷新了直播电商领域的单日销售纪录。

2025-03-11
被质疑“饥饿营销+套壳炒作”,Manus合伙人张涛回应

被质疑“饥饿营销+套壳炒作”,Manus合伙人张涛回应

DeepSeek之后,又一款国产AI成功出圈。 3月6日凌晨,中国AI团队Monica宣布推出全球首款通用型AI智能体产品Manus。据悉,Manus在GAIA基准测试中取得了SOTA(State-of-the-Art)的成绩,……

2025-03-08
华为发布三款DeepSeek一体机,满足不同AI应用需求

华为发布三款DeepSeek一体机,满足不同AI应用需求

华为为了助力AI行业化落地,针对DeepSeek本地部署推出了FusionCube A3000训推超融合一体机。这款一体机通过可视化编排平台与标准化API接口,实现了模型训练的高效性,从通用模型到行业专……

2025-03-08