发布日期:2024年9月12日
产品名称:openAI o1-mini
目标:推进成本效益高的推理能力
特点:专注于 STEM(科学、技术、工程、数学)领域的推理,尤其是在数学和编程方面
性能
基准测试:
数学:在高中数学竞赛 AIME 中,o1-mini(70.0%)与o1(74.4%)接近,显著优于 o1-preview(44.6%)
编程:在 Codeforces 竞赛网站上,o1-mini 达到1650 Elo,与o1(1673)接近,优于 o1-preview(1258)
STEM:在需要推理的学术基准测试中,如GPQA(科学)和 MATH-500 ,o1-mini 优于 GPT-4o人类偏好评估:在推理密集型领域,o1-mini 比 GPT-4o 更受偏好,但在语言密集型领域则不如 GPT-4o
速度
o1-mini 在处理问题时比 o1 快 3-5 倍
安全性
训练:使用与 o1-preview 相同的对齐和安全技术
标准有害提示安全完成率:99%
挑战性有害提示安全完成率:93.2%(比 GPT-4o 的 71.4% 高)
良好完成率:在 StrongREJECT 越狱评估中,o1-mini 得分为 0.83,比 GPT-4o 的 0.22 高
限制与未来计划
限制:o1-mini 在非 STEM 领域的知识(如日期、传记、琐事)与小型语言模型如 GPT-4o mini 相当
未来计划:将改进这些限制,并探索将模型扩展到 STEM 以外的其他模态和专业领域