Devin

Devin

全球首个全自主 AI 软件工程师

产品介绍

Devin 提供AI软件工程解决方案,用于即时编程支持。

Devin 直接输入编程任务即可优化开发流程,提升效率和便捷性。

Devin 是由AI初创公司 Cognition 开发的全球首个全自主 AI 软件工程师,具备自主学习新技术、端到端构建和部署应用、自主查找和修复代码 Bug、训练和微调 AI 模型的能力。

在 SWE-bench 基准测试中,Devin 展现出超越其他 AI 模型的性能,正确解决了实际编程问题。

Devin 具备以下能力:

长期推理与规划:能够规划和执行需要数千个决策的复杂工程任务,记住每一步的相关上下文,随时间学习,并修复错误。

使用开发者工具:配备了包括 shell、代码编辑器和浏览器在内的常见开发者工具,在一个沙盒化计算环境中工作。

主动协作:能够实时报告进度,接受反馈,并根据需要与用户共同进行设计选择。

学习新技术:通过阅读博客文章等资料,学习如何使用不熟悉的技术。

端到端应用构建和部署:能够从头开始构建并部署应用程序,如模拟生命游戏的交互式网站,并将其部署到 Netlify。

自主查找和修复代码库中的 Bug:帮助维护和调试开源竞赛编程书籍。

训练和微调 AI 模型:设置大型语言模型的微调,只需提供一个 GitHub 研究仓库的链接。

处理开源仓库的问题:只需提供一个 GitHub 问题的链接,Devin 就能完成所有设置和上下文收集工作。

对成熟生产仓库做出贡献:作为 SWE-bench 基准测试的一部分,Devin 解决了 sympy Python 代数系统中的对数计算错误。

执行实际工作:在 Upwork 上完成实际的编程工作,编写和调试运行计算机视觉模型的代码,并在最后编译报告。

Devin 评测结果:

Devin 在 SWE-bench 基准测试中的表现非常出色,这是一个挑战性的基准测试,要求参与者解决开源项目(如 Django 和 scikit-learn)中的实际 GitHub 问题。

Devin 正确解决了 13.86% 的问题,这一比例远远超过了之前的技术水平,后者只能解决 1.96% 的问题。

Devin 即使在只给定要编辑的确切文件的情况下,以往的最佳模型也只能解决 4.80% 的问题。

Devin 在评估时是独立完成的,而其他模型则得到了辅助(即模型被告知需要编辑哪些文件),这一结果显示了 Devin 在理解和解决实际编程问题方面的巨大优势。

Devin 宣传代码:


Devin 宣传示例图

猜你喜欢


智谱AI
智谱AI
大模型MaaS开放平台
天工智码
天工智码
AI智能编程助手 轻松生成各种代码
代码小浣熊
代码小浣熊
编程AI 智能助手
WPTurbo
WPTurbo
智能WordPress开发工具平台
Tiktokenizer
Tiktokenizer
轻松开发尖端的 AI 应用程序
Kea ML
Kea ML
让 AI 开发变得简单
Arize AI
Arize AI
人工智能可观测性和评估平台
PyAI
PyAI
Python开发者的人工智能助手
GPTGuard
GPTGuard
为AI和数据分析提供安全环境
Lightning AI
Lightning AI
人工智能开发平台
Langtail
Langtail
AI应用开发人员设计工具
Substrate
Substrate
强大的 AI 开发平台