
机器之心报道大模型正在「替代人类程序员」的道路上快速前进。今年3月,人工智能软件工程师Devin引爆了AI社区,该产品由OpenAI的GPT-4基础大型语言模型(LLM)提供支持,可以在收到自然语言文......
机器之心报道
大模型正在「替代人类程序员」的道路上快速前进。
今年3月,人工智能软件工程师Devin引爆了AI社区,该产品由OpenAI的GPT-4基础大型语言模型(LLM)提供支持,可以在收到自然语言文本指令后自主编写和编辑代码。
但在生成式AI领域,快速发展是主旋律,现在技术又迭代了。
本周,一家YCombinator支持,名为Cosine的创业公司宣布推出自己的全新自主AI工程师Genie。该公司表示,Genie的表现轻松超越了Devin,在第三方基准测试SWE-Bench上的得分为30%,而Devin的得分仅为13.8%。
新工具甚至超过了亚马逊的Q和Factory的CodeDroid的19%,现在是全球性能最好的AI程序员。
Genie在SWE-Bench基准上的表现,以及与其他AI代码模型的比较。
「这个模型远不止是一个基准跑分而已:它是以像人类SWE(软件工程师)一样思考和行动为目标从头开始训练的,」Cosine的联合创始人兼首席执行官AlistairPullen表示。
会修Bug,能写代码的Genie
作为一种先进的AI软件工程模型,Genie可以按照人类工程师的指示自主处理各种编码任务,包括bug修复、功能构建、代码重构、代码测试等。
Genie可以完全自主运行,也可以与用户协作完成任务。
它支持多种编程语言,在技术报告中显示,其中包括JavaScript、Python、TypeScript、TSX、Java、C#、C++、C、Rust、Scala、Kotlin、Swift、Golang、PHP、Ruby。
Cosine声称Genie可以模拟人类工程师的认知过程。「让它观察人类工程师是如何工作的,并模仿这个过程。」AlistairPullen表示。
一直以来,安全问题是大家比较关心的,Genie生成的代码存储在用户的GitHub仓库中,因而Cosine不会保留代码副本,从而避免了随之而来的安全风险。
此外,Cosine的软件平台已经集成了Slack和系统通知,它就像一位AI同事,提醒用户状态或标记issues。
AlistairPullen演示了如何使用Genie来解决实际问题。目标是GitHub上的一个issue,我们只需要直接往里丢链接,AI会自动分析问题,自动开始思考解决这个问题需要用到哪些文件,一直到满足要求为止。
然后,Genie会开始尝试将问题分解成很多解决步骤,随后生成代码。
接着就是跑代码了,如果生成的代码有问题,它就自动寻找出问题的地方进行分析、修改,然后再尝试运行。
最后输出结果:两个文件、17次测试,仅用时84秒。
这不知道比人类程序员要快上多少倍了。
长上下文由OpenAI模型提供支持
与许多依赖基础模型并辅以少量工具的AI模型不同,Genie是通过专有流程开发的。
就模型而言,Genie基于(目前)非通用的GPT-4o变体构建而成,OpenAI允许Cosine将其作为实验访问计划的一部分进行训练。
通过技术报告我们得知,当研究者开始构建Genie之初,他们只能在16-32k范围内微调相对较短的上下文窗口模型。
为了解决这一问题,团队人员对这些模型进行了大量的早期探索,并在超过1亿个token的大量数据集上对它们进行训练,虽然发现架构具有一定优势,但还是面临模型在特定时间内可以处理的信息量的限制。
在尝试了各种压缩/分块方法后,团队认为唯一的解决方案是使用更大的上下文模型,尽管当时没有可供使用的模型。
幸运的是,不久之后,能够确保训练长上下文的OpenAI模型出现了。
Cosine在其博客文章中表示,他们花了将近一年的时间来整理数据集,在最近的训练运行中,Genie接受了数十亿个token数据的训练,选择的数据包含了用户目前最关心的编程语言。以下是训练Genie的过程中不同编程语言数据所占的比例:
以下是Bug修复、重构等不同功能的数据占比:
在价格方面,据Pullen透漏,Genie最初定价将分为两个层级:
入门级选项,定价大约在20美元左右。这个层级会有一些功能和使用限制,适合个人和小型团队使用;
企业级选项,提供扩展功能,使用几乎不受限制,好比拥有了一个精通代码的AI同事。但这个层级的定价将更高。
Genie的推出对软件开发团队具有深远的影响,特别是那些希望提高生产力并减少花在日常任务上的时间的团队。凭借其自主处理复杂编程挑战的能力,Genie可能会改变工程资源的分配方式,使团队能够专注于更具战略性的计划。
Pullen表示,对于他来说,工程资源不再成为限制是一个巨大的推动力,特别是在创办公司以来。他认为,一个能够快速进入未知代码库并解决未见过的问题的AI同事,其价值显而易见,并且对世界有着巨大的影响。
未来,该公司打算扩大其模型组合,包括用于简单任务的小模型和能够处理更复杂挑战的大模型。此外,Cosine还计划将其工作拓展到开源社区。
现在Genie已向部分用户推出,但更广泛的访问权限还未完全开放。
申请地址:
创始团队:只有五人
提出Genie的创业公司Cosine由Pullen、SamStenner和YangLi于2022年创立,其使命是通过应用人类推理的方式来解决复杂问题,从而突破AI的界限。显然,他们的努力是从软件工程开始。
其中,YangLi是一名华人,他硕士毕业于牛津大学,在2021年曾入选过福布斯30Under30欧洲区名单。
Cosine已经从Uphonest和SOMACapital筹集了250万美元的种子资金,Lakestar、Focal等公司也参与其中。
团队规模虽小,但Cosine已经在AI领域取得了重大进展,而Genie只是一个开始。
「我们坚信能够为任何工作和行业构建起人类级别的推理能力,」Pullen在公告文章中表示。「软件工程只是最直观的起点,我们很快将会展示出我们正在研究的其他一切。」
参考内容: