Cosine发布AI程序员Genie,以30.08%高分领跑SWE-Bench,超越Cognition Devin

Cosine发布AI程序员Genie,以30.08%高分领跑SWE-Bench,超越Cognition Devin

在AI编程领域再次迎来重大突破,Cosine公司今日正式发布了其AI程序员产品——Genie,该产品一经问世便在权威测试平台SWE-Bench上取得了令人瞩目的成绩,以30.08%的评分断层领先,不仅远超同类竞品Cognition的Devin(13.8%),也超越了结合了Swe-agent与GPT-4的强大组合(12.47%),成功问鼎全球最强AI程序员的宝座。

Genie的问世并非一蹴而就,其背后的故事可以追溯到2022年末。早在去年12月13日,Cosine的联合创始人Alistair Pullen便在英国伦敦大学的一场路演中首次展示了Genie的雏形,表达了其打造一款能够端到端自动执行编码、优化,且无需人工干预的AI程序员的愿景。经过一年多紧锣密鼓的研发与迭代,Genie终于从概念走向现实,并顺利进入测试阶段,同时获得了250万美元种子轮融资支持。

Genie之所以能在众多AI编程工具中脱颖而出,关键在于其独特的训练数据与方法。不同于传统的大模型微调策略,Genie的训练基于一个特殊的数据集,该数据集深度挖掘并模拟了人类程序员的推理过程,包括信息的完整传递、知识的逐步累积,以及基于实际项目经验的决策制定等,使得Genie能够在处理复杂编程任务时展现出与人类工程师相似的逻辑思维与问题解决能力。

此外,Genie还引入了一套创新的“自我改进机制”。在初始阶段,Genie通过大量高质量数据训练至“理想”状态,但为克服对错误识别与改进的局限性,开发者们随后利用Genie自身生成的合成数据,进一步丰富训练内容,尤其是增加错误与复杂案例的暴露。当Genie提出错误解决方案时,系统会及时介入,利用数据集中的正确状态引导其进行自我修正,这一过程如同家长耐心教导孩子走路,通过不断试错与纠正,Genie在复杂编码领域的适应性与准确性得到了显著提升。

功能方面,Genie全面覆盖了功能开发、BUG修复、代码重构、小改动与杂项处理、代码测试、文档编写及更新等编程全生命周期的各个环节,并支持包括JavaScript、Python、Java等在内的数十种主流编程语言,充分满足了多场景下的编程需求。

业界对于Genie的发布反响热烈,知名开发者Mckay已公开表达了对该产品的浓厚兴趣,并计划将其与已有的Devin进行对比评测。而SWE-Bench上的高分表现,更是让众多开发者翘首以盼,纷纷申请参与测试,希望能亲身体验这款被寄予厚望的AI编程神器。

Cosine公司现已开放Genie的测试申请,预计在未来2-3周内,首批测试权限将陆续发放。同时,Alistair透露,在正式发布时,Genie还将带来一系列令人期待的小惊喜功能,敬请期待。

暂无评论

暂无评论...