Phind V7,一款超越GPT-4的生成式AI代码开发平台
Phind V7,一款由Perplexity AI开发的生成式AI代码开发平台,近日在官网发布了最新版本。据Perplexity AI称,Phind V7在性能方面超越了GPT-4,运行效率提高了5倍,并且支持中文和16K超长上下文。
Phind V7是基于Phind的开源代码模型CodeLlama-34B V2,以及700亿个高质量代码和推理问题进行了额外精调。CodeLlama-34B V2在huggingface(笑脸)的代码大模型排行榜中位居第一名,这也是首个击败GPT-4的开源代码项目。
Phind V7的专业性不仅体现在其技术性能上,更体现在其在实际应用中的表现。Phind将多个版本部署到自家服务平台后,收集到了大量反馈信息,发现其模型在大多数真实问题上的表现与GPT-4相当甚至更好。许多在其Discord社区的用户已经开始只使用Phind的产品,尽管他们也订阅了GPT-4。
除了性能超强之外,Phind V7的运行速度也是一大技术亮点。通过在NVIDIA的新型TensorRT-LLM库上运行模型,Phind成功实现了比GPT-4快5倍的运行速度,达到每秒处理100tokens。另一个优点是Phind支持多达16k tokens的上下文。目前,Phind允许用户输入最多12k tokens,剩余的4k tokens用于网络结果。
Phind V7不仅提供了全面的编程支持,包括Python、C/C++、TypeScript、Java等主流编程语言,而且使用界面也简单直观,直接输入你的编程问题就能返回代码。Phind返回的注释也都是中文,如果点击三角按钮可以直接在replit中运行非常方便。此外,Phind在对文本回答时,会标注引用的原出处,用户点击网站可以直接跳转。
CodeLlama-34B V2代码模型使用了80,000个高质量编程问题和解决方案的专有数据集进行微调。这个数据集的技术特点在于,采用的是指令-答案对的格式,而非常见的代码补全示例,使得在结构上与HumanEval有明显的区别。此外,Phind还将 OpenAI 的去污方法应用在数据集中,以确保结果准确有效并且没有发现受污染的示例。在训练过程中,Phind使用了DeepSpeed ZeRO3和Flash Attention2技术,并使用了32个A100-80GB的GPU,仅在三小时内就完成了序列长度为4096的模型训练。
对于经常编程的小伙伴们,Phind V7无疑是一款值得一试的AI工具。它不仅可以快速生成、审核、注释、改错代码,而且准确度高、运行速度快、上下文能力强,是降本增效的利器。同时,由于其支持中文和超长上下文,对于中文编程环境下的用户也特别友好。