ChatGPT无法取代人类程序员!IEEE 35页论文揭示其困难编码正确率仅为0.66%

ChatGPT无法取代人类程序员!IEEE 35页论文揭示其困难编码正确率仅为0.66%

近日,IEEE发表了一篇长达35页的论文,系统评估了ChatGPT在代码生成任务中的表现,揭示了其在生成困难编码时的局限性。该论文通过LeetCode题库这一程序员钟爱的测试平台,深入分析了ChatGPT生成代码的能力。

论文结果显示,ChatGPT在生成可用代码方面的能力差异显著,其成功率从最低的0.66%到最高的89%不等,这一差异主要取决于任务的难度、编程语言等多种因素。具体而言,研究人员测试了GPT-3.5在五种编程语言(C、C++、Java、JavaScript和Python)中,解决LeetCode测试平台上728个编码问题的能力,并评估了其应对18个CWE(常见缺陷枚举)场景的能力。

在解决LeetCode上的编码问题时,ChatGPT在2021年之前的问题上表现相对较好,能够为简单、中等和困难的问题生成可运行代码,成功率分别约为89%、71%和40%。然而,当面对2021年之后的算法问题时,ChatGPT的生成能力明显受到影响。即便是简单级别的问题,其正确率也从89%下降到了52%,而在生成困难问题的可运行代码方面,其能力更是急剧下降到0.66%。

这一结果揭示了ChatGPT在代码生成方面的显著局限性,尤其是在处理较新或更复杂的算法问题时。研究人员指出,ChatGPT在2021年之前的问题上表现更好的一个合理假设是,这些问题在其训练数据集中频繁出现,从而使得ChatGPT能够更容易地生成正确的代码。然而,对于新出现的问题,ChatGPT则显得力不从心。

此外,论文还详细描述了评估ChatGPT代码生成能力的整体流程,包括为LeetCode问题或CWE场景构造提示、将ChatGPT生成的代码提交给LeetCode平台检验正确性,以及在需要时通过反馈调整提示以再次生成代码等步骤。通过这些流程,研究人员能够全面评估ChatGPT在不同情况下的代码生成能力。

综上所述,尽管ChatGPT在某些情况下能够生成可运行的代码,但其在处理困难编码时的正确率极低,仅为0.66%。这一结果表明,ChatGPT目前还无法取代人类程序员在代码编写、程序设计及解决复杂问题等方面的独特技能。相反,ChatGPT更适合作为程序员的辅助工具,帮助他们更高效地完成工作。未来,随着技术的不断进步和完善,ChatGPT在代码生成方面的能力有望得到进一步提升,但其完全取代人类程序员的可能性仍然十分有限。

暂无评论

暂无评论...