ChatGPT无法取代人类程序员！IEEE 35页论文揭示其困难编码正确率仅为0.66%

近日，IEEE发表了一篇长达35页的论文，系统评估了ChatGPT在代码生成任务中的表现，揭示了其在生成困难编码时的局限性。该论文通过LeetCode题库这一程序员钟爱的测试平台，深入分析了ChatGPT生成代码的能力。

论文结果显示，ChatGPT在生成可用代码方面的能力差异显著，其成功率从最低的0.66%到最高的89%不等，这一差异主要取决于任务的难度、编程语言等多种因素。具体而言，研究人员测试了GPT-3.5在五种编程语言（C、C++、Java、JavaScript和Python）中，解决LeetCode测试平台上728个编码问题的能力，并评估了其应对18个CWE（常见缺陷枚举）场景的能力。

在解决LeetCode上的编码问题时，ChatGPT在2021年之前的问题上表现相对较好，能够为简单、中等和困难的问题生成可运行代码，成功率分别约为89%、71%和40%。然而，当面对2021年之后的算法问题时，ChatGPT的生成能力明显受到影响。即便是简单级别的问题，其正确率也从89%下降到了52%，而在生成困难问题的可运行代码方面，其能力更是急剧下降到0.66%。

这一结果揭示了ChatGPT在代码生成方面的显著局限性，尤其是在处理较新或更复杂的算法问题时。研究人员指出，ChatGPT在2021年之前的问题上表现更好的一个合理假设是，这些问题在其训练数据集中频繁出现，从而使得ChatGPT能够更容易地生成正确的代码。然而，对于新出现的问题，ChatGPT则显得力不从心。

此外，论文还详细描述了评估ChatGPT代码生成能力的整体流程，包括为LeetCode问题或CWE场景构造提示、将ChatGPT生成的代码提交给LeetCode平台检验正确性，以及在需要时通过反馈调整提示以再次生成代码等步骤。通过这些流程，研究人员能够全面评估ChatGPT在不同情况下的代码生成能力。

综上所述，尽管ChatGPT在某些情况下能够生成可运行的代码，但其在处理困难编码时的正确率极低，仅为0.66%。这一结果表明，ChatGPT目前还无法取代人类程序员在代码编写、程序设计及解决复杂问题等方面的独特技能。相反，ChatGPT更适合作为程序员的辅助工具，帮助他们更高效地完成工作。未来，随着技术的不断进步和完善，ChatGPT在代码生成方面的能力有望得到进一步提升，但其完全取代人类程序员的可能性仍然十分有限。