编程新助手还是错误制造者？最新研究发现ChatGPT编程答案52%存误

AI快讯 2024-05-24

在过去的数载中，编程界的风向标显著转向了如OpenAI的ChatGPT等智能聊天助手，这些技术革新工具在编程领域崭露头角，为众多程序员提供了便利。然而，这种趋势对像Stack Overflow这样的编程问答平台产生了深远的影响，去年该平台不得不面临大幅度裁员，员工数量减少了近三分之一。

然而，近日普度大学研究团队在计算机与人类交互领域的最新研究成果，却为这股热潮泼了一盆冷水。据该团队的报告显示，ChatGPT在生成编程问题的答案时，竟然有高达52%的错误率。

对于以精确和准确著称的编程领域而言，这一数字无疑令人震惊。同时，这也揭示了ChatGPT这类AI平台在回答其他领域问题，如文学创作或教育指导时，同样存在凭空制造错误答案的风险。

为了深入研究这一现象，普度大学的研究人员仔细回顾了Stack Overflow上的517个问题，并对ChatGPT给出的答案进行了详细分析。他们发现，除了高达52%的错误率外，ChatGPT的答案还有77%比人类答案更冗长，且78%的答案与人类答案存在不同程度的差异。

进一步的语言分析显示，ChatGPT给出的答案通常更加正式和分析性，同时展现出较少的负面情绪。这种单调而愉快的语气，很可能是AI生成文本时的一种普遍特征。然而，更令人担忧的是，许多程序员似乎更倾向于接受ChatGPT的答案。普度大学的研究团队对12名程序员进行了调查，结果显示他们中有35%的人更倾向于选择ChatGPT的答案，甚至在39%的情况下，他们未能察觉出AI生成答案中的错误。

为什么会出现这种情况呢？研究人员认为，这可能是因为ChatGPT的语言更加礼貌和文雅。他们写道：“后续的半结构化访谈揭示出，礼貌的语言、教科书般的回答方式以及答案的全面性是ChatGPT答案更具说服力的主要原因之一，这导致参与者降低了警惕，忽略了其中的错误信息。”

尽管ChatGPT在编程领域的应用仍存在重大缺陷，但这一发现对于那些因Stack Overflow裁员而失业的程序员，或是需要纠正AI生成代码错误的同行来说，无疑是一种苦涩的安慰。这也提醒我们，在享受AI带来的便利时，仍需保持警惕，审慎对待其生成的答案。