编程新助手还是错误制造者?最新研究发现ChatGPT编程答案52%存误
在过去的数载中,编程界的风向标显著转向了如OpenAI的ChatGPT等智能聊天助手,这些技术革新工具在编程领域崭露头角,为众多程序员提供了便利。然而,这种趋势对像Stack Overflow这样的编程问答平台产生了深远的影响,去年该平台不得不面临大幅度裁员,员工数量减少了近三分之一。
然而,近日普度大学研究团队在计算机与人类交互领域的最新研究成果,却为这股热潮泼了一盆冷水。据该团队的报告显示,ChatGPT在生成编程问题的答案时,竟然有高达52%的错误率。
对于以精确和准确著称的编程领域而言,这一数字无疑令人震惊。同时,这也揭示了ChatGPT这类AI平台在回答其他领域问题,如文学创作或教育指导时,同样存在凭空制造错误答案的风险。
为了深入研究这一现象,普度大学的研究人员仔细回顾了Stack Overflow上的517个问题,并对ChatGPT给出的答案进行了详细分析。他们发现,除了高达52%的错误率外,ChatGPT的答案还有77%比人类答案更冗长,且78%的答案与人类答案存在不同程度的差异。
进一步的语言分析显示,ChatGPT给出的答案通常更加正式和分析性,同时展现出较少的负面情绪。这种单调而愉快的语气,很可能是AI生成文本时的一种普遍特征。然而,更令人担忧的是,许多程序员似乎更倾向于接受ChatGPT的答案。普度大学的研究团队对12名程序员进行了调查,结果显示他们中有35%的人更倾向于选择ChatGPT的答案,甚至在39%的情况下,他们未能察觉出AI生成答案中的错误。
为什么会出现这种情况呢?研究人员认为,这可能是因为ChatGPT的语言更加礼貌和文雅。他们写道:“后续的半结构化访谈揭示出,礼貌的语言、教科书般的回答方式以及答案的全面性是ChatGPT答案更具说服力的主要原因之一,这导致参与者降低了警惕,忽略了其中的错误信息。”
尽管ChatGPT在编程领域的应用仍存在重大缺陷,但这一发现对于那些因Stack Overflow裁员而失业的程序员,或是需要纠正AI生成代码错误的同行来说,无疑是一种苦涩的安慰。这也提醒我们,在享受AI带来的便利时,仍需保持警惕,审慎对待其生成的答案。