吃你饭砸你碗！OpenAI 采集百万小时油管视频训练 GPT4惹争议

AI快讯 2024-04-07

在人工智能飞速发展的当下，高质量训练数据的获取已成为各大AI公司面临的共同难题。本周早些时候，《华尔街日报》便报道指出，AI行业在收集用于模型训练的数据方面正面临严峻挑战。而《纽约时报》进一步揭示了这一挑战下，AI公司如何尝试突破困境，以及其中涉及的版权法模糊地带。

在众多AI公司中，OpenAI的困境与尝试尤为引人关注。为了训练其最先进的GPT-4大型语言模型，OpenAI不惜冒险，利用其开发的Whisper音频转录模型，转录了超过一百万小时的YouTube视频内容。这一做法不仅解决了数据短缺的问题，也引发了关于版权和合理使用的广泛讨论。

据悉，OpenAI早在2021年就已面临数据供应枯竭的困境。在经过一番讨论后，公司决定尝试转录YouTube视频、播客和有声读物等资源。此外，OpenAI还使用了包括Github上的计算机代码、国际象棋走棋数据库以及Quizlet上的作业内容等多种数据资源。然而，这些做法在法律层面存在不小的争议。尽管OpenAI坚称其行为属于合理使用，但外界对此仍持怀疑态度。

YouTube方面对此表示高度关注，指出其服务条款明确禁止未经授权获取YouTube内容。谷歌作为YouTube的母公司，对OpenAI的做法表示担忧，并强调其平台内容的使用必须遵守相关规定。同时，Google和Meta等公司在面临类似的数据获取限制时，也不得不采取一些具有争议性的做法，以跟上OpenAI的步伐。

值得一提的是，YouTube首席执行官尼尔·莫汉在最近的一次采访中明确表示，虽然目前没有直接证据表明OpenAI使用了YouTube视频来训练其Sora模型，但这种行为如果发生，将违反YouTube的服务条款。莫汉强调，创作者在上传内容到YouTube时，有明确的期望，包括不希望其内容被未经授权地下载和使用。

面对外界的质疑和批评，OpenAI方面并未给出明确的回应。公司首席技术官Mira Murati在接受采访时，对于Sora模型的训练数据来源语焉不详，无法明确说明是否包括YouTube视频。这种模糊的态度进一步加剧了外界对于其数据收集方式合法性的疑虑。

AI领域正面临着前所未有的挑战和机遇。在数据短缺的背景下，如何合理、合法地获取和使用数据，成为摆在各大AI公司面前的一道难题。未来，这些公司需要在遵守法律法规的前提下，积极探索新的数据获取方式，以确保其业务的可持续发展。同时，政府和社会各界也应加强对AI领域数据使用的监管和规范，以促进整个行业的健康发展。