随着人工智能(AI)的发展达到巅峰,研究者们发出警告,AI行业可能会面临训练数据短缺的问题。高质量的训练数据是强大AI系统的基石,但目前的情况表明,这种数据可能会在不久的将来变得稀缺,这可能会对AI模型的进步产生阻碍。
为了训练出强大、精确且高质量的AI算法,我们需要大量的数据作为燃料。例如,ChatGPT是基于570千兆字节的文本数据进行训练的,而stable diffusion算法(驱动了许多AI图像生成应用,如DALL-E、Lensa和Midjourney)则是基于包含58亿个图像-文本对的LIAON-5B数据集进行训练的。如果训练数据不足,那么产生的AI模型可能会产生不准确或者质量不高的输出。因此,训练数据的质量显得尤为重要。
然而,低质量的数据虽然容易获取,例如社交媒体帖子或模糊的照片,但它们不足以训练出高性能的AI模型。当前的趋势显示,用于训练AI的在线数据库的增长速度远远低于AI所需的数据集的增长速度。一组研究人员在去年发表的论文中预测,如果当前的AI训练趋势继续下去,高质量文本数据将在2026年之前耗尽,而低质量的语言数据将在2030年至2050年之间耗尽,低质量的图像数据也将在2030年至2060年之间出现短缺。
尽管AI有望在未来几年内更有效地利用已有数据来训练高性能AI系统,从而降低对数据的需求,但数据的短缺问题仍然需要得到解决。那么,如何解决这个问题呢?
首先,AI开发人员可以改进他们的算法,使其更有效地利用已有的数据。未来几年内,他们有望能够使用更少的数据和可能更少的计算能力来训练高性能AI系统。这不仅能降低对数据的需求,还能降低AI训练过程中的碳足迹。
另一种选择是使用AI来生成合成数据以训练系统。换句话说,开发人员可以简单地生成他们需要的数据,以适应其特定的AI模型。这种方法已经在一些项目中得到应用,预计在未来会变得更加普遍。
此外,开发人员还可以寻找在线空间以外的内容,如大型出版商和离线存储库中的内容。想象一下在互联网之前出版的数百万篇文本,如果以数字形式提供,它们可能会为AI项目提供新的数据来源。例如,新闻集团(News Corp)是全球最大的新闻内容所有者之一,最近表示正在与AI开发人员洽谈内容交易。这些交易将迫使AI公司为训练数据付费,而他们迄今大多免费从互联网上获取数据。内容创作者已经抗议允许未经授权使用其内容来训练AI模型,一些公司如微软、OpenAI和Stability AI已被起诉。获得对其工作的报酬可能有助于恢复创意工作者和AI公司之间存在的一些权力失衡。
综上所述,虽然AI训练数据的短缺问题可能会在不久的将来出现,但是通过改进算法、使用合成数据以及寻找新的数据来源等策略,我们可以有效地解决这个问题。当然,这需要我们不断地进行尝试和探索。