为了推动AI大模型的持续进步和训练,字节跳动等互联网巨头正积极采取行动,亲自参与并招募“AI录音员”,以单次300元不等的价格收集高质量语料库数据。这一举措不仅彰显了数据在AI发展中的核心地位,也揭示了当前数据获取面临的挑战和应对策略。
数据驱动AI发展
数据、算法和算力是AI大模型的三大基石,其中数据是训练模型的根基。随着AI技术的深入发展,对高质量数据的需求日益迫切。然而,互联网上的公开数据资源正逐渐枯竭,且存在版权、隐私等多重壁垒,使得数据获取变得尤为困难。
亲自下场,招募AI录音员
为了绕过第三方平台品控不稳定的问题,字节跳动等大厂选择亲自下场,招募素人作为“AI录音员”,通过定制化的对话录音来构建高质量的语料库。这一举措不仅保证了数据的时效性和质量,还减少了因擅自使用第三方数据而引发的法律纠纷。
在北京大钟寺的字节办公楼内,抖音和火山引擎业务团队自年初起便开始招募录音员,以两人一组、单次3小时的形式进行录音。录音内容涵盖自由聊天和带有提示词的对话,要求对话内容丰富、自然,且不能修改提示词以保证AI模型能够准确理解。
高质量数据的挑战与应对
高质量数据的获取并非易事,它要求录音员具备良好的沟通能力和语言表达能力,同时还需要严格的审核和筛选机制。字节跳动的录音项目便采用了多轮审核制度,确保录音质量符合标准。此外,录音过程中还有字节员工全程陪同,指导录音员按照要求进行对话,以提高录音效率和质量。
除了自行招募录音员外,大厂们还通过第三方公司购买数据,并建立起自己的数据基地。然而,这些数据往往存在质量不可控的问题,需要进一步的筛选和加工才能用于模型训练。因此,大厂们更倾向于亲自下场,通过定制化的方式获取高质量数据。
数据垄断与创业公司的困境
高质量数据往往被大厂垄断,使得AI创业公司难以获取足够的训练数据。这导致创业公司在技术迭代和市场竞争中处于不利地位。为了打破这一困境,创业公司需要寻求与大厂合作或探索新的数据获取途径,如利用开源数据、构建共享数据平台等。
大模型幻觉与数据质量
大模型在生成内容时常常出现“幻觉”现象,即生成的内容与现实世界事实或用户输入不一致。这主要是由于训练数据不足或质量不高所导致的。因此,提高数据质量成为解决大模型幻觉问题的关键。大厂们通过亲自下场收集高质量数据,并不断优化算法和算力,以提升大模型的生成效果和用户体验。
结语
随着AI技术的不断发展,数据在AI大模型训练中的作用日益凸显。为了获取高质量数据以推动AI技术的进步和商业化应用,大厂们纷纷选择亲自下场招募“AI录音员”并构建自己的数据基地。这一举措不仅有助于解决数据获取难题,还为AI大模型的未来发展奠定了坚实基础。同时,这也为AI创业公司提供了新的启示:在数据垄断的背景下,寻求合作与创新成为突破困境的关键。