Ilya承认Scaling观念转变,AI界探索新训练范式
近日,Ilya Sutskever,这位曾推动OpenAI GPT模型发展的关键人物,终于承认了自己关于Scaling(扩展)的说法有误。他指出,当前训练模型已不再遵循“越大越好”的原则,而是需要明确Scaling的对象和目标。同时,他透露自己的新公司SSI正在尝试一种全新的预训练扩展方法,这可能预示着AI训练范式的一次重大变革。
与此同时,传统的大模型Scaling Law似乎已遭遇瓶颈。The Information的报道指出,OpenAI的下一代旗舰模型Orion正面临性能提升的困境。而路透社也发文称,由于当前方法受限,OpenAI和其他公司正在积极寻求通向更智能AI的新途径。
然而,The Information随后又发表了一篇文章进行澄清,强调他们之前的报道只是指出改进大模型需要新方法,并未断言Scaling Law已经终结。但不可否认的是,硅谷的几大主要AI实验室确实陷入了困境。训练大规模LLM(大型语言模型)成本高昂,且系统经常崩溃,研究人员往往需要数月时间才能知道模型是否能按预期工作。
在这种情况下,各方巨头开始改变训练范式。谷歌、Anthropic等公司都在探索新的方法,而OpenAI则似乎找到了一个新的突破点——测试时计算。这种方法通过开发使用更类人思维的算法训练技术,克服了追求更大规模LLM过程中遇到的挑战,并可能重塑AI竞赛的格局。
据透露,OpenAI的o1模型正是基于这种新技术开发的。它能够在推理阶段(模型被使用时)通过增加“思考时间”(GPU周期)来生成和评估多种可能性,最终选择出最佳路径。这种方法允许模型将更多的处理能力用于具有挑战性的任务,如数学、编码问题等,或者需要类人推理和决策的复杂操作。
随着这种新技术的出现,英伟达GPU的垄断地位或许也要打破了。因为通过增加训练时间和测试时间,可能会获得更好的结果,而不再需要那么大的模型参数。这意味着训练和运行较小模型会更便宜,从而在给定固定计算量的情况下获得更多收益。
此外,这种转变也可能导致AI硬件竞争格局的改变。一些专门为这类任务制造芯片的公司,如Groq等,可能会迎来新的发展机遇。而红杉资本、A16z等著名风投机构也在积极资助多家AI实验室的开发,他们可能会重新考虑自己的投资策略。
总的来说,随着Scaling Law的碰壁和新技术的出现,AI界正在经历一场深刻的变革。各大公司和研究机构都在积极探索新的训练范式和硬件解决方案,以应对日益增长的计算需求和性能挑战。而在这场变革中,谁将脱颖而出成为新的领导者?这仍然是一个未知数。但无论如何,我们都期待着AI技术能够不断取得新的突破和进展,为人类带来更多的福祉和便利。