9月4日,阿拉伯联合酋长国的研究人员使用Cerebras公司的专用AI芯片成功开发出了两个开源的大规模语言模型:Jais和Jais Chat。这两个模型针对阿拉伯语进行了优化,是业界首个参数规模超过100亿的开源语言模型。
Jais拥有130亿个参数,并且使用了3950亿个训练样本,其中1160亿个是阿拉伯语样本。为了建立这一模型,研究人员主要使用了阿拉伯语网站、书籍、新闻和其他资源作为训练数据,并在训练之前对这些数据进行了筛选。
Jais Chat通过额外的对话训练进行了优化。在一系列阿拉伯语任务的测试中,这两个模型的准确度明显超过了现有的阿拉伯语开源模型,并且在某些写作任务上甚至可以媲美商业化的英语模型。根据基准测试结果,Jais和Jais Chat的准确度比现有的免费阿拉伯语模型提高了11到15个百分点,并且在英语方面与Meta的LLaMa2具有竞争力。尽管商业模型如*******或Anthropic的Claude在基准测试中仍然领先,但Jais的规模明显更大。
需要注意的是,Jais的训练过程没有使用Nvidia的GPU,而是在Cerebras公司的专用芯片上完成的。这种专为AI工作负载而设计的芯片使得Jais的训练实现了技术创新。Jais的开源发布将有助于推动阿拉伯语自然语言处理的进步。
暂无评论...