xAI宣布了开源大语言模型Grok-1并开放下载!
xAI介绍称,Grok-1是一款基于混合专家系统(Mixture-of-Experts,MoE)技术构建的大语言模型,拥有3140亿参数。近期,公司发布了Grok-1的基本模型权重和网络架构详情。
该公司表示,Grok-1始终由xAI自行训练,其预训练阶段于2023年10月完成。此次发布的是Grok-1预训练阶段结束时的原始基础模型检查点,即该模型未经过针对任何具体应用的微调。
xAI强调,Grok-1的权重和架构均依照Apache 2.0开源许可协议发布。
xAI还特别强调了Grok-1的几大特性:
首先,Grok-1是一个未针对特定任务进行微调的基础模型,它基于大量文本数据训练而成;
其次,作为一款基于混合专家技术构建的大语言模型,Grok-1拥有3140亿参数,在处理每个token时有25%的权重处于活跃状态;
最后,Grok-1是xAI团队使用JAX和Rust编程语言自定义训练栈从零开始训练的成果,训练完成于2023年10月。
此外,xAI还提到,Grok-1的封面配图是借助人工智能绘图工具Midjourney生成的,基于以下提示创作而成:展示一个3D插图的神经网络,其中包含透明的节点和发光的连接线,通过线条的粗细和颜色变化来表示权重的不同。