GuppyLM: 用一个 Colab 笔记本,在 5 分钟内训练出你自己的 LLM
昨天在 HN 上看到一个很有想法的项目:作者在 5 分钟内,用一个 Colab 笔记本,从零训练出了一个 9M 参数的语言模型 GuppyLM。 不是跑 demo,不是微调,是从数据生成、tokenizer、模型架构、训练循环到推理全部从零开始。 真实案例:一条鱼能告诉你 LLM 内部发生了什么 GuppyLM 是一个假装自己是热带鱼 Guppy 的小模型。它说的话听起来很傻: You> what is the meaning of life? Guppy> food. the answer is always food. 这显然不是 GPT-4。但重点不在这里。重点是:你能完整看到它是怎么被训练出来的。 项目地址:https://github.com/arman-bd/guppylm 在线 Demo(浏览器直接跑,无需服务器):https://arman-bd.github.io/guppylm/ 框架拆解:GuppyLM 的技术架构 GuppyLM 是一个极简 vanilla transformer,没有 GQA、没有 RoPE、没有 SwiGLU——怎么简单怎么来。 核心参数: 参数量 8.7M 层数 6 隐层维度 384 注意力头数 6 FFN 维度 768(ReLU) 词表大小 4,096(BPE) 最大序列长度 128 tokens Norm LayerNorm 位置编码 Learned embeddings 整个架构就是教科书级别的 transformer。没有花活,这是刻意设计的——作者想让读者看清每一行代码在做什么。 ...