HuggingFace

昨天在 HN 上看到一个很有想法的项目：作者在 5 分钟内，用一个 Colab 笔记本，从零训练出了一个 9M 参数的语言模型 GuppyLM。不是跑 demo，不是微调，是从数据生成、tokenizer、模型架构、训练循环到推理全部从零开始。真实案例：一条鱼能告诉你 LLM 内部发生了什么 GuppyLM 是一个假装自己是热带鱼 Guppy 的小模型。它说的话听起来很傻： You> what is the meaning of life? Guppy> food. the answer is always food. 这显然不是 GPT-4。但重点不在这里。重点是：你能完整看到它是怎么被训练出来的。项目地址：https://github.com/arman-bd/guppylm 在线 Demo（浏览器直接跑，无需服务器）：https://arman-bd.github.io/guppylm/ 框架拆解：GuppyLM 的技术架构 GuppyLM 是一个极简 vanilla transformer，没有 GQA、没有 RoPE、没有 SwiGLU——怎么简单怎么来。核心参数：参数量 8.7M 层数 6 隐层维度 384 注意力头数 6 FFN 维度 768（ReLU）词表大小 4,096（BPE）最大序列长度 128 tokens Norm LayerNorm 位置编码 Learned embeddings 整个架构就是教科书级别的 transformer。没有花活，这是刻意设计的——作者想让读者看清每一行代码在做什么。 ...