LLM/AI 技术探索、源码解析、学习笔记
自回归解码每次只生成一个 token,大模型的每步推理都需要完整的前向传播。Speculative Decoding 用小模型"起草"、大模型"审核"的方式,在不损失质量的前提下把推理速度翻倍。
Stanford CS336 课程学习笔记系列。
Stanford CS336 课程学习笔记系列。
Stanford CS336 课程学习笔记系列。
Stanford CS336 课程学习笔记系列。
Stanford CS336 课程学习笔记系列。
Stanford CS336 课程学习笔记系列。
Stanford CS336 课程学习笔记系列。