小模型当老师效果更好：RLTs方法7B参数击败671B，训练成本降99%

SakanaAI提出的强化学习教师模型（Reinforcement-LearnedTeachers,RLTs）代表了一种全新的训练范式。该方法颠覆了传统强化学习需要模型从零开始通过稀疏奖励信号解决问题的训练方式，转而从已知答案出发，训练小型"教师"模型以适合学生模型学习的方式解释解决方案。

实验结果表明，仅有7B参数的教师模型在推理教学效果上超越了671B参数的大型模型，同时显著降低了训练成本和时间开销。本文将深入分析RLT的工作机制，与RLHF、监督微调及传统知识蒸馏等方法进行对比，并提供详细的代码实现示例以及基于Docker和Kubernetes的部署方案。

传统强化学习在推理任务中的局限性

传统强化学习在语言模型训练中面临诸多挑战，特别是在复杂推理任务方面。在经典的RL推理训练框架中，大型模型需要与环境（如数学问题集或编程挑战）进行交互，仅在得出正确答案时才能获得奖励。这种"学习求解"的方法要求模型通过试错过程自主发现解决方案，在随机尝试获得正确答案之前往往无法获得任何奖励信号。

传统RL方法的主要问题包括：首先是奖励稀疏性和长序列依赖问题。解决复杂数学问题或编写程序涉及多个步骤，但传统RL通常只在最终结果处提供二元奖励（正确或错误）。这种极其稀疏的信号使得模型无法识别其长推理过程中哪些部分是有益的或有害的。

其次是探索效率低下的问题。如果模型的初始能力不足，它几乎不可能通过随机探索获得正确解决方案来获取奖励。正如Sakana团队所指出的，基于一次性正确性的RL训练"依赖于语言模型在初始化时具备一定概率探索并解决任务的能力"。换言之，在困难任务上开始RL训练需要一个具备相当基础能力的大型模型。

第三个问题是过拟合到狭窄任务分布。那些成功通过此类训练的模型往往会过度适应狭窄的任务分布，在训练问题上表现出色，但在该领域之外的泛化能力有限。我们在专门的数学和编程LLM中观察到这种现象——它们在基准测试中表现优异，但在其他场景下的通用性不足。

为应对这些挑战，业界通常采用两阶段训练流程：首先通过RL在困难任务上训练巨型教师模型，然后利用该教师的解决方案来指导学生模型的训练（知识蒸馏）。例如，DeepMind的DeepSeekR1（具有671B参数）经过RL训练来解决问题，其生成的推理轨迹经过过滤后用于训练更小的模型。虽然这种方法有效，但存在明显的效率问题。

这种传统方法需要一个巨大且成本极高的模型来完成RL阶段。教师模型的训练目标（解决问题）与实际需求（生成易于学生学习的解释）之间存在不一致。此外，巨型教师的输出通常需要大量后处理工作（甚至需要GPT-4进行清理）才能成为合适的教学材料。

从工程实践角度来看，这种方法包含大量计算资源浪费、人工干预的过滤步骤，以及清理输出的外部API调用。显然需要更精简高效的解决方案。

RLT：从教学角度重新定义训练目标

强化学习教师模型（RLT）从根本上重新定义了训练范式。与传统方法要求模型自主解决问题不同，RLT预先提供问题的解决方案。在训练过程中，RLT教师模型同时接收问题和正确答案作为输入。教师的任务不是重新发现答案，而是解释为什么该答案是正确的。这类似于优秀的人类教师无需在每堂课上重新推导已知定理，而是专注于清晰地解释其原理。

这种方法被称为"学习教学"范式。核心思想是使用专门设计的奖励函数来训练教师，该奖励函数衡量教师的解释对帮助学生模型理解解决方案的有效性。具体的训练循环包括以下步骤：

首先是输入阶段，教师模型接收问题及其正确答案作为格式化的输入对，无需进行答案猜测。然后是教师输出阶段，教师生成解释或推理轨迹，建立问题与给定答案之间的逻辑连接，有效展示从问题到答案的推理过程。

接下来是学生评估阶段，将问题和教师的解释输入到独立的学生模型中，测试学生恢复或确认正确答案的能力。这通过计算学生模型在给定解释作为上下文时对正确答案的对数似然来实现。然后是奖励信号生成，该对数似然值作为连续的密集奖励信号，而非二元的通过失败判定。如果学生因解释而对答案高度确信，奖励值较高；如果学生仍然困惑（对正确答案的概率较低），奖励值较低。

最后是教师更新阶段，使用强化学习算法（如策略梯度或PPO）更新教师模型的权重，使其倾向于生成能够获得更高学生对数似然的解释。

这种方法的优势在于奖励信号的密集性。即使学生没有完美预测答案，对数概率也能提供"接近程度"的平滑梯度信息。这相当于为教师提供部分分数评估，这是传统RL所缺乏的。由于教师始终知道答案，不存在困难的"探索"障碍；即使是小型模型也能尝试解释每个问题，包括那些它无法独立解决的问题。

为防止简单的作弊行为，即教师在解释中直接透露答案，Sakana团队设计了对未解释标记的惩罚机制。这有效防止教师在解释中包含答案片段而缺乏适当推理的情况。例如，如果正确答案是数字或最终陈述，教师直接在解释中包含该内容将受到惩罚。这促使教师生成真正的解释：引导学生理解解决过程，而非简单地提供答案。

以下是该过程的伪算法表示：

foreachtrainingquestion-answerpair(Q,A):教师已知答案A
student_confidence=_answer(Q,teacher_explanation,A)
reward=student_confidence-
penalty_for_revealing_answer(teacher_explanation,A)
UpdateTeachertomaximizereward(policygradientorsimilar)加载教师和学生模型（使用小型模型进行演示）teacher_name="gpt2"实际应用中，学生可能是不同或更大的模型teacher_model=_pretrained(teacher_name)student_model=_pretrained(student_name)teacher_tokenizer=_pretrained(teacher_name)student_tokenizer=_pretrained(student_name)教师模型将被优化student_()构建学生输入：问题和教师解释获取学生模型输出（下一个token预测的logits）_grad():outputs=student_model(**inputs)logits=计算序列中每个答案token的对数概率log_prob=0.0seq_len=_[1]foridx,tokeninenumerate(answer_tokens):简化实现：仅考虑提示后第一个token的位置pos=seq_len-1ifidx==0else-1注意：完整的序列解码需要迭代更新输入并重新计算logits对作弊行为的任意惩罚值returnlog_prob-penalty

这个实现的几个要点需要说明。我们在解释后添加"Theansweris:"这样的提示来引导学生输出答案。虽然不是严格必需的，但在思维链格式中通常有推理过程后跟最终答案的结构。

计算答案概率的正确方法是进行自回归评分：输入提示，然后逐一输入正确答案tokens，每次获得给定所有先前上下文的下一个token概率。为简洁起见，我们通过在提示后取第一个token的logits来部分实现这一点。完整的实现需要循环处理，添加第一个答案token，重新运行模型（或使用增量解码），等等。

如果在解释中发现答案文本，我们设置固定的5.0惩罚。在实际应用中，可能会设计更细致的惩罚机制，例如为解释中存在的任何答案tokens减去对数概率，或使用正则表达式检测教师是否仅在解释中写了"Answer:42"并对此进行惩罚。

教师解释生成

在训练过程中，对于每个问题-答案对，我们需要教师生成解释。这可以通过标准的语言模型生成方法实现，使用一定的最大长度和可能的温度参数。由于我们将问题和答案作为教师的输入提供，需要以教师模型期望的方式格式化提示。

defgenerate_explanation(teacher_model,teacher_tokenizer,question,answer,max_tokens=128):prompt=f"Question:{question}\nSolution:{answer}\nExplanation:"input_ids=teacher_tokenizer(prompt,return_tensors="pt").input_ids移除提示部分generated_ids=output_ids[0,input_[1]:]explanation=teacher_(generated_ids,skip_special_tokens=True)()

我们使用nucleus采样（top-p）来引入一定的随机性。在训练期间，教师输出的一些探索性变化有助于学习过程（类似于RL中尝试不同动作）。Sakana的代码可能使用类似方法，甚至使用零温度（贪婪）生成，但依赖RL的随机性。使用基于采样的生成可以防止教师陷入单一风格。

完整训练循环

现在我们整合生成、奖励计算和强化学习更新。最简单的策略梯度更新（REINFORCE）包括：计算采样解释的奖励，计算教师生成该解释的对数概率，将对数概率乘以奖励，执行梯度上升来更新权重。

optimizer=(teacher_(),lr=1e-5)更多样本]forepochinrange(1):生成解释explanation=generate_explanation(teacher_model,teacher_tokenizer,question,answer)计算教师模型下解释的对数概率（用于策略梯度）prompt=f"Question:{question}\nSolution:{answer}\nExplanation:"enc=teacher_tokenizer(prompt+explanation,return_tensors="pt")input_ids=_idsprompt_len=teacher_tokenizer(prompt,return_tensors="pt").input_[1]提取生成token的对数概率（排除提示）expl_ids=input_ids[0,prompt_len:]expl_logprob=token_logprobs[0,range(prompt_len,input_[1]),expl_ids]expl_logprob_sum=expl_()安装系统依赖和Python环境ENVDEBIAN_FRONTEND=noninteractiveRUNapt-getupdateapt-getinstall-y\python3python3-pipgitgit-lfswget\apt-getcleanrm-rf/var/lib/apt/lists/*WORKDIR/appvLLM服务器GPU数量-"7"#训练GPU数量-"cfgs/run_cfg/teacher_"-"output_dir=/results/rlt-teacher-7b"-"dataset_id_or_path=bespokelabs/Bespoke-Stratos-17k"-"model_name_or_path=Qwen/"resources:limits:/gpu:8cpu:32memory:200GivolumeMounts:-name:resultsmountPath:/resultsvolumes:-name:resultspersistentVolumeClaim:claimName:my-results-pvc

这个配置为容器分配8块GPU，其中1块用于vLLM服务器，7块用于训练。大型模型训练需要大量CPU和内存资源用于数据加载和处理开销。我们挂载PersistentVolumeClaim来持久化输出，确保训练检查点和日志在作业完成后可以访问。

成本效益分析

RLT方法的一个重要优势在于显著的成本效益。传统的"学习求解"RL方法需要在超大型模型（如670B参数的DeepSeekR1）上进行数月的训练，单个8块H100节点按每小时25美元计算，一天成本为600美元，一个月为18,000美元，数月可能达到50,000到100,000美元以上。

相比之下，Sakana的RLT训练（7B教师加学生蒸馏）在单节点上不到一天即可完成，成本不到600美元。即使考虑一些前期监督微调和多次迭代，总成本可能在数千美元范围内，而非数万或数十万美元。

通过利用开源模型（如HuggingFace上免费的Qwen7B）和开放数据集，可以避免为专有模型API访问付费。如果拥有云GPU或大型本地GPU设施，RLT能够高效利用这些资源，而无需按token向API服务付费。这对预算有限的初创公司和研究实验室特别重要。

在推理部署方面，训练完成的学生模型（特别是性能良好的32B模型）可以使用vLLM等优化运行时进行服务。由于学生模型比GPT-4规模的教师小得多，推理成本更低且速度更快。我们本质上将推理技能转移到了紧凑的形式中，使生产部署变得可行。

技术架构图解

为了更清楚地理解RLT如何重构训练流程，我们通过图表对比不同方法的架构。

在传统RL流程中，需要大型教师和大量蒸馏后处理工作。而在RLT流程中，小型教师直接产生高质量的教学轨迹，简化了整个蒸馏过程。

总结

强化学习教师模型代表了训练推理语言模型的范式转变。通过从答案开始并专注于解释生成，RLT将训练过程转化为师生协作游戏，实现多方共赢：教师学会有效教学，学生从定制化课程中受益，工程师获得性能更好且成本更低的模型解决方案。

SakanaAI的研究证明，即使是7B参数的模型，经过RLT训练后，在复杂任务上的表现也能超越巨型模型，并且训练速度更快、成本更低。对于那些受够了不断增长的模型规模和训练预算的研究者和工程师来说，RLT提供了一种清新的替代方案。它表明智能的训练策略可以胜过蛮力计算，并且与现实世界的约束条件高度契合。

虽然不是每个组织都拥有万亿级token数据集或专用超级计算机，但许多组织拥有一两块高质量GPU和一些标注样本。使用RLT，这可能就足以构建真正智能的系统。我们通过代码示例展示了RLT如何与RLHF、SFT和蒸馏技术进行比较，并提供了容器化和Kubernetes部署方案，强调这不仅仅是理论研究，而是可以在实际环境中部署的技术。

随着大型语言模型技术的成熟，我们可能会看到更多反映人类教学和学习方式的技术出现。人类不通过蛮力学习复杂技能，而是依靠教师、课程和循序渐进的指导。现在训练AI成为教师来教授AI是合适的发展方向。从工程角度来看，这种方法减少了与最先进AI相关的工程开销和计算膨胀，这正是我们所需要的进步方向。

因此，这里向教师们致敬——那些默默无闻的英雄，现在以神经网络的形式出现。通过RLT，即使是模型生态系统中的"小角色"也能成为优秀的教师，帮助我们一次一个清晰解释地构建下一代AI系统。