Github仓库（全开源）

🔗 GitHub: https://github.com/RLsys-Foundation/TritonForge

参与者

Jin Pan, Xiang Long, Chengxing Xie, Kexun Zhang, Haoran Wang, Junrong Lin, Yuzhen Zhou, Jiajun Li, Yang Wang, Xiaodong Yu, Gowtham Ramesh, Yusheng Su, Zicheng Liu, Emad Barsoum

1. TL;DR

TritonForge 是一个面向 多轮 Agent 任务 的 Server-based RL 训练与评测闭环，以 slime（SGLang-native）+ Megatron 为底座，聚焦 Triton 内核生成 在 NVIDIA 与 AMD 双生态的稳定、可扩展实践。设计目标是把“多轮 RL 在真实环境中的不稳定性”变成可落地、可放大、可维护的系统能力。

在方法与任务设置上，我们受到 Kevin（多轮 RL 生成 CUDA 内核） 与 KernelBench（内核正确性与性能评测基准） 的启发；二者分别体现了多轮 RL 训练范式与工程化评测口径。

架构主张：Server-based 将 训练/路由/评测 解耦；SGLang Router 原生支持多推理服务与高并发；Buffer 以“组”为单位做 多样本采样（如 n=8）→ 过滤 → 归一化 → 填充，统一 raw_reward 口径。
方法速览：
1. SFT 冷启动（KernelBook 风格化数据；极端长样本过滤避免 OOM）；
2. RL（GRPO 为主，GSPO/TIS 已打通，便于后续横评）；
3. Eval Server 基于 KernelBench 后端做工程增强（子进程隔离、超时/故障分类、CUDA/Triton 双后端）。
早期结果（on Qwen3-8B-fine-tuned）：
- Single-turn @ AMD：0.116 → 0.175，+5.94 个百分点（≈+51.4%）
- Multi-turn @ NV：0.24 → 0.36，+12.00 个百分点（+50.0%）
- Single-turn @ NV：0.102 → 0.223，+12.10 个百分点（≈+118.6%）
- Multi-turn @ AMD：已定位到问题，正在修复中
开源与可扩展性：我们开源了端到端 Server-based 框架与 slime_plugins（单/多轮 kernel generator、Buffer 五件套钩子），采用 slime + SGLang 的范式，便于未来计划接入 更多算法（GRPO/GSPO/TIS/…）、MoE 模型，以及完整的 Agentic tool-calling 工作流。
推荐阅读（灵感来源）：
- Kevin: Multi-Turn RL for Generating CUDA Kernels（训练框架建立在未开源的 OpenRLHF + vLLM + DeepSpeed ZeRO-3 之上，多轮 RL 适配真实环境与长轨迹）
- KernelBench: Can LLMs Write Efficient GPU Kernels?（250 个 PyTorch-CUDA 场景、兼顾正确性与性能的评测框架与指标设计）
- KernelBook / KernelLLM：PyTorch↔Triton 成对样本数据集；配套 KernelLLM（Llama-3.1-8B-Instruct）；激发我们采用 SFT 冷启动 → RL 的路线 — Dataset

Screenshot 2025-09-29 at 8.29.25 PM.png

2. 技术选型 / 追根溯源

2.1 Why Slime?（From verl → slime）

最开始的起点

我们最初计划基于 veRL 完成整套多轮 RL 流水线：

veRL 已经合入了 SGLang 异步多轮 rollout 支持（PR #1037），与我们要做的多轮 Agent 训练方向高度一致。

https://github.com/volcengine/verl/pull/1037

Github仓库 （全开源）

参与者

1. TL;DR

2. 技术选型 / 追根溯源

2.1 Why Slime?（From verl → slime）

最开始的起点

Github仓库（全开源）