Github仓库 (全开源)

🔗 GitHub: https://github.com/RLsys-Foundation/TritonForge

参与者

Jin Pan, Xiang Long, Chengxing Xie, Kexun Zhang, Haoran Wang, Junrong Lin, Yuzhen Zhou, Jiajun Li, Yang Wang, Xiaodong Yu, Gowtham Ramesh, Yusheng Su, Zicheng Liu, Emad Barsoum

1. TL;DR


TritonForge 是一个面向 多轮 Agent 任务Server-based RL 训练与评测闭环,以 slime(SGLang-native)+ Megatron 为底座,聚焦 Triton 内核生成NVIDIA 与 AMD 双生态的稳定、可扩展实践。设计目标是把“多轮 RL 在真实环境中的不稳定性”变成可落地、可放大、可维护的系统能力。

在方法与任务设置上,我们受到 Kevin(多轮 RL 生成 CUDA 内核)KernelBench(内核正确性与性能评测基准) 的启发;二者分别体现了多轮 RL 训练范式与工程化评测口径。

Screenshot 2025-09-29 at 8.29.25 PM.png


2. 技术选型 / 追根溯源

2.1 Why Slime?(From verl → slime)

最开始的起点

我们最初计划基于 veRL 完成整套多轮 RL 流水线: