forge · live training

5H47sFL6-base-reset-qwen35·step 16,287

statusrunning

runtime19d 20h

last seen—

loss8.89e-4

kl8.35e-4

grad_norm2.484

reward μ0.5781

steps / h34target met

lr4.71e-6

gpu util0.0%

gpu mem0.0%

ai advisor

reading the last 160 points…

model quality

computing quality signals…

validator rejections

tailing validator logs over ssh…

PPO lossprimary objective

KL divergencebudget kl_beta = 0.04

grad_normclip @ 1

learning ratecosine schedule

rewardsmean ± std

degenerate-group ratiozero-variance reward groups

valid rollout ratioGRAIL accepted / submitted

model improvement · checkpoint evals

held-out pass@1 · math + code

model-improvement evalscheckpoint benchmarks stream once the eval pipeline publishes to R2

gpu util

0.0%

gpu mem

0.0%

sm occupancy

0.0%

gpu temp

28°C

power

116 W