NVIDIA-NeMo · yfw · Mar 30, 2026 · yuki-97 · Mar 31, 2026 · terrykong
@@ -554,6 +554,8 @@ def init_train_dataloader(dataset, suffix: str = ""):
         policy_config["megatron_cfg"]["train_iters"] = total_train_iters
 
     # Define initialization functions that will be used in all paths
+    init_reference_model = master_config["loss_fn"]["reference_policy_kl_penalty"] > 0
-    init_reference_model = master_config["loss_fn"]["reference_policy_kl_penalty"] > 0
+    init_reference_model = master_config["loss_fn"]["reference_policy_kl_penalty"] > 0
+    # Auto-skip reference logprob calculation when reference model is not loaded
+    if not init_reference_model:
+        master_config["grpo"]["skip_reference_policy_logprobs_calculation"] = True
+
-    init_reference_model = master_config["loss_fn"]["reference_policy_kl_penalty"] > 0
+    init_reference_model = master_config["loss_fn"]["reference_policy_kl_penalty"] > 0
+    # Auto-skip reference logprob calculation when reference model is not loaded
+    if not init_reference_model:
+        master_config["grpo"]["skip_reference_policy_logprobs_calculation"] = True
+
+
     def init_policy():
         """Initialize policy training workers."""
         t0 = time.perf_counter()
@@ -565,6 +567,7 @@ def init_policy():
             weights_path=weights_path,
             optimizer_path=optimizer_path,
             init_optimizer=True,
+            init_reference_model=init_reference_model,
         )
         return p, time.perf_counter() - t0