make grpo-qwen3-32b-4n4g inherit from grpo-qwen3-32b-4n8g

yuki-97 · yuki-97 · commit e0a0adfa4101 · 2026-04-03T02:00:23.000-07:00
Signed-off-by: Yuki Huang &lt;yukih@nvidia.com&gt;
diff --git a/examples/configs/recipes/llm/performance/grpo-qwen3-32b-4n4g.yaml b/examples/configs/recipes/llm/performance/grpo-qwen3-32b-4n4g.yaml
@@ -1,42 +1,15 @@
-defaults: ../../../grpo_math_1B.yaml
-grpo:
-  num_prompts_per_step: 64
-  num_generations_per_prompt: 32
+defaults: ./grpo-qwen3-32b-4n8g.yaml
 checkpointing:
-  enabled: false
   checkpoint_dir: results/grpo-qwen3-32b-4n4g
 policy:
-  model_name: Qwen/Qwen3-32B
-  train_micro_batch_size: 1
-  max_total_sequence_length: 4096
-  dtensor_cfg:
-    enabled: false
-  optimizer: null
-  scheduler: null
-  make_sequence_length_divisible_by: ${policy.megatron_cfg.tensor_model_parallel_size}
   megatron_cfg:
-    enabled: true
-    empty_unused_memory_level: 1
     tensor_model_parallel_size: 2
-    pipeline_model_parallel_size: 4
-    sequence_parallel: true
-    optimizer:
-      lr: 3.0e-07
-      min_lr: 3.0e-08
-    scheduler:
-      lr_warmup_iters: 2
-      lr_warmup_init: 3.0e-08
   generation:
     vllm_cfg:
       tensor_parallel_size: 2
 logger:
   log_dir: logs/grpo-qwen3-32b-4n4g
-  wandb_enabled: true
-  tensorboard_enabled: true
   wandb:
-    project: nemo-rl
     name: grpo-qwen3-32b-4n4g
 cluster:
   gpus_per_node: 4
-  num_nodes: 4
-