ByteDance-Seed · FoolPlayer · Apr 18, 2026 · Apr 9, 2026 · Apr 10, 2026 · Apr 17, 2026
diff --git a/tasks/deprecated_task/train_flux.py b/tasks/deprecated_task/train_flux.py
@@ -308,7 +308,7 @@ def main():
         weights_path=args.model.model_path,
         enable_full_shard=args.train.accelerator.fsdp_config.full_shard,
         enable_reshard_after_forward=args.train.accelerator.fsdp_config.reshard_after_forward,
-        enable_mixed_precision=args.train.enable_mixed_precision,
+        mixed_precision=args.train.accelerator.fsdp_config.mixed_precision,
         enable_gradient_checkpointing=args.train.gradient_checkpointing.enable,
         init_device=args.train.init_device,
         enable_fsdp_offload=args.train.accelerator.fsdp_config.offload,
@@ -473,7 +473,11 @@ def main():
                 extra_input = model.prepare_extra_input(latents)
                 # noise and target
                 noisy_latents = flow_scheduler.add_noise(
-                    latents, noise, timestep, args.train.micro_batch_size, args.train.enable_mixed_precision
+                    latents,
+                    noise,
+                    timestep,
+                    args.train.micro_batch_size,
+                    args.train.accelerator.fsdp_config.mixed_precision.enable,
                 )
                 training_target = flow_scheduler.training_target(latents, noise, timestep)
                 # predict noise

diff --git a/tasks/deprecated_task/train_qwen_vl.py b/tasks/deprecated_task/train_qwen_vl.py
@@ -227,7 +227,7 @@ def main():
         weights_path=args.model.model_path,
         enable_full_shard=args.train.accelerator.fsdp_config.full_shard,
         enable_reshard_after_forward=args.train.accelerator.fsdp_config.reshard_after_forward,
-        enable_mixed_precision=args.train.enable_mixed_precision,
+        mixed_precision=args.train.accelerator.fsdp_config.mixed_precision,
         enable_gradient_checkpointing=args.train.gradient_checkpointing.enable,
         enable_fsdp_offload=args.train.accelerator.fsdp_config.offload,
         basic_modules=model._no_split_modules + args.model.basic_modules,

diff --git a/tasks/deprecated_task/train_torch.py b/tasks/deprecated_task/train_torch.py
@@ -136,7 +136,7 @@ def main():
     model = build_foundation_model(
         config_path=args.model.config_path,
         weights_path=args.model.model_path,
-        torch_dtype="float32" if args.train.enable_mixed_precision else "bfloat16",
+        torch_dtype="float32" if args.train.accelerator.fsdp_config.mixed_precision.enable else "bfloat16",
         attn_implementation=args.model.ops_implementation.attn_implementation,
         moe_implementation=args.model.ops_implementation.moe_implementation,
         init_device=args.train.init_device,
@@ -151,7 +151,7 @@ def main():
         weights_path=args.model.model_path,
         enable_full_shard=args.train.accelerator.fsdp_config.full_shard,
         enable_reshard_after_forward=args.train.accelerator.fsdp_config.reshard_after_forward,
-        enable_mixed_precision=args.train.enable_mixed_precision,
+        mixed_precision=args.train.accelerator.fsdp_config.mixed_precision,
         enable_gradient_checkpointing=args.train.gradient_checkpointing.enable,
         enable_fsdp_offload=args.train.accelerator.fsdp_config.offload,
         basic_modules=list(set(getattr(model, "_no_split_modules", None) or []) | set(args.model.basic_modules)),

diff --git a/tasks/deprecated_task/train_wan.py b/tasks/deprecated_task/train_wan.py
@@ -197,7 +197,7 @@ def main():
         weights_path=args.model.model_path,
         enable_full_shard=args.train.accelerator.fsdp_config.full_shard,
         enable_reshard_after_forward=args.train.accelerator.fsdp_config.reshard_after_forward,
-        enable_mixed_precision=args.train.enable_mixed_precision,
+        mixed_precision=args.train.accelerator.fsdp_config.mixed_precision,
         enable_gradient_checkpointing=args.train.gradient_checkpointing.enable,
         init_device=args.train.init_device,
         enable_fsdp_offload=args.train.accelerator.fsdp_config.offload,
@@ -366,7 +366,7 @@ def main():
                     noise,
                     timestep,
                     args.train.micro_batch_size,
-                    args.train.enable_mixed_precision,
+                    args.train.accelerator.fsdp_config.mixed_precision.enable,
                 )
                 training_target = flow_scheduler.training_target(latents, noise, timestep)
                 # predict noise