ExLlamaV3: Respect device split when loading draft model

turboderp · turboderp · commit e909f7ecdb46 · 2026-04-25T01:51:46.000+02:00
diff --git a/backends/exllamav3/model.py b/backends/exllamav3/model.py
@@ -500,6 +500,7 @@ def load_model_sync(self, progress_callback=None):
         if self.use_vision:
             for value in self.vision_model.load_gen(
                 reserve_per_device=self.autosplit_reserve,
+                use_per_device=self.gpu_split,
                 callback=progress_callback,
             ):
                 if value:
@@ -508,6 +509,7 @@ def load_model_sync(self, progress_callback=None):
         if self.use_draft_model:
             for value in self.draft_model.load_gen(
                 reserve_per_device=self.autosplit_reserve,
+                use_per_device=self.gpu_split,
                 callback=progress_callback,
             ):
                 if value: