Merge branch 'cpu_optimizations_v2' of github.com:vthumbe1503/TransformerEngine into cpu_optimizations_v2

vthumbe1503 · vthumbe1503 · commit 4f975972e8ae · 2026-01-02T19:56:01.000Z
Signed-off-by: Varun Thumbe &lt;vthumbe@nvidia.com&gt;
diff --git a/transformer_engine/pytorch/csrc/extensions/cast.cpp b/transformer_engine/pytorch/csrc/extensions/cast.cpp
@@ -1098,7 +1098,7 @@ std::vector<py::object> split_quantize(const at::Tensor &tensor,
   uint8_t *input_dptr = reinterpret_cast<uint8_t *>(input_py.data_ptr());
   auto input_dtype = GetTransformerEngineDType(input_py.scalar_type());
   NVTEShape input_shape;
-  input_shape.ndim=0;
+  input_shape.ndim = 0;
   size_t input_size = 1;
   for (const auto &d : input_py.sizes()) {
     input_shape.data[input_shape.ndim++] = static_cast<size_t>(d);