Refactor to do alignment during the inference step

isaac091 · isaac091 · commit 3774258723ac · 2025-04-23T18:03:27.000-04:00
diff --git a/machine/jobs/nmt_engine_build_job.py b/machine/jobs/nmt_engine_build_job.py
@@ -1,5 +1,7 @@
 import logging
 from contextlib import ExitStack
+from pathlib import Path
+from tempfile import TemporaryDirectory
 from typing import Any, Callable, Optional, Sequence, Tuple
 
 from ..corpora.corpora_utils import batch
@@ -8,6 +10,7 @@
 from ..translation.translation_engine import TranslationEngine
 from ..utils.phased_progress_reporter import Phase, PhasedProgressReporter
 from ..utils.progress_status import ProgressStatus
+from .eflomal_aligner import EflomalAligner, is_eflomal_available, tokenize
 from .nmt_model_factory import NmtModelFactory
 from .shared_file_service_base import DictToJsonWriter
 from .translation_engine_build_job import TranslationEngineBuildJob
@@ -102,18 +105,66 @@ def _batch_inference(
         with ExitStack() as stack:
             phase_progress = stack.enter_context(progress_reporter.start_next_phase())
             engine = stack.enter_context(self._nmt_model_factory.create_engine())
-            src_pretranslations = stack.enter_context(self._translation_file_service.get_source_pretranslations())
-            writer = stack.enter_context(self._translation_file_service.open_target_pretranslation_writer())
+            pretranslations = [
+                pt_info for pt_info in stack.enter_context(self._translation_file_service.get_source_pretranslations())
+            ]
+            src_segments = [pt_info["translation"] for pt_info in pretranslations]
             current_inference_step = 0
             phase_progress(ProgressStatus.from_step(current_inference_step, inference_step_count))
             batch_size = self._config["inference_batch_size"]
-            for pi_batch in batch(src_pretranslations, batch_size):
+            for seg_batch in batch(iter(src_segments), batch_size):
                 if check_canceled is not None:
                     check_canceled()
-                _translate_batch(engine, pi_batch, writer)
-                current_inference_step += len(pi_batch)
+                for i, result in enumerate(engine.translate_batch(seg_batch)):
+                    pretranslations[current_inference_step + i]["translation"] = result.translation
+                current_inference_step += len(seg_batch)
                 phase_progress(ProgressStatus.from_step(current_inference_step, inference_step_count))
 
+            if self._config.align_pretranslations and is_eflomal_available():
+                logger.info("Aligning source to pretranslations")
+                pretranslations = self._align(src_segments, pretranslations, progress_reporter, check_canceled)
+
+            writer = stack.enter_context(self._translation_file_service.open_target_pretranslation_writer())
+            for pretranslation in pretranslations:
+                writer.write(pretranslation)
+
+    def _align(
+        self,
+        src_segments: Sequence[str],
+        pretranslations: Sequence[PretranslationInfo],
+        progress_reporter: PhasedProgressReporter,
+        check_canceled: Optional[Callable[[], None]],
+    ) -> Sequence[PretranslationInfo]:
+        if check_canceled is not None:
+            check_canceled()
+
+        logger.info("Aligning source to pretranslations")
+        progress_reporter.start_next_phase()
+
+        src_tokenized = [tokenize(s) for s in src_segments]
+        trg_tokenized = [tokenize(pt_info["translation"]) for pt_info in pretranslations]
+
+        with TemporaryDirectory() as td:
+            aligner = EflomalAligner(Path(td))
+            logger.info("Training aligner")
+            aligner.train(src_tokenized, trg_tokenized)
+
+            if check_canceled is not None:
+                check_canceled()
+
+            logger.info("Aligning pretranslations")
+            alignments = aligner.align()
+
+        if check_canceled is not None:
+            check_canceled()
+
+        for i in range(len(pretranslations)):
+            pretranslations[i]["source_toks"] = list(src_tokenized[i])
+            pretranslations[i]["translation_toks"] = list(trg_tokenized[i])
+            pretranslations[i]["alignment"] = alignments[i]
+
+        return pretranslations
+
     def _save_model(self) -> None:
         if "save_model" in self._config and self._config.save_model is not None:
             logger.info("Saving model")
diff --git a/machine/jobs/translation_engine_build_job.py b/machine/jobs/translation_engine_build_job.py
@@ -1,16 +1,12 @@
 import logging
 from abc import ABC, abstractmethod
-from contextlib import ExitStack
-from pathlib import Path
-from tempfile import TemporaryDirectory
 from typing import Any, Callable, Optional, Tuple
 
 from ..corpora.parallel_text_corpus import ParallelTextCorpus
 from ..corpora.text_corpus import TextCorpus
 from ..utils.phased_progress_reporter import PhasedProgressReporter
 from ..utils.progress_status import ProgressStatus
-from .eflomal_aligner import EflomalAligner, is_eflomal_available, tokenize
-from .translation_file_service import PretranslationInfo, TranslationFileService
+from .translation_file_service import TranslationFileService
 
 logger = logging.getLogger(__name__)
 
@@ -48,10 +44,6 @@ def run(
         logger.info("Pretranslating segments")
         self._batch_inference(progress_reporter, check_canceled)
 
-        if self._config.align_pretranslations and is_eflomal_available():
-            logger.info("Aligning source to pretranslations")
-            self._align(progress_reporter, check_canceled)
-
         self._save_model()
         return train_corpus_size, confidence
 
@@ -82,55 +74,5 @@ def _batch_inference(
         check_canceled: Optional[Callable[[], None]],
     ) -> None: ...
 
-    def _align(
-        self,
-        progress_reporter: PhasedProgressReporter,
-        check_canceled: Optional[Callable[[], None]],
-    ) -> None:
-        if check_canceled is not None:
-            check_canceled()
-
-        logger.info("Aligning source to pretranslations")
-        with ExitStack() as stack:
-            # phase_progress = stack.enter_context(progress_reporter.start_next_phase())
-            progress_reporter.start_next_phase()
-
-            src_tokenized = [
-                tokenize(s["translation"])
-                for s in stack.enter_context(self._translation_file_service.get_source_pretranslations())
-            ]
-            trg_info = [
-                pt_info for pt_info in stack.enter_context(self._translation_file_service.get_target_pretranslations())
-            ]
-            trg_tokenized = [tokenize(pt_info["translation"]) for pt_info in trg_info]
-
-            with TemporaryDirectory() as td:
-                aligner = EflomalAligner(Path(td))
-                logger.info("Training aligner")
-                aligner.train(src_tokenized, trg_tokenized)
-
-                if check_canceled is not None:
-                    check_canceled()
-
-                logger.info("Aligning pretranslations")
-                alignments = aligner.align()
-
-            if check_canceled is not None:
-                check_canceled()
-
-            writer = stack.enter_context(self._translation_file_service.open_target_pretranslation_writer())
-            for trg_pi, src_toks, trg_toks, alignment in zip(trg_info, src_tokenized, trg_tokenized, alignments):
-                writer.write(
-                    PretranslationInfo(
-                        corpusId=trg_pi["corpusId"],
-                        textId=trg_pi["textId"],
-                        refs=trg_pi["refs"],
-                        translation=trg_pi["translation"],
-                        source_toks=list(src_toks),
-                        translation_toks=list(trg_toks),
-                        alignment=alignment,
-                    )
-                )
-
     @abstractmethod
     def _save_model(self) -> None: ...
diff --git a/machine/jobs/translation_file_service.py b/machine/jobs/translation_file_service.py
@@ -52,11 +52,13 @@ def exists_source_corpus(self) -> bool:
     def exists_target_corpus(self) -> bool:
         return self.shared_file_service._exists_file(f"{self.shared_file_service.build_path}/{TARGET_FILENAME}")
 
-    def _get_pretranslations(self, filename: str) -> ContextManagedGenerator[PretranslationInfo, None, None]:
-        pretranslate_path = self.shared_file_service.download_file(f"{self.shared_file_service.build_path}/{filename}")
+    def get_source_pretranslations(self) -> ContextManagedGenerator[PretranslationInfo, None, None]:
+        src_pretranslate_path = self.shared_file_service.download_file(
+            f"{self.shared_file_service.build_path}/{SOURCE_PRETRANSLATION_FILENAME}"
+        )
 
         def generator() -> Generator[PretranslationInfo, None, None]:
-            with pretranslate_path.open("r", encoding="utf-8-sig") as file:
+            with src_pretranslate_path.open("r", encoding="utf-8-sig") as file:
                 for pi in json_stream.load(file):
                     yield PretranslationInfo(
                         corpusId=pi["corpusId"],
@@ -70,12 +72,6 @@ def generator() -> Generator[PretranslationInfo, None, None]:
 
         return ContextManagedGenerator(generator())
 
-    def get_source_pretranslations(self) -> ContextManagedGenerator[PretranslationInfo, None, None]:
-        return self._get_pretranslations(SOURCE_PRETRANSLATION_FILENAME)
-
-    def get_target_pretranslations(self) -> ContextManagedGenerator[PretranslationInfo, None, None]:
-        return self._get_pretranslations(TARGET_PRETRANSLATION_FILENAME)
-
     def save_model(self, model_path: Path, destination: str) -> None:
         self.shared_file_service.upload_path(model_path, destination)
 
diff --git a/tests/jobs/test_nmt_engine_build_job.py b/tests/jobs/test_nmt_engine_build_job.py
@@ -139,24 +139,6 @@ def __init__(self, decoy: Decoy) -> None:
                 )
             )
         )
-        decoy.when(self.translation_file_service.get_target_pretranslations()).then_do(
-            lambda: ContextManagedGenerator(
-                (
-                    pi
-                    for pi in [
-                        PretranslationInfo(
-                            corpusId="corpus1",
-                            textId="text1",
-                            refs=["ref1"],
-                            translation="Please, I have booked a room.",
-                            source_toks=[],
-                            translation_toks=[],
-                            alignment="",
-                        )
-                    ]
-                )
-            )
-        )
 
         self.target_pretranslations = ""