Skip to content

imWorldy/brashki-translator

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Braski Translator CLI

Werkzeugkasten zum Übersetzen von deutschem Klartext in Braski-/Tweaker-Slang. Das Projekt liefert:

  • Eine modulare Pipeline, die entweder ein feingetuntes Seq2Seq-Language-Model oder einen regelbasierten Fallback nutzt.
  • Ein braski-translator CLI, das Text via Argument, Datei oder STDIN verarbeitet.
  • Tests & Beispieldaten, damit das Repository auf GitHub sofort nutzbar ist.

🚀 Installation (Entwicklungsmodus)

python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade pip
pip install -e .

CLI verwenden

Regelbasiert (kein Modell notwendig): (nicht empfohlen)

braski-translator --text "Hallo Freund, alles cool?"

Mit Seq2Seq-Modell (z.B. via scripts/train.py erzeugt oder from Hugging Face Hub):

braski-translator --model your-org/braski-llm --text "Kannst du mir helfen?"

Eingaben aus Datei oder Pipe:

z
braski-translator --model your-org/braski-llm --file samples.txt

echo "Was geht heute?" | braski-translator --model your-org/braski-llm

Config speichern & laden:

braski-translator --model your-org/braski-llm --save-config configs/run.yaml
braski-translator --config configs/run.yaml --text "Ich brauch Internet!"

Eigenes Modell trainieren

  1. Bereite ein Parallelkorpus vor (Spalten source, target), Beispiel in data/examples/train.jsonl.
  2. Starte das Trainingsskript:
python scripts/train.py \
  --model google/flan-t5-small \
  --train-file data/parallel/train.jsonl \
  --instruction-prefix "translate German to Braski:" \
  --epochs 6 \
  --batch-size 4 \
  --lr 2e-4 \
  --output checkpoints/braski-flan-t5
  1. (Optional) Lege data/parallel/val.jsonl mit 10–20 % deiner Paare an und ergänze den obigen Befehl um --val-file data/parallel/val.jsonl.
  2. Veröffentliche das Resultat auf dem Hugging Face Hub oder speichere es via Git LFS.
  3. Nutze das trainierte Modell anschließend im CLI:
braski-translator --model checkpoints/braski-flan-t5 --text "Vodafone spinnt schon wieder."
braski-translator --model checkpoints/braski-flan-t5 --no-sample --num-beams 4 --text "Kannst du mir helfen?"

Ordnerstruktur

  • src/braski_translator/: Pipeline, CLI & Regeln
  • scripts/train.py: Fine-Tuning per Transformers
  • data/examples/: Kleine Dummy-Datensätze als Vorlage
  • tests/: Pytest-Suite (CLI & Regeln)

Entwicklung & Tests

pytest

Hinweis zu Trainingsdaten

Der Ordner data/examples/ enthält synthetische Beispiele, die den Stil nachbilden. Für ein wirklich brauchbares LLM solltest du eigene Parallelpaare (Standarddeutsch → Braski) aus realen Transkripten erstellen und das Trainingsskript mit einem größeren Datensatz füttern.

Lizenz

MIT – frei für öffentliche GitHub-Repositories. Achte bei deinem Trainingsdatensatz auf die entsprechenden Rechte.

About

Werkzeugkasten zum Übersetzen von deutschem Klartext in Braski-/Tweaker-Slang

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages