Werkzeugkasten zum Übersetzen von deutschem Klartext in Braski-/Tweaker-Slang. Das Projekt liefert:
- Eine modulare Pipeline, die entweder ein feingetuntes Seq2Seq-Language-Model oder einen regelbasierten Fallback nutzt.
- Ein
braski-translatorCLI, das Text via Argument, Datei oder STDIN verarbeitet. - Tests & Beispieldaten, damit das Repository auf GitHub sofort nutzbar ist.
python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade pip
pip install -e .Regelbasiert (kein Modell notwendig): (nicht empfohlen)
braski-translator --text "Hallo Freund, alles cool?"Mit Seq2Seq-Modell (z.B. via scripts/train.py erzeugt oder from Hugging Face Hub):
braski-translator --model your-org/braski-llm --text "Kannst du mir helfen?"Eingaben aus Datei oder Pipe:
z
braski-translator --model your-org/braski-llm --file samples.txt
echo "Was geht heute?" | braski-translator --model your-org/braski-llmConfig speichern & laden:
braski-translator --model your-org/braski-llm --save-config configs/run.yaml
braski-translator --config configs/run.yaml --text "Ich brauch Internet!"- Bereite ein Parallelkorpus vor (Spalten
source,target), Beispiel indata/examples/train.jsonl. - Starte das Trainingsskript:
python scripts/train.py \
--model google/flan-t5-small \
--train-file data/parallel/train.jsonl \
--instruction-prefix "translate German to Braski:" \
--epochs 6 \
--batch-size 4 \
--lr 2e-4 \
--output checkpoints/braski-flan-t5- (Optional) Lege
data/parallel/val.jsonlmit 10–20 % deiner Paare an und ergänze den obigen Befehl um--val-file data/parallel/val.jsonl. - Veröffentliche das Resultat auf dem Hugging Face Hub oder speichere es via Git LFS.
- Nutze das trainierte Modell anschließend im CLI:
braski-translator --model checkpoints/braski-flan-t5 --text "Vodafone spinnt schon wieder."
braski-translator --model checkpoints/braski-flan-t5 --no-sample --num-beams 4 --text "Kannst du mir helfen?"src/braski_translator/: Pipeline, CLI & Regelnscripts/train.py: Fine-Tuning per Transformersdata/examples/: Kleine Dummy-Datensätze als Vorlagetests/: Pytest-Suite (CLI & Regeln)
pytestDer Ordner data/examples/ enthält synthetische Beispiele, die den Stil nachbilden. Für ein wirklich brauchbares LLM solltest du eigene Parallelpaare (Standarddeutsch → Braski) aus realen Transkripten erstellen und das Trainingsskript mit einem größeren Datensatz füttern.
MIT – frei für öffentliche GitHub-Repositories. Achte bei deinem Trainingsdatensatz auf die entsprechenden Rechte.