Braski Translator CLI

Werkzeugkasten zum Übersetzen von deutschem Klartext in Braski-/Tweaker-Slang. Das Projekt liefert:

Eine modulare Pipeline, die entweder ein feingetuntes Seq2Seq-Language-Model oder einen regelbasierten Fallback nutzt.
Ein braski-translator CLI, das Text via Argument, Datei oder STDIN verarbeitet.
Tests & Beispieldaten, damit das Repository auf GitHub sofort nutzbar ist.

🚀 Installation (Entwicklungsmodus)

python3 -m venv .venv
source .venv/bin/activate
pip install --upgrade pip
pip install -e .

CLI verwenden

Regelbasiert (kein Modell notwendig): (nicht empfohlen)

braski-translator --text "Hallo Freund, alles cool?"

Mit Seq2Seq-Modell (z.B. via scripts/train.py erzeugt oder from Hugging Face Hub):

braski-translator --model your-org/braski-llm --text "Kannst du mir helfen?"

Eingaben aus Datei oder Pipe:

z
braski-translator --model your-org/braski-llm --file samples.txt

echo "Was geht heute?" | braski-translator --model your-org/braski-llm

Config speichern & laden:

braski-translator --model your-org/braski-llm --save-config configs/run.yaml
braski-translator --config configs/run.yaml --text "Ich brauch Internet!"

Eigenes Modell trainieren

Bereite ein Parallelkorpus vor (Spalten source, target), Beispiel in data/examples/train.jsonl.
Starte das Trainingsskript:

python scripts/train.py \
  --model google/flan-t5-small \
  --train-file data/parallel/train.jsonl \
  --instruction-prefix "translate German to Braski:" \
  --epochs 6 \
  --batch-size 4 \
  --lr 2e-4 \
  --output checkpoints/braski-flan-t5

(Optional) Lege data/parallel/val.jsonl mit 10–20 % deiner Paare an und ergänze den obigen Befehl um --val-file data/parallel/val.jsonl.
Veröffentliche das Resultat auf dem Hugging Face Hub oder speichere es via Git LFS.
Nutze das trainierte Modell anschließend im CLI:

braski-translator --model checkpoints/braski-flan-t5 --text "Vodafone spinnt schon wieder."
braski-translator --model checkpoints/braski-flan-t5 --no-sample --num-beams 4 --text "Kannst du mir helfen?"

Ordnerstruktur

src/braski_translator/: Pipeline, CLI & Regeln
scripts/train.py: Fine-Tuning per Transformers
data/examples/: Kleine Dummy-Datensätze als Vorlage
tests/: Pytest-Suite (CLI & Regeln)

Entwicklung & Tests

pytest

Hinweis zu Trainingsdaten

Der Ordner data/examples/ enthält synthetische Beispiele, die den Stil nachbilden. Für ein wirklich brauchbares LLM solltest du eigene Parallelpaare (Standarddeutsch → Braski) aus realen Transkripten erstellen und das Trainingsskript mit einem größeren Datensatz füttern.

Lizenz

MIT – frei für öffentliche GitHub-Repositories. Achte bei deinem Trainingsdatensatz auf die entsprechenden Rechte.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
configs		configs
data		data
scripts		scripts
src/braski_translator		src/braski_translator
tests		tests
transcripts		transcripts
.gitignore		.gitignore
LICENSE		LICENSE
pyproject.toml		pyproject.toml
readme.md		readme.md
words.md		words.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Braski Translator CLI

🚀 Installation (Entwicklungsmodus)

CLI verwenden

Eigenes Modell trainieren

Ordnerstruktur

Entwicklung & Tests

Hinweis zu Trainingsdaten

Lizenz

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Braski Translator CLI

🚀 Installation (Entwicklungsmodus)

CLI verwenden

Eigenes Modell trainieren

Ordnerstruktur

Entwicklung & Tests

Hinweis zu Trainingsdaten

Lizenz

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages