Skip to content

Latest commit

 

History

History
218 lines (135 loc) · 12.7 KB

File metadata and controls

218 lines (135 loc) · 12.7 KB
KrillinAI

Minimalistisches KI-Videoübersetzungs- und Synchronisationstool

KrillinAI%2FKrillinAI | Trendshift

English简体中文日本語한국어Tiếng ViệtFrançaisDeutschEspañolPortuguêsРусскийاللغة العربية

Twitter QQ 群 Bilibili Ask DeepWiki

Schnellstart

KrillinAI ist eine vielseitige Lösung zur Lokalisierung und Verbesserung von Audio und Video, die von Krillin AI entwickelt wurde. Dieses minimalistische, aber leistungsstarke Tool integriert Videoübersetzung, Synchronisation und Sprachklonierung und unterstützt sowohl Quer- als auch Hochformat, um eine perfekte Präsentation auf allen wichtigen Plattformen (Bilibili, Xiaohongshu, Douyin, WeChat Video, Kuaishou, YouTube, TikTok usw.) zu gewährleisten. Mit einem End-to-End-Workflow können Sie Rohmaterialien mit nur wenigen Klicks in wunderschön bereitgestellte plattformübergreifende Inhalte verwandeln.

Hauptmerkmale und Funktionen:

🎯 Ein-Klick-Start: Keine komplexe Umgebungs-Konfiguration erforderlich, automatische Abhängigkeitsinstallation, sofort einsatzbereit, mit einer neuen Desktop-Version für einfacheren Zugriff!

📥 Videoerfassung: Unterstützt yt-dlp-Downloads oder lokale Datei-Uploads

📜 Genauigkeit der Erkennung: Hochgenaue Spracherkennung basierend auf Whisper

🧠 Intelligente Segmentierung: Untertitel-Segmentierung und -Ausrichtung mit LLM

🔄 Terminologieersetzung: Ein-Klick-Ersetzung von Fachvokabular

🌍 Professionelle Übersetzung: LLM-Übersetzung mit Kontext zur Beibehaltung natürlicher Semantik

🎙️ Sprachklonierung: Bietet ausgewählte Sprachstimmen von CosyVoice oder benutzerdefinierte Sprachklonierung

🎬 Videokomposition: Automatische Verarbeitung von Quer- und Hochformatvideos sowie Untertitel-Layout

💻 Plattformübergreifend: Unterstützt Windows, Linux, macOS und bietet sowohl Desktop- als auch Serverversionen

Effekt-Demonstration

Das Bild unten zeigt den Effekt der Untertiteldatei, die nach dem Import eines 46-minütigen lokalen Videos und der Ausführung mit einem Klick ohne manuelle Anpassungen generiert wurde. Es gibt keine Auslassungen oder Überlappungen, die Segmentierung ist natürlich und die Übersetzungsqualität ist sehr hoch. Ausrichtungseffekt

Untertitelübersetzung


subtitle_translation.mp4

Synchronisation


tts.mp4

Hochformatmodus


agi.mp4

🔍 Unterstützte Spracherkennungsdienste

Alle lokalen Modelle in der folgenden Tabelle unterstützen die automatische Installation von ausführbaren Dateien + Modell-Dateien; Sie müssen nur auswählen, und Klic wird alles für Sie vorbereiten.

Dienstquelle Unterstützte Plattformen Modelloptionen Lokal/Cloud Anmerkungen
OpenAI Whisper Alle Plattformen - Cloud Schnelle Geschwindigkeit und gute Wirkung
FasterWhisper Windows/Linux tiny/medium/large-v2 (empfohlen medium+) Lokal Schnellere Geschwindigkeit, keine Kosten für Cloud-Dienste
WhisperKit macOS (nur M-Serie) large-v2 Lokal Native Optimierung für Apple-Chips
WhisperCpp Alle Plattformen large-v2 Lokal Unterstützt alle Plattformen
Alibaba Cloud ASR Alle Plattformen - Cloud Vermeidet Netzwerkprobleme in Festland-China

🚀 Unterstützung für große Sprachmodelle

✅ Kompatibel mit allen Cloud-/lokalen großen Sprachmodell-Diensten, die den OpenAI API-Spezifikationen entsprechen, einschließlich, aber nicht beschränkt auf:

  • OpenAI
  • Gemini
  • DeepSeek
  • Tongyi Qianwen
  • Lokal bereitgestellte Open-Source-Modelle
  • Andere API-Dienste, die mit dem OpenAI-Format kompatibel sind

🎤 TTS Text-to-Speech Unterstützung

  • Alibaba Cloud Voice Service
  • OpenAI TTS

Sprachunterstützung

Unterstützte Eingabesprachen: Chinesisch, Englisch, Japanisch, Deutsch, Türkisch, Koreanisch, Russisch, Malaiisch (kontinuierlich steigend)

Unterstützte Übersetzungssprachen: Englisch, Chinesisch, Russisch, Spanisch, Französisch und 101 andere Sprachen

Schnittstellenvorschau

Schnittstellenvorschau Schnittstellenvorschau

🚀 Schnellstart

Sie können Fragen auf dem Deepwiki von KrillinAI stellen. Es indiziert die Dateien im Repository, sodass Sie schnell Antworten finden können.

Grundlegende Schritte

Laden Sie zunächst die ausführbare Datei herunter, die mit Ihrem Gerätesystem von der Release übereinstimmt, und folgen Sie dann dem Tutorial unten, um zwischen der Desktop-Version oder der Nicht-Desktop-Version zu wählen. Platzieren Sie den Software-Download in einem leeren Ordner, da beim Ausführen einige Verzeichnisse generiert werden, und das Halten in einem leeren Ordner erleichtert die Verwaltung.

【Wenn es sich um die Desktop-Version handelt, d.h. die Release-Datei mit "desktop", siehe hier】 Die Desktop-Version wurde neu veröffentlicht, um die Probleme neuer Benutzer zu beheben, die Schwierigkeiten haben, Konfigurationsdateien korrekt zu bearbeiten, und es gibt einige Fehler, die kontinuierlich aktualisiert werden.

  1. Doppelklicken Sie auf die Datei, um sie zu verwenden (die Desktop-Version erfordert auch eine Konfiguration innerhalb der Software)

【Wenn es sich um die Nicht-Desktop-Version handelt, d.h. die Release-Datei ohne "desktop", siehe hier】 Die Nicht-Desktop-Version ist die ursprüngliche Version, die eine komplexere Konfiguration hat, aber in der Funktionalität stabil ist und sich für die Serverbereitstellung eignet, da sie eine Benutzeroberfläche im Webformat bietet.

  1. Erstellen Sie einen config-Ordner innerhalb des Ordners, und erstellen Sie dann eine config.toml-Datei im config-Ordner. Kopieren Sie den Inhalt der config-example.toml-Datei aus dem Quellcodeverzeichnis config in config.toml und fügen Sie Ihre Konfigurationsinformationen gemäß den Kommentaren ein.
  2. Doppelklicken Sie oder führen Sie die ausführbare Datei im Terminal aus, um den Dienst zu starten
  3. Öffnen Sie Ihren Browser und geben Sie http://127.0.0.1:8888 ein, um ihn zu verwenden (ersetzen Sie 8888 durch den Port, den Sie in der Konfigurationsdatei angegeben haben)

An: macOS-Benutzer

【Wenn es sich um die Desktop-Version handelt, d.h. die Release-Datei mit "desktop", siehe hier】 Aufgrund von Signierungsproblemen kann die Desktop-Version derzeit nicht durch Doppelklick ausgeführt oder über dmg installiert werden; Sie müssen die Anwendung manuell vertrauen. Die Methode ist wie folgt:

  1. Öffnen Sie das Terminal im Verzeichnis, in dem sich die ausführbare Datei (angenommen, der Dateiname ist KrillinAI_1.0.0_desktop_macOS_arm64) befindet
  2. Führen Sie die folgenden Befehle der Reihe nach aus:
sudo xattr -cr ./KrillinAI_1.0.0_desktop_macOS_arm64
sudo chmod +x ./KrillinAI_1.0.0_desktop_macOS_arm64 
./KrillinAI_1.0.0_desktop_macOS_arm64

【Wenn es sich um die Nicht-Desktop-Version handelt, d.h. die Release-Datei ohne "desktop", siehe hier】 Diese Software ist nicht signiert, daher müssen Sie beim Ausführen auf macOS nach Abschluss der Datei-Konfiguration in den "Grundlegenden Schritten" auch der Anwendung manuell vertrauen. Die Methode ist wie folgt:

  1. Öffnen Sie das Terminal im Verzeichnis, in dem sich die ausführbare Datei (angenommen, der Dateiname ist KrillinAI_1.0.0_macOS_arm64) befindet

  2. Führen Sie die folgenden Befehle der Reihe nach aus:

    sudo xattr -rd com.apple.quarantine ./KrillinAI_1.0.0_macOS_arm64
    sudo chmod +x ./KrillinAI_1.0.0_macOS_arm64
    ./KrillinAI_1.0.0_macOS_arm64
    

    Dies wird den Dienst starten

Docker-Bereitstellung

Dieses Projekt unterstützt die Docker-Bereitstellung; bitte beziehen Sie sich auf die Docker-Bereitstellungsanweisungen

Basierend auf der bereitgestellten Konfigurationsdatei finden Sie hier den aktualisierten Abschnitt "Konfigurationshilfe (Unbedingt lesen)" für Ihre README-Datei:

Konfigurationshilfe (Unbedingt lesen)

Die Konfigurationsdatei ist in mehrere Abschnitte unterteilt: [app], [server], [llm], [transcribe] und [tts]. Eine Aufgabe besteht aus Spracherkennung (transcribe) + Übersetzung durch ein großes Modell (llm) + optionale Sprachdienste (tts). Dies zu verstehen, wird Ihnen helfen, die Konfigurationsdatei besser zu erfassen.

Einfachste und schnellste Konfiguration:

Nur für Untertitelübersetzung:

  • Setzen Sie im Abschnitt [transcribe] provider.name auf openai.
  • Sie müssen dann nur noch Ihren OpenAI-API-Schlüssel im Block [llm] ausfüllen, um mit der Untertitelübersetzung zu beginnen. app.proxy, model und openai.base_url können nach Bedarf ausgefüllt werden.

Ausgewogenes Kosten-, Geschwindigkeits- und Qualitätsverhältnis (Verwendung der lokalen Spracherkennung):

  • Setzen Sie im Abschnitt [transcribe] provider.name auf fasterwhisper.
  • Setzen Sie transcribe.fasterwhisper.model auf large-v2.
  • Füllen Sie Ihre Konfiguration für das große Sprachmodell im Block [llm] aus.
  • Das erforderliche lokale Modell wird automatisch heruntergeladen und installiert.

Text-to-Speech (TTS) Konfiguration (Optional):

  • Die TTS-Konfiguration ist optional.
  • Setzen Sie zunächst den provider.name im Abschnitt [tts] (z.B. aliyun oder openai).
  • Füllen Sie dann den entsprechenden Konfigurationsblock für den ausgewählten Anbieter aus. Wenn Sie beispielsweise aliyun wählen, müssen Sie den Abschnitt [tts.aliyun] ausfüllen.
  • Sprachcodes in der Benutzeroberfläche sollten basierend auf der Dokumentation des ausgewählten Anbieters ausgewählt werden.
  • Hinweis: Wenn Sie die Sprachklonierungsfunktion verwenden möchten, müssen Sie aliyun als TTS-Anbieter auswählen.

Alibaba Cloud Konfiguration:

  • Für Details zum Erhalt des erforderlichen AccessKey, Bucket und AppKey für Alibaba Cloud-Dienste, siehe die Alibaba Cloud Konfigurationsanweisungen. Die wiederholten Felder für AccessKey usw. sind so gestaltet, dass eine klare Konfigurationsstruktur aufrechterhalten wird.

Häufig gestellte Fragen

Bitte besuchen Sie die Häufig gestellten Fragen

Beitragsrichtlinien

  1. Reichen Sie keine nutzlosen Dateien ein, wie .vscode, .idea usw.; verwenden Sie bitte .gitignore, um sie herauszufiltern.
  2. Reichen Sie keine config.toml ein; reichen Sie stattdessen config-example.toml ein.

Kontaktieren Sie uns

  1. Treten Sie unserer QQ-Gruppe für Fragen bei: 754069680
  2. Folgen Sie unseren Social-Media-Konten, Bilibili, wo wir täglich qualitativ hochwertige Inhalte im Bereich der KI-Technologie teilen.

Star-Historie

Star-Historien-Diagramm