ゆっくり(Aquestalk)とか古いボイスロイドとか、CoeFontとかCOEIROINKとかは口パク情報を取れない><! wav2labがあるけど、量が多いと大変であんまり現実的じゃない…。 音声認識エンジンを拡張して.lab形式で取得できるようにするのがいいかも。 候補: - Julius - wav2labは多分これ - 精度があんまり良くないっぽい - Vosk - 最近よく聞く - 日本語対応している - 音素情報が取れるforkがある - Whisper - これも最近よく聞く - そもそも音素情報取れるの?調べてない…