音声生成 (TTS)¶
字幕ファイル(タイミング付き)または任意のテキストを MP3 / WAV オーディオに合成します。5 つの TTS バックエンド:Edge TTS(無料)、 ElevenLabs(高品質)、Google Cloud TTS、Gemini TTS(無料層)、 そして Piper TTS(オフライン)。
必要なもの¶
PATHに FFmpeg — FFmpeg セットアップを参照。- TTS バックエンド、以下のいずれか:
- Edge TTS — 無料、キーなし、デフォルト。Microsoft Edge の クラウド音声を使用。
- ElevenLabs — 有料、最高品質。ElevenLabs セットアップを参照。
- Google Cloud TTS — 有料、非常に良い。Google Cloud セットアップを参照。
- Gemini TTS — 無料層、自然なプリビルト音声。LLM タブから 既存の Gemini API キーを再利用 — 追加セットアップ不要。
- Piper TTS — 完全オフライン ニューラル TTS。API キーなし、 ネットワーク呼び出しなし — 音声は 設定 → 音声 → Piper TTS → 今すぐ音声をダウンロード から一度ダウンロードされる ~25–60 MB ONNX ファイル。アプリの 45 言語のうち 32 が今日 Piper 音声を持っています。Piper カバレッジのない言語は合成時 に静かに Edge TTS にフォールバックします。
ステップバイステップ¶
- サイドバーの音声生成をクリック。
- 1 つ以上の
.srt/.vtt/.ass/.ssa字幕ファイルをドロップ。 - 言語を選択(可能な場合は字幕ファイル名から自動検出 — 例:
_translated_en_ja.srtは日本語として検出)。 - 音声の性別を選択 —
女性または男性。 - 出力形式を選択 —
.mp3(デフォルト)または.wav。 - 生成をクリック(または
Ctrl+Enter)。 - 完了したら行の開く — デフォルトのオーディオアプリで再生。
出力¶
各字幕のタイムスタンプに音声トラックが配置された単一のオーディオ ファイルが得られます。無音のギャップがキュー間の時間を埋めて、 オーディオは元のタイミングと同期したままになります。
TTS バックエンドの選択¶
| バックエンド | コスト | 音声 | メモ |
|---|---|---|---|
| Edge TTS | 無料 | 数百、すべての主要言語 | デフォルト。セットアップなし。 |
| ElevenLabs | 有料(約 $5/月入門層) | プレミアム ニューラル音声、音声クローン | 最高品質。音声 ID は 設定 → サービスで設定。 |
| Google Cloud TTS | 有料(約 $4/M 文字;月に 1 M 無料) | 50 以上の言語の WaveNet / Studio 音声 | ヨーロッパ言語向けの強力な WaveNet 音声。デフォルトでは、サーバーは言語 + 性別に基づいて音声を選択します。 |
| Gemini TTS | 無料層(Developer API クォータが適用) | 24 以上の言語の自然なプリビルト音声 — Kore(女性デフォルト)/ Puck(男性デフォルト) |
LLM タブから Gemini API キーを再利用。1 回の呼び出しの出力は約 30 秒に上限;長いテキストは文の境界で自動的にチャンク化。 |
| Piper TTS | 無料、オフライン | アプリの 45 言語のうち 32 のニューラル音声 | キーなし、ネットワークなし。言語ごとの音声は 設定 → 音声 → Piper TTS → 今すぐ音声をダウンロード からオンデマンドでダウンロード(それぞれ約 25–60 MB)。プリフライトは作業が始まる前に欠落音声をキャッチします。 |
設定 → 音声 → TTS メソッド で切り替え。
Piper TTS の特殊性¶
Piper はアプリで唯一の完全オフライン TTS バックエンドです。知って おくべきいくつかのこと:
- 音声ライブラリダイアログ — 設定 → 音声 → Piper TTS → 今す
ぐ音声をダウンロードから開く。各言語行に
女性音声および / または男性音声ダウンロードボタンが表示されます(一部の言語は 単一性別)。音声は rhasspy/piper-voices HuggingFace カタログから来ます。 - カバレッジ — アプリの 45 言語のうち 32 が Piper 音声を持って います。カバレッジのない 13(ベラルーシ語、ベンガル語、中国語 (繁体字)、クロアチア語、エストニア語、ヘブライ語、日本語、 クメール語、韓国語、リトアニア語、マレー語、モンゴル語、タイ語) は合成時に静かに Edge TTS にフォールバックするので、合成は欠落 音声でハードに失敗することはありません。
- 性別解決 —
女性を選択すると、エンジンはまずその言語の女性 音声を試みます。男性音声しか存在しない場合、代わりにそれを使用 します(およびその逆)。INFO レベルでログ。 - プリフライトゲート — 音声実行が始まる前に、ページは言語ごと の Piper 音声がディスクにあることをチェックします。欠落している 場合、キューを失わずにダウンロードできるよう音声ライブラリに 直接連れて行く 設定を開く ボタン付きのモーダルダイアログを 得ます。
Gemini TTS の特殊性¶
Gemini TTS は Developer API 経由で gemini-2.5-flash-preview-tts を
使用します。知っておくべきいくつかのこと:
- 音声選択は今日性別による — 女性は
Koreにマップ、男性はPuckに。両方とも、言語間でキャラクター的になりすぎることなく 動作する明確で中立的な音声です。 - 出力長キャップ — 各 Gemini API 呼び出しは最大約 30 秒のスピー
チを返します。アプリは入力テキストを文の境界で
_GEMINI_TTS_MAX_BYTES(~2000 バイト ≈ 30 秒)未満にチャンク化 し、次に FFmpeg 経由でチャンクを連結します。通常の字幕テキスト でトランケーションに遭遇することはありません。 - オーディオ形式 — Gemini は 24 kHz モノ s16le の生 PCM を 発行します。アプリは選択した出力形式と最終ファイルが一致する ように、チャンクごとに MP3(または選択した場合は WAV)に トランスコードします。
- Vertex AI はまだ TTS でサポートされていません — LLM タブが
Vertex 用に構成されていても、Gemini TTS はまだ Developer API
キーが必要です。欠落している場合、アプリは事前に
AUTH_ERRORを 発生させます。
ElevenLabs モデル¶
3 つのモデルが公開されています:
| モデル | レイテンシ | 品質 | 使用目的 |
|---|---|---|---|
eleven_multilingual_v2(デフォルト) |
中 | 高 | 一般 TTS |
eleven_v3 |
中 | 最高 | スタジオ / プロダクション |
eleven_flash_v2_5 |
低 | 良 | リアルタイム / Live モード |
設定 → 音声 → ElevenLabs モデル で構成。
ヒント¶
再生成
行を右クリック → 再生成 で翻訳を再実行することなく音声 の性別 / TTS メソッド / 形式を入れ替えます。
プリフライトチェック
ページは開始前に ElevenLabs API キー(選択時)と FFmpeg の利用 可能性を検証します。何かが欠落していると、フレンドリーな ダイアログが表示されます。
Stop はアトミック
合成中に Stop を押すと、出力ディレクトリに半分書かれた MP3 を得ません — ファイルはまず一時的な場所に書き込まれ、成功時の みその位置に移動されます。
ショートカット¶
| ショートカット | アクション |
|---|---|
Ctrl+Enter |
生成 |
Ctrl+O |
参照 |
Ctrl+F |
履歴検索にフォーカス |