音声生成 (TTS)¶

字幕ファイル（タイミング付き）または任意のテキストを MP3 / WAV オーディオに合成します。5 つの TTS バックエンド：Edge TTS（無料）、 ElevenLabs（高品質）、Google Cloud TTS、Gemini TTS（無料層）、そして Piper TTS（オフライン）。

必要なもの¶

PATH に FFmpeg — FFmpeg セットアップを参照。
TTS バックエンド、以下のいずれか：
- Edge TTS — 無料、キーなし、デフォルト。Microsoft Edge のクラウド音声を使用。
- ElevenLabs — 有料、最高品質。ElevenLabs セットアップを参照。
- Google Cloud TTS — 有料、非常に良い。Google Cloud セットアップを参照。
- Gemini TTS — 無料層、自然なプリビルト音声。LLM タブから既存の Gemini API キーを再利用 — 追加セットアップ不要。
- Piper TTS — 完全オフラインニューラル TTS。API キーなし、ネットワーク呼び出しなし — 音声は 設定 → 音声 → Piper TTS → 今すぐ音声をダウンロード から一度ダウンロードされる ~25–60 MB ONNX ファイル。アプリの 45 言語のうち 32 が今日 Piper 音声を持っています。Piper カバレッジのない言語は合成時に静かに Edge TTS にフォールバックします。

ステップバイステップ¶

サイドバーの音声生成をクリック。
1 つ以上の .srt / .vtt / .ass / .ssa 字幕ファイルをドロップ。
言語を選択（可能な場合は字幕ファイル名から自動検出 — 例： _translated_en_ja.srt は日本語として検出）。
音声の性別を選択 — 女性 または 男性。
出力形式を選択 — .mp3（デフォルト）または .wav。
生成をクリック（または Ctrl+Enter）。
完了したら行の開く — デフォルトのオーディオアプリで再生。

出力¶

各字幕のタイムスタンプに音声トラックが配置された単一のオーディオファイルが得られます。無音のギャップがキュー間の時間を埋めて、オーディオは元のタイミングと同期したままになります。

TTS バックエンドの選択¶

バックエンド	コスト	音声	メモ
Edge TTS	無料	数百、すべての主要言語	デフォルト。セットアップなし。
ElevenLabs	有料（約 $5/月入門層）	プレミアムニューラル音声、音声クローン	最高品質。音声 ID は設定 → サービスで設定。
Google Cloud TTS	有料（約 $4/M 文字；月に 1 M 無料）	50 以上の言語の WaveNet / Studio 音声	ヨーロッパ言語向けの強力な WaveNet 音声。デフォルトでは、サーバーは言語 + 性別に基づいて音声を選択します。
Gemini TTS	無料層（Developer API クォータが適用）	24 以上の言語の自然なプリビルト音声 — `Kore`（女性デフォルト）/ `Puck`（男性デフォルト）	LLM タブから Gemini API キーを再利用。1 回の呼び出しの出力は約 30 秒に上限；長いテキストは文の境界で自動的にチャンク化。
Piper TTS	無料、オフライン	アプリの 45 言語のうち 32 のニューラル音声	キーなし、ネットワークなし。言語ごとの音声は設定 → 音声 → Piper TTS → 今すぐ音声をダウンロードからオンデマンドでダウンロード（それぞれ約 25–60 MB）。プリフライトは作業が始まる前に欠落音声をキャッチします。

設定 → 音声 → TTS メソッド で切り替え。

Piper TTS の特殊性¶

Piper はアプリで唯一の完全オフライン TTS バックエンドです。知っておくべきいくつかのこと：

音声ライブラリダイアログ — 設定 → 音声 → Piper TTS → 今すぐ音声をダウンロードから開く。各言語行に 女性音声 および / または 男性音声 ダウンロードボタンが表示されます（一部の言語は単一性別）。音声は rhasspy/piper-voices HuggingFace カタログから来ます。
カバレッジ — アプリの 45 言語のうち 32 が Piper 音声を持っています。カバレッジのない 13（ベラルーシ語、ベンガル語、中国語（繁体字）、クロアチア語、エストニア語、ヘブライ語、日本語、クメール語、韓国語、リトアニア語、マレー語、モンゴル語、タイ語）は合成時に静かに Edge TTS にフォールバックするので、合成は欠落音声でハードに失敗することはありません。
性別解決 — 女性 を選択すると、エンジンはまずその言語の女性音声を試みます。男性音声しか存在しない場合、代わりにそれを使用します（およびその逆）。INFO レベルでログ。
プリフライトゲート — 音声実行が始まる前に、ページは言語ごとの Piper 音声がディスクにあることをチェックします。欠落している場合、キューを失わずにダウンロードできるよう音声ライブラリに直接連れて行く 設定を開く ボタン付きのモーダルダイアログを得ます。

Gemini TTS の特殊性¶

Gemini TTS は Developer API 経由で gemini-2.5-flash-preview-tts を使用します。知っておくべきいくつかのこと：

音声選択は今日性別による — 女性は Kore にマップ、男性は Puck に。両方とも、言語間でキャラクター的になりすぎることなく動作する明確で中立的な音声です。
出力長キャップ — 各 Gemini API 呼び出しは最大約 30 秒のスピーチを返します。アプリは入力テキストを文の境界で _GEMINI_TTS_MAX_BYTES（~2000 バイト ≈ 30 秒）未満にチャンク化し、次に FFmpeg 経由でチャンクを連結します。通常の字幕テキストでトランケーションに遭遇することはありません。
オーディオ形式 — Gemini は 24 kHz モノ s16le の生 PCM を発行します。アプリは選択した出力形式と最終ファイルが一致するように、チャンクごとに MP3（または選択した場合は WAV）にトランスコードします。
Vertex AI はまだ TTS でサポートされていません — LLM タブが Vertex 用に構成されていても、Gemini TTS はまだ Developer API キーが必要です。欠落している場合、アプリは事前に AUTH_ERROR を発生させます。

ElevenLabs モデル¶

3 つのモデルが公開されています：

モデル	レイテンシ	品質	使用目的
`eleven_multilingual_v2`（デフォルト）	中	高	一般 TTS
`eleven_v3`	中	最高	スタジオ / プロダクション
`eleven_flash_v2_5`	低	良	リアルタイム / Live モード

設定 → 音声 → ElevenLabs モデル で構成。

ヒント¶

再生成

行を右クリック → 再生成 で翻訳を再実行することなく音声の性別 / TTS メソッド / 形式を入れ替えます。

プリフライトチェック

ページは開始前に ElevenLabs API キー（選択時）と FFmpeg の利用可能性を検証します。何かが欠落していると、フレンドリーなダイアログが表示されます。

Stop はアトミック

合成中に Stop を押すと、出力ディレクトリに半分書かれた MP3 を得ません — ファイルはまず一時的な場所に書き込まれ、成功時のみその位置に移動されます。

ショートカット¶

ショートカット	アクション
`Ctrl+Enter`	生成
`Ctrl+O`	参照
`Ctrl+F`	履歴検索にフォーカス