コンテンツにスキップ

音声生成 (TTS)

字幕ファイル(タイミング付き)または任意のテキストを MP3 / WAV オーディオに合成します。5 つの TTS バックエンド:Edge TTS(無料)、 ElevenLabs(高品質)、Google Cloud TTS、Gemini TTS(無料層)、 そして Piper TTS(オフライン)。

必要なもの

  • PATHFFmpegFFmpeg セットアップを参照。
  • TTS バックエンド、以下のいずれか:
    • Edge TTS — 無料、キーなし、デフォルト。Microsoft Edge の クラウド音声を使用。
    • ElevenLabs — 有料、最高品質。ElevenLabs セットアップを参照。
    • Google Cloud TTS — 有料、非常に良い。Google Cloud セットアップを参照。
    • Gemini TTS — 無料層、自然なプリビルト音声。LLM タブから 既存の Gemini API キーを再利用 — 追加セットアップ不要。
    • Piper TTS — 完全オフライン ニューラル TTS。API キーなし、 ネットワーク呼び出しなし — 音声は 設定 → 音声 → Piper TTS → 今すぐ音声をダウンロード から一度ダウンロードされる ~25–60 MB ONNX ファイル。アプリの 45 言語のうち 32 が今日 Piper 音声を持っています。Piper カバレッジのない言語は合成時 に静かに Edge TTS にフォールバックします。

ステップバイステップ

  1. サイドバーの音声生成をクリック。
  2. 1 つ以上の .srt / .vtt / .ass / .ssa 字幕ファイルをドロップ。
  3. 言語を選択(可能な場合は字幕ファイル名から自動検出 — 例: _translated_en_ja.srt は日本語として検出)。
  4. 音声の性別を選択 — 女性 または 男性
  5. 出力形式を選択 — .mp3(デフォルト)または .wav
  6. 生成をクリック(または Ctrl+Enter)。
  7. 完了したら行の開く — デフォルトのオーディオアプリで再生。

出力

各字幕のタイムスタンプに音声トラックが配置された単一のオーディオ ファイルが得られます。無音のギャップがキュー間の時間を埋めて、 オーディオは元のタイミングと同期したままになります。

TTS バックエンドの選択

バックエンド コスト 音声 メモ
Edge TTS 無料 数百、すべての主要言語 デフォルト。セットアップなし。
ElevenLabs 有料(約 $5/月入門層) プレミアム ニューラル音声、音声クローン 最高品質。音声 ID は 設定 → サービスで設定。
Google Cloud TTS 有料(約 $4/M 文字;月に 1 M 無料) 50 以上の言語の WaveNet / Studio 音声 ヨーロッパ言語向けの強力な WaveNet 音声。デフォルトでは、サーバーは言語 + 性別に基づいて音声を選択します。
Gemini TTS 無料層(Developer API クォータが適用) 24 以上の言語の自然なプリビルト音声 — Kore(女性デフォルト)/ Puck(男性デフォルト) LLM タブから Gemini API キーを再利用。1 回の呼び出しの出力は約 30 秒に上限;長いテキストは文の境界で自動的にチャンク化。
Piper TTS 無料、オフライン アプリの 45 言語のうち 32 のニューラル音声 キーなし、ネットワークなし。言語ごとの音声は 設定 → 音声 → Piper TTS → 今すぐ音声をダウンロード からオンデマンドでダウンロード(それぞれ約 25–60 MB)。プリフライトは作業が始まる前に欠落音声をキャッチします。

設定 → 音声 → TTS メソッド で切り替え。

Piper TTS の特殊性

Piper はアプリで唯一の完全オフライン TTS バックエンドです。知って おくべきいくつかのこと:

  • 音声ライブラリダイアログ設定 → 音声 → Piper TTS → 今す ぐ音声をダウンロードから開く。各言語行に 女性音声 および / または 男性音声 ダウンロードボタンが表示されます(一部の言語は 単一性別)。音声は rhasspy/piper-voices HuggingFace カタログから来ます。
  • カバレッジ — アプリの 45 言語のうち 32 が Piper 音声を持って います。カバレッジのない 13(ベラルーシ語、ベンガル語、中国語 (繁体字)、クロアチア語、エストニア語、ヘブライ語、日本語、 クメール語、韓国語、リトアニア語、マレー語、モンゴル語、タイ語) は合成時に静かに Edge TTS にフォールバックするので、合成は欠落 音声でハードに失敗することはありません。
  • 性別解決女性 を選択すると、エンジンはまずその言語の女性 音声を試みます。男性音声しか存在しない場合、代わりにそれを使用 します(およびその逆)。INFO レベルでログ。
  • プリフライトゲート — 音声実行が始まる前に、ページは言語ごと の Piper 音声がディスクにあることをチェックします。欠落している 場合、キューを失わずにダウンロードできるよう音声ライブラリに 直接連れて行く 設定を開く ボタン付きのモーダルダイアログを 得ます。

Gemini TTS の特殊性

Gemini TTS は Developer API 経由で gemini-2.5-flash-preview-tts を 使用します。知っておくべきいくつかのこと:

  • 音声選択は今日性別による — 女性は Kore にマップ、男性は Puck に。両方とも、言語間でキャラクター的になりすぎることなく 動作する明確で中立的な音声です。
  • 出力長キャップ — 各 Gemini API 呼び出しは最大約 30 秒のスピー チを返します。アプリは入力テキストを文の境界で _GEMINI_TTS_MAX_BYTES(~2000 バイト ≈ 30 秒)未満にチャンク化 し、次に FFmpeg 経由でチャンクを連結します。通常の字幕テキスト でトランケーションに遭遇することはありません。
  • オーディオ形式 — Gemini は 24 kHz モノ s16le の生 PCM を 発行します。アプリは選択した出力形式と最終ファイルが一致する ように、チャンクごとに MP3(または選択した場合は WAV)に トランスコードします。
  • Vertex AI はまだ TTS でサポートされていません — LLM タブが Vertex 用に構成されていても、Gemini TTS はまだ Developer API キーが必要です。欠落している場合、アプリは事前に AUTH_ERROR を 発生させます。

ElevenLabs モデル

3 つのモデルが公開されています:

モデル レイテンシ 品質 使用目的
eleven_multilingual_v2(デフォルト) 一般 TTS
eleven_v3 最高 スタジオ / プロダクション
eleven_flash_v2_5 リアルタイム / Live モード

設定 → 音声 → ElevenLabs モデル で構成。

ヒント

再生成

行を右クリック → 再生成 で翻訳を再実行することなく音声 の性別 / TTS メソッド / 形式を入れ替えます。

プリフライトチェック

ページは開始前に ElevenLabs API キー(選択時)と FFmpeg の利用 可能性を検証します。何かが欠落していると、フレンドリーな ダイアログが表示されます。

Stop はアトミック

合成中に Stop を押すと、出力ディレクトリに半分書かれた MP3 を得ません — ファイルはまず一時的な場所に書き込まれ、成功時の みその位置に移動されます。

ショートカット

ショートカット アクション
Ctrl+Enter 生成
Ctrl+O 参照
Ctrl+F 履歴検索にフォーカス