ข้ามไปที่เนื้อหา

สร้างเสียง (TTS)

สังเคราะห์ไฟล์คำบรรยาย (พร้อมจังหวะเวลา) หรือข้อความใดๆ เป็นเสียง MP3 / WAV ห้า backends TTS: Edge TTS (ฟรี), ElevenLabs (คุณภาพสูง), Google Cloud TTS, Gemini TTS (tier ฟรี) และ Piper TTS (ออฟไลน์)

สิ่งที่คุณต้องการ

  • FFmpeg บน PATH — ดู การตั้งค่า FFmpeg
  • backend TTS, หนึ่งใน:
    • Edge TTS — ฟรี, ไม่มีคีย์, ค่าเริ่มต้น ใช้เสียง cloud ของ Microsoft Edge
    • ElevenLabs — เสียเงิน, คุณภาพสูงสุด ดู การตั้งค่า ElevenLabs
    • Google Cloud TTS — เสียเงิน, ดีมาก ดู การตั้งค่า Google Cloud
    • Gemini TTS — tier ฟรี, เสียง prebuilt ที่เป็นธรรมชาติ ใช้คีย์ Gemini API ที่มีอยู่จากแท็บ LLM ซ้ำ — ไม่ต้องตั้งค่า เพิ่ม
    • Piper TTS — TTS neural ออฟไลน์เต็มรูปแบบ ไม่มีคีย์ API, ไม่มีการเรียกเครือข่าย — เสียงเป็นไฟล์ ONNX ขนาด ~25–60 MB ดาวน์โหลดครั้งเดียวผ่าน Settings → Voice → Piper TTS → Download voices now 32 จาก 45 ภาษาของแอปมีเสียง Piper วันนี้; ภาษาที่ไม่มีความครอบคลุม Piper จะ fall back เงียบๆ ไปยัง Edge TTS ในเวลาสังเคราะห์

ทีละขั้นตอน

  1. คลิก สร้างเสียง ในแถบด้านข้าง
  2. drop ไฟล์คำบรรยาย .srt / .vtt / .ass / .ssa หนึ่งไฟล์ ขึ้นไป
  3. เลือก ภาษา (ตรวจจับอัตโนมัติจากชื่อไฟล์คำบรรยายเมื่อเป็นไป ได้ — เช่น _translated_en_fr.srt ตรวจจับเป็น French)
  4. เลือก เพศของเสียงFemale หรือ Male
  5. เลือก รูปแบบเอาต์พุต.mp3 (ค่าเริ่มต้น) หรือ .wav
  6. คลิก สร้าง (หรือ Ctrl+Enter)
  7. คลิก เปิด บนแถวเมื่อเสร็จ — มันเล่นในแอปเสียงค่าเริ่มต้น ของคุณ

เอาต์พุต

คุณจะได้รับไฟล์เสียงเดียวพร้อม voice tracks ที่วางไว้ที่ timestamp ของแต่ละคำบรรยาย ช่องว่างเงียบเติมเวลาระหว่าง cues เพื่อให้เสียง อยู่ในการซิงค์กับจังหวะเวลาเดิม

เลือก backend TTS

Backend ราคา เสียง หมายเหตุ
Edge TTS ฟรี หลายร้อย, ทุกภาษาหลัก ค่าเริ่มต้น ไม่ตั้งค่า
ElevenLabs เสียเงิน (~$5/เดือน entry tier) เสียง neural premium, การ clone เสียง คุณภาพสูงสุด ID เสียงตั้งใน Settings → Service
Google Cloud TTS เสียเงิน (~$4/M chars; 1 M ฟรี / เดือน) เสียง WaveNet / Studio ใน 50+ ภาษา เสียง WaveNet แข็งแกร่งสำหรับภาษายุโรป โดยค่าเริ่มต้น เซิร์ฟเวอร์เลือกเสียงตามภาษา + เพศ
Gemini TTS tier ฟรี (โควต้า Developer API ใช้) เสียง prebuilt ที่เป็นธรรมชาติใน 24+ ภาษา — Kore (Female default) / Puck (Male default) ใช้คีย์ Gemini API จากแท็บ LLM ซ้ำ เอาต์พุตต่อการเรียกจำกัดที่ ~30 วินาที; ข้อความยาวจะแบ่งที่ขอบประโยคโดยอัตโนมัติ
Piper TTS ฟรี, ออฟไลน์ เสียง neural ใน 32 จาก 45 ภาษาของแอป ไม่มีคีย์, ไม่มีเครือข่าย เสียงต่อภาษาดาวน์โหลดตามต้องการจาก Settings → Voice → Piper TTS → Download voices now (~25–60 MB ต่ออัน) Pre-flight จับเสียงที่หายไปก่อนเริ่มงาน

สลับใน Settings → Voice → TTS method

ความเฉพาะของ Piper TTS

Piper เป็น backend TTS ที่ออฟไลน์เต็มรูปแบบเพียงรายการเดียวในแอป สิ่งที่ควรรู้:

  • Voice library dialog — เปิดผ่าน Settings → Voice → Piper TTS → Download voices now แต่ละแถวภาษาแสดงปุ่มดาวน์โหลด Female voice และ / หรือ Male voice (บางภาษาเป็นเพศเดียว) เสียงมาจากแคตตาล็อก HuggingFace rhasspy/piper-voices
  • ความครอบคลุม — 32 จาก 45 ภาษาของแอปมีเสียง Piper 13 ที่ไม่มี ความครอบคลุม (เบลารุส, เบงกาลี, จีน (ดั้งเดิม), โครเอเชีย, เอสโตเนีย, ฮีบรู, ญี่ปุ่น, เขมร, เกาหลี, ลิทัวเนีย, มาเลย์, มองโกเลีย, ไทย) จะ fall back เงียบๆ ไปยัง Edge TTS ในเวลาสังเคราะห์ ดังนั้นการสังเคราะห์จึงไม่ล้มเหลวอย่างหนักเกี่ยวกับเสียงที่หายไป
  • การแก้ไขเพศ — เมื่อคุณเลือก Female เอนจินจะลองเสียงหญิง สำหรับภาษานั้นก่อน; หากมีเฉพาะเสียงชาย มันจะใช้แทน (และในทาง กลับกัน) บันทึกที่ระดับ INFO
  • Pre-flight gate — ก่อนเริ่มการรัน Voice หน้าตรวจสอบว่าเสียง Piper ต่อภาษาอยู่บนดิสก์ หากหายไป คุณจะได้รับ modal dialog พร้อมปุ่ม Open Settings ที่นำคุณไปยังห้องสมุดเสียงโดยตรง เพื่อให้คุณดาวน์โหลดได้โดยไม่สูญเสียคิว

ความเฉพาะของ Gemini TTS

Gemini TTS ใช้ gemini-2.5-flash-preview-tts ผ่าน Developer API สิ่งที่ควรรู้:

  • การเลือกเสียง เป็นไปตามเพศวันนี้ — Female แมปกับ Kore, Male กับ Puck ทั้งสองเป็นเสียงที่ชัดเจน เป็นกลางที่ทำงานได้ ในทุกภาษาโดยไม่ฟังดูเป็นตัวละครมากเกินไป
  • ขีดจำกัดความยาวเอาต์พุต — การเรียก Gemini API แต่ละครั้ง ส่งคืนสูงสุด ~30 วินาทีของคำพูด แอปแบ่งข้อความอินพุตต่ำกว่า _GEMINI_TTS_MAX_BYTES (~2000 ไบต์ ≈ 30 วินาที) ที่ขอบประโยค จากนั้นเชื่อมต่อชิ้นส่วนผ่าน FFmpeg คุณจะไม่พบการตัดทอนใน ข้อความคำบรรยายปกติ
  • รูปแบบเสียง — Gemini ส่งเสียง PCM ดิบที่ 24 kHz mono s16le; แอปทรานสโค้ดต่อ chunk เป็น MP3 (หรือ WAV ถ้าคุณเลือก) เพื่อให้ ไฟล์สุดท้ายตรงกับรูปแบบเอาต์พุตที่คุณเลือก
  • Vertex AI ยังไม่รองรับสำหรับ TTS — แม้ว่าแท็บ LLM ของคุณ จะกำหนดค่าสำหรับ Vertex Gemini TTS ยังคงต้องการคีย์ Developer API แอปเพิ่ม AUTH_ERROR ล่วงหน้าหากหายไป

โมเดล ElevenLabs

สามโมเดลถูกเปิดเผย:

โมเดล Latency คุณภาพ ใช้สำหรับ
eleven_multilingual_v2 (ค่าเริ่มต้น) ปานกลาง สูง TTS ทั่วไป
eleven_v3 ปานกลาง สูงสุด สตูดิโอ / การผลิต
eleven_flash_v2_5 ต่ำ ดี เรียลไทม์ / โหมด Live

กำหนดค่าใน Settings → Voice → ElevenLabs model

เคล็ดลับ

Re-generate

คลิกขวาแถว → Re-generate เพื่อสลับเพศของเสียง / วิธี TTS / รูปแบบโดยไม่ต้องรันการแปลใหม่

Pre-flight checks

หน้าตรวจสอบคีย์ ElevenLabs API (เมื่อเลือก) และความพร้อมของ FFmpeg ก่อนเริ่ม คุณจะเห็น dialog ที่เป็นมิตรหากมีอะไรหายไป

Stop เป็นแบบ atomic

กด Stop ระหว่างการสังเคราะห์ และคุณจะไม่ได้รับ MP3 ที่ เขียนครึ่งทางในไดเร็กทอรีเอาต์พุต — ไฟล์ถูกเขียนไปยังตำแหน่ง ชั่วคราวก่อน จากนั้นย้ายเข้าที่เฉพาะเมื่อสำเร็จ

ทางลัด

ทางลัด การกระทำ
Ctrl+Enter สร้าง
Ctrl+O เรียกดู
Ctrl+F โฟกัสค้นหาประวัติ