สร้างเสียง (TTS)¶

สังเคราะห์ไฟล์คำบรรยาย (พร้อมจังหวะเวลา) หรือข้อความใดๆ เป็นเสียง MP3 / WAV ห้า backends TTS: Edge TTS (ฟรี), ElevenLabs (คุณภาพสูง), Google Cloud TTS, Gemini TTS (tier ฟรี) และ Piper TTS (ออฟไลน์)

สิ่งที่คุณต้องการ¶

FFmpeg บน PATH — ดู การตั้งค่า FFmpeg
backend TTS, หนึ่งใน:
- Edge TTS — ฟรี, ไม่มีคีย์, ค่าเริ่มต้น ใช้เสียง cloud ของ Microsoft Edge
- ElevenLabs — เสียเงิน, คุณภาพสูงสุด ดู การตั้งค่า ElevenLabs
- Google Cloud TTS — เสียเงิน, ดีมาก ดู การตั้งค่า Google Cloud
- Gemini TTS — tier ฟรี, เสียง prebuilt ที่เป็นธรรมชาติ ใช้คีย์ Gemini API ที่มีอยู่จากแท็บ LLM ซ้ำ — ไม่ต้องตั้งค่า เพิ่ม
- Piper TTS — TTS neural ออฟไลน์เต็มรูปแบบ ไม่มีคีย์ API, ไม่มีการเรียกเครือข่าย — เสียงเป็นไฟล์ ONNX ขนาด ~25–60 MB ดาวน์โหลดครั้งเดียวผ่าน Settings → Voice → Piper TTS → Download voices now 32 จาก 45 ภาษาของแอปมีเสียง Piper วันนี้; ภาษาที่ไม่มีความครอบคลุม Piper จะ fall back เงียบๆ ไปยัง Edge TTS ในเวลาสังเคราะห์

ทีละขั้นตอน¶

คลิก สร้างเสียง ในแถบด้านข้าง
drop ไฟล์คำบรรยาย .srt / .vtt / .ass / .ssa หนึ่งไฟล์ ขึ้นไป
เลือก ภาษา (ตรวจจับอัตโนมัติจากชื่อไฟล์คำบรรยายเมื่อเป็นไป ได้ — เช่น _translated_en_fr.srt ตรวจจับเป็น French)
เลือก เพศของเสียง — Female หรือ Male
เลือก รูปแบบเอาต์พุต — .mp3 (ค่าเริ่มต้น) หรือ .wav
คลิก สร้าง (หรือ Ctrl+Enter)
คลิก เปิด บนแถวเมื่อเสร็จ — มันเล่นในแอปเสียงค่าเริ่มต้น ของคุณ

เอาต์พุต¶

คุณจะได้รับไฟล์เสียงเดียวพร้อม voice tracks ที่วางไว้ที่ timestamp ของแต่ละคำบรรยาย ช่องว่างเงียบเติมเวลาระหว่าง cues เพื่อให้เสียง อยู่ในการซิงค์กับจังหวะเวลาเดิม

เลือก backend TTS¶

Backend	ราคา	เสียง	หมายเหตุ
Edge TTS	ฟรี	หลายร้อย, ทุกภาษาหลัก	ค่าเริ่มต้น ไม่ตั้งค่า
ElevenLabs	เสียเงิน (~$5/เดือน entry tier)	เสียง neural premium, การ clone เสียง	คุณภาพสูงสุด ID เสียงตั้งใน Settings → Service
Google Cloud TTS	เสียเงิน (~$4/M chars; 1 M ฟรี / เดือน)	เสียง WaveNet / Studio ใน 50+ ภาษา	เสียง WaveNet แข็งแกร่งสำหรับภาษายุโรป โดยค่าเริ่มต้น เซิร์ฟเวอร์เลือกเสียงตามภาษา + เพศ
Gemini TTS	tier ฟรี (โควต้า Developer API ใช้)	เสียง prebuilt ที่เป็นธรรมชาติใน 24+ ภาษา — `Kore` (Female default) / `Puck` (Male default)	ใช้คีย์ Gemini API จากแท็บ LLM ซ้ำ เอาต์พุตต่อการเรียกจำกัดที่ ~30 วินาที; ข้อความยาวจะแบ่งที่ขอบประโยคโดยอัตโนมัติ
Piper TTS	ฟรี, ออฟไลน์	เสียง neural ใน 32 จาก 45 ภาษาของแอป	ไม่มีคีย์, ไม่มีเครือข่าย เสียงต่อภาษาดาวน์โหลดตามต้องการจาก Settings → Voice → Piper TTS → Download voices now (~25–60 MB ต่ออัน) Pre-flight จับเสียงที่หายไปก่อนเริ่มงาน

สลับใน Settings → Voice → TTS method

ความเฉพาะของ Piper TTS¶

Piper เป็น backend TTS ที่ออฟไลน์เต็มรูปแบบเพียงรายการเดียวในแอป สิ่งที่ควรรู้:

Voice library dialog — เปิดผ่าน Settings → Voice → Piper TTS → Download voices now แต่ละแถวภาษาแสดงปุ่มดาวน์โหลด Female voice และ / หรือ Male voice (บางภาษาเป็นเพศเดียว) เสียงมาจากแคตตาล็อก HuggingFace rhasspy/piper-voices
ความครอบคลุม — 32 จาก 45 ภาษาของแอปมีเสียง Piper 13 ที่ไม่มี ความครอบคลุม (เบลารุส, เบงกาลี, จีน (ดั้งเดิม), โครเอเชีย, เอสโตเนีย, ฮีบรู, ญี่ปุ่น, เขมร, เกาหลี, ลิทัวเนีย, มาเลย์, มองโกเลีย, ไทย) จะ fall back เงียบๆ ไปยัง Edge TTS ในเวลาสังเคราะห์ ดังนั้นการสังเคราะห์จึงไม่ล้มเหลวอย่างหนักเกี่ยวกับเสียงที่หายไป
การแก้ไขเพศ — เมื่อคุณเลือก Female เอนจินจะลองเสียงหญิง สำหรับภาษานั้นก่อน; หากมีเฉพาะเสียงชาย มันจะใช้แทน (และในทาง กลับกัน) บันทึกที่ระดับ INFO
Pre-flight gate — ก่อนเริ่มการรัน Voice หน้าตรวจสอบว่าเสียง Piper ต่อภาษาอยู่บนดิสก์ หากหายไป คุณจะได้รับ modal dialog พร้อมปุ่ม Open Settings ที่นำคุณไปยังห้องสมุดเสียงโดยตรง เพื่อให้คุณดาวน์โหลดได้โดยไม่สูญเสียคิว

ความเฉพาะของ Gemini TTS¶

Gemini TTS ใช้ gemini-2.5-flash-preview-tts ผ่าน Developer API สิ่งที่ควรรู้:

การเลือกเสียง เป็นไปตามเพศวันนี้ — Female แมปกับ Kore, Male กับ Puck ทั้งสองเป็นเสียงที่ชัดเจน เป็นกลางที่ทำงานได้ ในทุกภาษาโดยไม่ฟังดูเป็นตัวละครมากเกินไป
ขีดจำกัดความยาวเอาต์พุต — การเรียก Gemini API แต่ละครั้ง ส่งคืนสูงสุด ~30 วินาทีของคำพูด แอปแบ่งข้อความอินพุตต่ำกว่า _GEMINI_TTS_MAX_BYTES (~2000 ไบต์ ≈ 30 วินาที) ที่ขอบประโยค จากนั้นเชื่อมต่อชิ้นส่วนผ่าน FFmpeg คุณจะไม่พบการตัดทอนใน ข้อความคำบรรยายปกติ
รูปแบบเสียง — Gemini ส่งเสียง PCM ดิบที่ 24 kHz mono s16le; แอปทรานสโค้ดต่อ chunk เป็น MP3 (หรือ WAV ถ้าคุณเลือก) เพื่อให้ ไฟล์สุดท้ายตรงกับรูปแบบเอาต์พุตที่คุณเลือก
Vertex AI ยังไม่รองรับสำหรับ TTS — แม้ว่าแท็บ LLM ของคุณ จะกำหนดค่าสำหรับ Vertex Gemini TTS ยังคงต้องการคีย์ Developer API แอปเพิ่ม AUTH_ERROR ล่วงหน้าหากหายไป

โมเดล ElevenLabs¶

สามโมเดลถูกเปิดเผย:

โมเดล	Latency	คุณภาพ	ใช้สำหรับ
`eleven_multilingual_v2` (ค่าเริ่มต้น)	ปานกลาง	สูง	TTS ทั่วไป
`eleven_v3`	ปานกลาง	สูงสุด	สตูดิโอ / การผลิต
`eleven_flash_v2_5`	ต่ำ	ดี	เรียลไทม์ / โหมด Live

กำหนดค่าใน Settings → Voice → ElevenLabs model

เคล็ดลับ¶

Re-generate

คลิกขวาแถว → Re-generate เพื่อสลับเพศของเสียง / วิธี TTS / รูปแบบโดยไม่ต้องรันการแปลใหม่

Pre-flight checks

หน้าตรวจสอบคีย์ ElevenLabs API (เมื่อเลือก) และความพร้อมของ FFmpeg ก่อนเริ่ม คุณจะเห็น dialog ที่เป็นมิตรหากมีอะไรหายไป

Stop เป็นแบบ atomic

กด Stop ระหว่างการสังเคราะห์ และคุณจะไม่ได้รับ MP3 ที่ เขียนครึ่งทางในไดเร็กทอรีเอาต์พุต — ไฟล์ถูกเขียนไปยังตำแหน่ง ชั่วคราวก่อน จากนั้นย้ายเข้าที่เฉพาะเมื่อสำเร็จ

ทางลัด¶

ทางลัด	การกระทำ
`Ctrl+Enter`	สร้าง
`Ctrl+O`	เรียกดู
`Ctrl+F`	โฟกัสค้นหาประวัติ