สร้างเสียง (TTS)¶
สังเคราะห์ไฟล์คำบรรยาย (พร้อมจังหวะเวลา) หรือข้อความใดๆ เป็นเสียง MP3 / WAV ห้า backends TTS: Edge TTS (ฟรี), ElevenLabs (คุณภาพสูง), Google Cloud TTS, Gemini TTS (tier ฟรี) และ Piper TTS (ออฟไลน์)
สิ่งที่คุณต้องการ¶
- FFmpeg บน
PATH— ดู การตั้งค่า FFmpeg - backend TTS, หนึ่งใน:
- Edge TTS — ฟรี, ไม่มีคีย์, ค่าเริ่มต้น ใช้เสียง cloud ของ Microsoft Edge
- ElevenLabs — เสียเงิน, คุณภาพสูงสุด ดู การตั้งค่า ElevenLabs
- Google Cloud TTS — เสียเงิน, ดีมาก ดู การตั้งค่า Google Cloud
- Gemini TTS — tier ฟรี, เสียง prebuilt ที่เป็นธรรมชาติ ใช้คีย์ Gemini API ที่มีอยู่จากแท็บ LLM ซ้ำ — ไม่ต้องตั้งค่า เพิ่ม
- Piper TTS — TTS neural ออฟไลน์เต็มรูปแบบ ไม่มีคีย์ API, ไม่มีการเรียกเครือข่าย — เสียงเป็นไฟล์ ONNX ขนาด ~25–60 MB ดาวน์โหลดครั้งเดียวผ่าน Settings → Voice → Piper TTS → Download voices now 32 จาก 45 ภาษาของแอปมีเสียง Piper วันนี้; ภาษาที่ไม่มีความครอบคลุม Piper จะ fall back เงียบๆ ไปยัง Edge TTS ในเวลาสังเคราะห์
ทีละขั้นตอน¶
- คลิก สร้างเสียง ในแถบด้านข้าง
- drop ไฟล์คำบรรยาย
.srt/.vtt/.ass/.ssaหนึ่งไฟล์ ขึ้นไป - เลือก ภาษา (ตรวจจับอัตโนมัติจากชื่อไฟล์คำบรรยายเมื่อเป็นไป
ได้ — เช่น
_translated_en_fr.srtตรวจจับเป็น French) - เลือก เพศของเสียง —
FemaleหรือMale - เลือก รูปแบบเอาต์พุต —
.mp3(ค่าเริ่มต้น) หรือ.wav - คลิก สร้าง (หรือ
Ctrl+Enter) - คลิก เปิด บนแถวเมื่อเสร็จ — มันเล่นในแอปเสียงค่าเริ่มต้น ของคุณ
เอาต์พุต¶
คุณจะได้รับไฟล์เสียงเดียวพร้อม voice tracks ที่วางไว้ที่ timestamp ของแต่ละคำบรรยาย ช่องว่างเงียบเติมเวลาระหว่าง cues เพื่อให้เสียง อยู่ในการซิงค์กับจังหวะเวลาเดิม
เลือก backend TTS¶
| Backend | ราคา | เสียง | หมายเหตุ |
|---|---|---|---|
| Edge TTS | ฟรี | หลายร้อย, ทุกภาษาหลัก | ค่าเริ่มต้น ไม่ตั้งค่า |
| ElevenLabs | เสียเงิน (~$5/เดือน entry tier) | เสียง neural premium, การ clone เสียง | คุณภาพสูงสุด ID เสียงตั้งใน Settings → Service |
| Google Cloud TTS | เสียเงิน (~$4/M chars; 1 M ฟรี / เดือน) | เสียง WaveNet / Studio ใน 50+ ภาษา | เสียง WaveNet แข็งแกร่งสำหรับภาษายุโรป โดยค่าเริ่มต้น เซิร์ฟเวอร์เลือกเสียงตามภาษา + เพศ |
| Gemini TTS | tier ฟรี (โควต้า Developer API ใช้) | เสียง prebuilt ที่เป็นธรรมชาติใน 24+ ภาษา — Kore (Female default) / Puck (Male default) |
ใช้คีย์ Gemini API จากแท็บ LLM ซ้ำ เอาต์พุตต่อการเรียกจำกัดที่ ~30 วินาที; ข้อความยาวจะแบ่งที่ขอบประโยคโดยอัตโนมัติ |
| Piper TTS | ฟรี, ออฟไลน์ | เสียง neural ใน 32 จาก 45 ภาษาของแอป | ไม่มีคีย์, ไม่มีเครือข่าย เสียงต่อภาษาดาวน์โหลดตามต้องการจาก Settings → Voice → Piper TTS → Download voices now (~25–60 MB ต่ออัน) Pre-flight จับเสียงที่หายไปก่อนเริ่มงาน |
สลับใน Settings → Voice → TTS method
ความเฉพาะของ Piper TTS¶
Piper เป็น backend TTS ที่ออฟไลน์เต็มรูปแบบเพียงรายการเดียวในแอป สิ่งที่ควรรู้:
- Voice library dialog — เปิดผ่าน Settings → Voice → Piper
TTS → Download voices now แต่ละแถวภาษาแสดงปุ่มดาวน์โหลด
Female voiceและ / หรือMale voice(บางภาษาเป็นเพศเดียว) เสียงมาจากแคตตาล็อก HuggingFace rhasspy/piper-voices - ความครอบคลุม — 32 จาก 45 ภาษาของแอปมีเสียง Piper 13 ที่ไม่มี ความครอบคลุม (เบลารุส, เบงกาลี, จีน (ดั้งเดิม), โครเอเชีย, เอสโตเนีย, ฮีบรู, ญี่ปุ่น, เขมร, เกาหลี, ลิทัวเนีย, มาเลย์, มองโกเลีย, ไทย) จะ fall back เงียบๆ ไปยัง Edge TTS ในเวลาสังเคราะห์ ดังนั้นการสังเคราะห์จึงไม่ล้มเหลวอย่างหนักเกี่ยวกับเสียงที่หายไป
- การแก้ไขเพศ — เมื่อคุณเลือก
Femaleเอนจินจะลองเสียงหญิง สำหรับภาษานั้นก่อน; หากมีเฉพาะเสียงชาย มันจะใช้แทน (และในทาง กลับกัน) บันทึกที่ระดับ INFO - Pre-flight gate — ก่อนเริ่มการรัน Voice หน้าตรวจสอบว่าเสียง Piper ต่อภาษาอยู่บนดิสก์ หากหายไป คุณจะได้รับ modal dialog พร้อมปุ่ม Open Settings ที่นำคุณไปยังห้องสมุดเสียงโดยตรง เพื่อให้คุณดาวน์โหลดได้โดยไม่สูญเสียคิว
ความเฉพาะของ Gemini TTS¶
Gemini TTS ใช้ gemini-2.5-flash-preview-tts ผ่าน Developer API
สิ่งที่ควรรู้:
- การเลือกเสียง เป็นไปตามเพศวันนี้ — Female แมปกับ
Kore, Male กับPuckทั้งสองเป็นเสียงที่ชัดเจน เป็นกลางที่ทำงานได้ ในทุกภาษาโดยไม่ฟังดูเป็นตัวละครมากเกินไป - ขีดจำกัดความยาวเอาต์พุต — การเรียก Gemini API แต่ละครั้ง
ส่งคืนสูงสุด ~30 วินาทีของคำพูด แอปแบ่งข้อความอินพุตต่ำกว่า
_GEMINI_TTS_MAX_BYTES(~2000 ไบต์ ≈ 30 วินาที) ที่ขอบประโยค จากนั้นเชื่อมต่อชิ้นส่วนผ่าน FFmpeg คุณจะไม่พบการตัดทอนใน ข้อความคำบรรยายปกติ - รูปแบบเสียง — Gemini ส่งเสียง PCM ดิบที่ 24 kHz mono s16le; แอปทรานสโค้ดต่อ chunk เป็น MP3 (หรือ WAV ถ้าคุณเลือก) เพื่อให้ ไฟล์สุดท้ายตรงกับรูปแบบเอาต์พุตที่คุณเลือก
- Vertex AI ยังไม่รองรับสำหรับ TTS — แม้ว่าแท็บ LLM ของคุณ
จะกำหนดค่าสำหรับ Vertex Gemini TTS ยังคงต้องการคีย์ Developer
API แอปเพิ่ม
AUTH_ERRORล่วงหน้าหากหายไป
โมเดล ElevenLabs¶
สามโมเดลถูกเปิดเผย:
| โมเดล | Latency | คุณภาพ | ใช้สำหรับ |
|---|---|---|---|
eleven_multilingual_v2 (ค่าเริ่มต้น) |
ปานกลาง | สูง | TTS ทั่วไป |
eleven_v3 |
ปานกลาง | สูงสุด | สตูดิโอ / การผลิต |
eleven_flash_v2_5 |
ต่ำ | ดี | เรียลไทม์ / โหมด Live |
กำหนดค่าใน Settings → Voice → ElevenLabs model
เคล็ดลับ¶
Re-generate
คลิกขวาแถว → Re-generate เพื่อสลับเพศของเสียง / วิธี TTS / รูปแบบโดยไม่ต้องรันการแปลใหม่
Pre-flight checks
หน้าตรวจสอบคีย์ ElevenLabs API (เมื่อเลือก) และความพร้อมของ FFmpeg ก่อนเริ่ม คุณจะเห็น dialog ที่เป็นมิตรหากมีอะไรหายไป
Stop เป็นแบบ atomic
กด Stop ระหว่างการสังเคราะห์ และคุณจะไม่ได้รับ MP3 ที่ เขียนครึ่งทางในไดเร็กทอรีเอาต์พุต — ไฟล์ถูกเขียนไปยังตำแหน่ง ชั่วคราวก่อน จากนั้นย้ายเข้าที่เฉพาะเมื่อสำเร็จ
ทางลัด¶
| ทางลัด | การกระทำ |
|---|---|
Ctrl+Enter |
สร้าง |
Ctrl+O |
เรียกดู |
Ctrl+F |
โฟกัสค้นหาประวัติ |