การแปลสด¶
คำบรรยายและการแปลแบบเรียลไทม์จากไมโครโฟน, เสียงระบบ, หรือทั้งสอง — พร้อมหน้าต่าง overlay always-on-top ที่เป็นทางเลือกเพื่อให้คำ บรรยายอยู่บนสิ่งที่คุณกำลังดูอยู่
คุณสามารถทำอะไรได้บ้าง¶
- คำบรรยายการประชุมสด — ใส่คำบรรยายให้สาย Zoom / Meet / Teams ในภาษาอื่นโดยไม่ต้องเข้าร่วมเป็น bot ผู้แปล
- เรียนภาษาแบบเรียลไทม์ — ใส่คำบรรยายเนื้อหาภาษาต่างประเทศ (ภาพยนตร์, podcasts, การบรรยาย) ด้วยภาษาแม่ของคุณเป็น track การ แปล
- คำบรรยายระดับระบบ — จับเสียงระบบเพื่อให้คุณสามารถใส่คำบรรยาย YouTube / Netflix / อะไรก็ตามที่เล่นบนลำโพงของคุณ
สิ่งที่คุณต้องการ¶
- FFmpeg บน
PATH— ดู การตั้งค่า FFmpeg -
backend STT, หนึ่งใน:
- faster-whisper — ในเครื่อง, ออฟไลน์, ฟรี, ค่าเริ่มต้น
- Soniox — คลาวด์, เสียเงิน, การแยกผู้พูดแบบเรียลไทม์ ดู การตั้งค่า Soniox
-
สำหรับ การจับเสียงระบบ backend ที่ถูกต้องต่อ OS จะถูกเลือก อัตโนมัติ: Linux ใช้
parec(PulseAudio / PipeWire), Windows ใช้ WASAPI loopback แบบ native (ไม่มีซอฟต์แวร์เพิ่มเติมในกรณีส่วน ใหญ่), macOS ใช้ffmpeg -f avfoundationกับอุปกรณ์ loopback เสมือน (BlackHole / Loopback / ฯลฯ) แบนเนอร์เตือนแบบ inline พร้อมลิงก์ติดตั้งที่คลิกได้จะปรากฏหากมีอะไรหายไป ดู Setup → System audio สำหรับคำแนะนำ การติดตั้งครบถ้วนต่อ OS
ทีละขั้นตอน¶
- คลิก การแปลสด ในแถบด้านข้าง
-
กำหนดค่าครั้งเดียวใน Settings → Live:
- ภาษาต้นทาง (ภาษาที่พูด)
- ภาษาเป้าหมาย (หรือปล่อยว่างสำหรับการถอดเสียงเท่านั้น)
- แหล่งเสียง: ไมโครโฟน / เสียงระบบ / ทั้งสอง
- วิธี STT: Whisper / Soniox
-
กลับมาที่หน้า Live คลิก เริ่ม (
Ctrl+Enter) - การถอดเสียงจะเติมแผงหลักทีละการ์ด หน้าต่าง Overlay ลอยจะ แสดงคำบรรยายด้วย (ลากไปที่ใดก็ได้ที่คุณต้องการ)
- คลิก หยุด เพื่อสิ้นสุดเซสชัน
มุมมองการถอดเสียง¶
เลือก layout ใน toolbar:
- ทั้งคู่ซ้อนกัน — ต้นฉบับ + การแปล อันหนึ่งบนอีกอัน
- ทั้งคู่เคียงข้างกัน — ต้นฉบับด้านซ้าย, การแปลด้านขวา
- เฉพาะต้นฉบับ / เฉพาะการแปล
ปุ่ม toolbar ใช้ suffix ON / OFF สำหรับสถานะที่เห็นใน
พริบตา — เช่น TTS ON, TTS OFF, Timestamps ON, Overlay OFF
สลับ timestamps ด้วยไอคอนนาฬิกา สลับ การเล่น TTS ของบรรทัด ที่แปลด้วยไอคอนลำโพง เคารพการเลือก Settings → Voice → TTS method ของคุณ — Edge TTS (ค่าเริ่มต้น), ElevenLabs, Google Cloud TTS, Gemini TTS, หรือ Piper TTS (ออฟไลน์เต็มรูปแบบ) เมื่อ Piper ถูกเลือก เสียงต่อภาษาที่หายไป จะ fall back เงียบๆ ไปยัง Edge TTS ระหว่าง stream — ไม่มี modal pre-flight ในหน้านี้ เนื่องจากการบล็อก live flow ด้วย dialog ดาวน์โหลดจะแย่กว่า fallback
หน้าต่าง Overlay¶
หน้าต่างเครื่องมือที่ลากได้ ปรับขนาดได้ และอยู่บนสุดเสมอ ทางลัด:
| ทางลัด | การกระทำ |
|---|---|
Ctrl+[ / Ctrl+] |
ลด / เพิ่มความทึบ |
Ctrl+Arrow |
ย้าย overlay |
Ctrl+0 / Ctrl+9 |
ขยาย / ย่อ |
ตำแหน่ง, ขนาด, ความทึบ และขนาดฟอนต์ยังคงอยู่ระหว่างเซสชัน
การซิงค์สดกับการตั้งค่า¶
ตัวควบคุมขนาดฟอนต์และความทึบทำงานทั้งสองทิศทาง: การลากแถบ
เลื่อน ขนาดฟอนต์ หรือ ความทึบ ใน การตั้งค่า → การ
แปลแบบสด → การกำหนดค่าโอเวอร์เลย์ จะอัปเดตโอเวอร์เลย์ที่
เปิดอยู่แบบเรียลไทม์ และในทางกลับกัน การกด + / - /
Ctrl+[ / Ctrl+] ภายในโอเวอร์เลย์จะอัปเดตแถบเลื่อนในการ
ตั้งค่า ไม่ต้องเริ่มโอเวอร์เลย์ใหม่
ตัวยึดสถานะว่าง¶
ก่อนที่จะมีการบันทึกเสียงใด ๆ โอเวอร์เลย์จะแสดงตัวยึด ("กด Start..." ขณะว่าง / "กำลังฟัง..." หลังจากคลิก Start) ที่สะท้อนสถานะว่างของหน้าต่างหลัก — การสลับจะอยู่ในจังหวะ เดียวกับ pill สถานะที่กำลังทำงาน ตัวยึดจะปรับขนาดตามความ กว้าง × ความสูงปัจจุบันของโอเวอร์เลย์เพื่อให้อ่านได้ในทุก ขนาดหน้าต่าง
โหมดคำบรรยายแบบเรียบง่าย¶
ช่องทำเครื่องหมาย แสดงคำบรรยายแบบเรียบง่าย ในการตั้งค่า → การแปลแบบสด → การกำหนดค่าโอเวอร์เลย์จะซ่อนแท็กเวลาและผู้พูดบน โอเวอร์เลย์โดยยังคงแสดงในหน้าต่างหลัก เป็นประโยชน์เมื่อแชร์ โอเวอร์เลย์กับผู้ฟัง (โหมดผู้นำเสนอ / การแชร์หน้าจอ) แต่ยัง ต้องการเมตาดาต้าทั้งหมดในมุมมองการทำงานของคุณ การสลับนี้ใช้ เฉพาะกับโอเวอร์เลย์เท่านั้น — ไม่เปลี่ยนการตั้งค่า "ป้าย ผู้พูด" สำหรับหน้าต่างหลัก
บันทึกการถอดเสียง¶
คลิก บันทึกการถอดเสียง เพื่อส่งออกเซสชันเป็นไฟล์ .txt พร้อม
timestamps, ผู้พูด, บรรทัดต้นฉบับ และบรรทัดที่แปล
เลือก backend STT¶
| Backend | ดีที่สุดสำหรับ | ราคา | Latency |
|---|---|---|---|
| Whisper (ในเครื่อง) | ออฟไลน์, ไวต่อความเป็นส่วนตัว | ฟรี | ปานกลาง (~1 วินาทีหลังจบประโยค) |
| Soniox | การประชุมหลายผู้พูด | เสียเงิน (~$0.005 / นาที) | ต่ำ (เรียลไทม์) |
ข้อควรระวัง¶
การเลือกไมโครโฟน
อินพุตไมค์ใช้ อุปกรณ์ค่าเริ่มต้นของ OS เสมอ — ไม่มีตัวเลือก ในแอป (sounddevice เปิดเผย ALSA virtual plugins มากเกินไปจน ไม่มีประโยชน์ และ OS เป็นเจ้าของ UI ไมค์ค่าเริ่มต้นอยู่แล้ว) ตั้งไมค์ที่ต้องการในการตั้งค่าเสียงของ OS ก่อนเริ่ม
TTS backpressure
คิว TTS ถูกจำกัดที่ 3 ประโยคล่าสุด — เสียงในคิวที่เก่ากว่าจะ ถูกทิ้งหากการสังเคราะห์ตามไม่ทัน สิ่งนี้ทำให้การเล่นพูดอยู่ ใกล้กับคำบรรยายบนหน้าจอ
ElevenLabs โดยไม่มีคีย์
หากคุณตั้งค่า TTS เป็น ElevenLabs แต่ไม่มีคีย์ API ที่กำหนดค่า ไว้ หน้า Live จะ fall back ไปยัง Edge TTS โดยอัตโนมัติและ ประกาศ fallback ในป้ายสถานะ
ทางลัด¶
| ทางลัด | การกระทำ |
|---|---|
Ctrl+Enter |
เริ่ม / หยุด |
Ctrl+K |
ล้าง log (ด้วยการยืนยัน) |
Ctrl+[ / Ctrl+] |
ปรับความทึบ overlay |