ข้ามไปที่เนื้อหา

การแปลสด

คำบรรยายและการแปลแบบเรียลไทม์จากไมโครโฟน, เสียงระบบ, หรือทั้งสอง — พร้อมหน้าต่าง overlay always-on-top ที่เป็นทางเลือกเพื่อให้คำ บรรยายอยู่บนสิ่งที่คุณกำลังดูอยู่

คุณสามารถทำอะไรได้บ้าง

  • คำบรรยายการประชุมสด — ใส่คำบรรยายให้สาย Zoom / Meet / Teams ในภาษาอื่นโดยไม่ต้องเข้าร่วมเป็น bot ผู้แปล
  • เรียนภาษาแบบเรียลไทม์ — ใส่คำบรรยายเนื้อหาภาษาต่างประเทศ (ภาพยนตร์, podcasts, การบรรยาย) ด้วยภาษาแม่ของคุณเป็น track การ แปล
  • คำบรรยายระดับระบบ — จับเสียงระบบเพื่อให้คุณสามารถใส่คำบรรยาย YouTube / Netflix / อะไรก็ตามที่เล่นบนลำโพงของคุณ

สิ่งที่คุณต้องการ

  • FFmpeg บน PATH — ดู การตั้งค่า FFmpeg
  • backend STT, หนึ่งใน:

    • faster-whisper — ในเครื่อง, ออฟไลน์, ฟรี, ค่าเริ่มต้น
    • Soniox — คลาวด์, เสียเงิน, การแยกผู้พูดแบบเรียลไทม์ ดู การตั้งค่า Soniox
  • สำหรับ การจับเสียงระบบ backend ที่ถูกต้องต่อ OS จะถูกเลือก อัตโนมัติ: Linux ใช้ parec (PulseAudio / PipeWire), Windows ใช้ WASAPI loopback แบบ native (ไม่มีซอฟต์แวร์เพิ่มเติมในกรณีส่วน ใหญ่), macOS ใช้ ffmpeg -f avfoundation กับอุปกรณ์ loopback เสมือน (BlackHole / Loopback / ฯลฯ) แบนเนอร์เตือนแบบ inline พร้อมลิงก์ติดตั้งที่คลิกได้จะปรากฏหากมีอะไรหายไป ดู Setup → System audio สำหรับคำแนะนำ การติดตั้งครบถ้วนต่อ OS

ทีละขั้นตอน

  1. คลิก การแปลสด ในแถบด้านข้าง
  2. กำหนดค่าครั้งเดียวใน Settings → Live:

    • ภาษาต้นทาง (ภาษาที่พูด)
    • ภาษาเป้าหมาย (หรือปล่อยว่างสำหรับการถอดเสียงเท่านั้น)
    • แหล่งเสียง: ไมโครโฟน / เสียงระบบ / ทั้งสอง
    • วิธี STT: Whisper / Soniox
  3. กลับมาที่หน้า Live คลิก เริ่ม (Ctrl+Enter)

  4. การถอดเสียงจะเติมแผงหลักทีละการ์ด หน้าต่าง Overlay ลอยจะ แสดงคำบรรยายด้วย (ลากไปที่ใดก็ได้ที่คุณต้องการ)
  5. คลิก หยุด เพื่อสิ้นสุดเซสชัน

มุมมองการถอดเสียง

เลือก layout ใน toolbar:

  • ทั้งคู่ซ้อนกัน — ต้นฉบับ + การแปล อันหนึ่งบนอีกอัน
  • ทั้งคู่เคียงข้างกัน — ต้นฉบับด้านซ้าย, การแปลด้านขวา
  • เฉพาะต้นฉบับ / เฉพาะการแปล

ปุ่ม toolbar ใช้ suffix ON / OFF สำหรับสถานะที่เห็นใน พริบตา — เช่น TTS ON, TTS OFF, Timestamps ON, Overlay OFF

สลับ timestamps ด้วยไอคอนนาฬิกา สลับ การเล่น TTS ของบรรทัด ที่แปลด้วยไอคอนลำโพง เคารพการเลือก Settings → Voice → TTS method ของคุณ — Edge TTS (ค่าเริ่มต้น), ElevenLabs, Google Cloud TTS, Gemini TTS, หรือ Piper TTS (ออฟไลน์เต็มรูปแบบ) เมื่อ Piper ถูกเลือก เสียงต่อภาษาที่หายไป จะ fall back เงียบๆ ไปยัง Edge TTS ระหว่าง stream — ไม่มี modal pre-flight ในหน้านี้ เนื่องจากการบล็อก live flow ด้วย dialog ดาวน์โหลดจะแย่กว่า fallback

หน้าต่าง Overlay

หน้าต่างเครื่องมือที่ลากได้ ปรับขนาดได้ และอยู่บนสุดเสมอ ทางลัด:

ทางลัด การกระทำ
Ctrl+[ / Ctrl+] ลด / เพิ่มความทึบ
Ctrl+Arrow ย้าย overlay
Ctrl+0 / Ctrl+9 ขยาย / ย่อ

ตำแหน่ง, ขนาด, ความทึบ และขนาดฟอนต์ยังคงอยู่ระหว่างเซสชัน

การซิงค์สดกับการตั้งค่า

ตัวควบคุมขนาดฟอนต์และความทึบทำงานทั้งสองทิศทาง: การลากแถบ เลื่อน ขนาดฟอนต์ หรือ ความทึบ ใน การตั้งค่า → การ แปลแบบสด → การกำหนดค่าโอเวอร์เลย์ จะอัปเดตโอเวอร์เลย์ที่ เปิดอยู่แบบเรียลไทม์ และในทางกลับกัน การกด + / - / Ctrl+[ / Ctrl+] ภายในโอเวอร์เลย์จะอัปเดตแถบเลื่อนในการ ตั้งค่า ไม่ต้องเริ่มโอเวอร์เลย์ใหม่

ตัวยึดสถานะว่าง

ก่อนที่จะมีการบันทึกเสียงใด ๆ โอเวอร์เลย์จะแสดงตัวยึด ("กด Start..." ขณะว่าง / "กำลังฟัง..." หลังจากคลิก Start) ที่สะท้อนสถานะว่างของหน้าต่างหลัก — การสลับจะอยู่ในจังหวะ เดียวกับ pill สถานะที่กำลังทำงาน ตัวยึดจะปรับขนาดตามความ กว้าง × ความสูงปัจจุบันของโอเวอร์เลย์เพื่อให้อ่านได้ในทุก ขนาดหน้าต่าง

โหมดคำบรรยายแบบเรียบง่าย

ช่องทำเครื่องหมาย แสดงคำบรรยายแบบเรียบง่าย ในการตั้งค่า → การแปลแบบสด → การกำหนดค่าโอเวอร์เลย์จะซ่อนแท็กเวลาและผู้พูดบน โอเวอร์เลย์โดยยังคงแสดงในหน้าต่างหลัก เป็นประโยชน์เมื่อแชร์ โอเวอร์เลย์กับผู้ฟัง (โหมดผู้นำเสนอ / การแชร์หน้าจอ) แต่ยัง ต้องการเมตาดาต้าทั้งหมดในมุมมองการทำงานของคุณ การสลับนี้ใช้ เฉพาะกับโอเวอร์เลย์เท่านั้น — ไม่เปลี่ยนการตั้งค่า "ป้าย ผู้พูด" สำหรับหน้าต่างหลัก

บันทึกการถอดเสียง

คลิก บันทึกการถอดเสียง เพื่อส่งออกเซสชันเป็นไฟล์ .txt พร้อม timestamps, ผู้พูด, บรรทัดต้นฉบับ และบรรทัดที่แปล

เลือก backend STT

Backend ดีที่สุดสำหรับ ราคา Latency
Whisper (ในเครื่อง) ออฟไลน์, ไวต่อความเป็นส่วนตัว ฟรี ปานกลาง (~1 วินาทีหลังจบประโยค)
Soniox การประชุมหลายผู้พูด เสียเงิน (~$0.005 / นาที) ต่ำ (เรียลไทม์)

ข้อควรระวัง

การเลือกไมโครโฟน

อินพุตไมค์ใช้ อุปกรณ์ค่าเริ่มต้นของ OS เสมอ — ไม่มีตัวเลือก ในแอป (sounddevice เปิดเผย ALSA virtual plugins มากเกินไปจน ไม่มีประโยชน์ และ OS เป็นเจ้าของ UI ไมค์ค่าเริ่มต้นอยู่แล้ว) ตั้งไมค์ที่ต้องการในการตั้งค่าเสียงของ OS ก่อนเริ่ม

TTS backpressure

คิว TTS ถูกจำกัดที่ 3 ประโยคล่าสุด — เสียงในคิวที่เก่ากว่าจะ ถูกทิ้งหากการสังเคราะห์ตามไม่ทัน สิ่งนี้ทำให้การเล่นพูดอยู่ ใกล้กับคำบรรยายบนหน้าจอ

ElevenLabs โดยไม่มีคีย์

หากคุณตั้งค่า TTS เป็น ElevenLabs แต่ไม่มีคีย์ API ที่กำหนดค่า ไว้ หน้า Live จะ fall back ไปยัง Edge TTS โดยอัตโนมัติและ ประกาศ fallback ในป้ายสถานะ

ทางลัด

ทางลัด การกระทำ
Ctrl+Enter เริ่ม / หยุด
Ctrl+K ล้าง log (ด้วยการยืนยัน)
Ctrl+[ / Ctrl+] ปรับความทึบ overlay