ข้ามไปที่เนื้อหา

คำถามที่พบบ่อย

ทั่วไป

มันใช้งานออฟไลน์ได้หรือไม่?

ส่วนใหญ่ใช่ โดยเฉพาะ:

  • การแปล ต้องการ LLM. Gemini API ฟรีออนไลน์; Ollama / LM Studio ในเครื่อง ผ่านการตั้งค่า Custom Provider เป็นออฟไลน์เต็มรูปแบบ
  • OCR ด้วย Tesseract หรือ EasyOCR เป็นออฟไลน์
  • STT ด้วย Whisper (ค่าเริ่มต้น) เป็นออฟไลน์
  • TTS ด้วย Edge TTS (ค่าเริ่มต้น) เป็นออนไลน์; ElevenLabs / Google Cloud TTS / Gemini TTS เป็นออนไลน์ (ฟรีหรือเสียเงิน); Piper TTS เป็น TTS ประสาทออฟไลน์เต็มรูป แบบ — ไม่มีคีย์, ไม่มีการเรียกเครือข่ายเมื่อคุณดาวน์โหลดเสียงต่อ ภาษา (~25–60 MB ONNX file) ผ่าน Settings → Voice → Piper TTS → Download voices now แล้ว

สำหรับการตั้งค่าแบบ air-gapped เต็มรูปแบบ: Custom Provider → LLM ในเครื่อง, Tesseract หรือ EasyOCR สำหรับ OCR, Whisper สำหรับ STT, และ Piper TTS สำหรับเอาต์พุตเสียง

ไฟล์ที่แปลของฉันบันทึกไว้ที่ไหน?

ข้างต้นฉบับโดยค่าเริ่มต้น พร้อม suffix _translated_<src>_<tgt> (เช่น report_translated_en_fr.docx) แทนที่ต่อฟีเจอร์ใน Settings → General → Translation storage path

การตั้งค่าของฉันถูกเก็บไว้ที่ไหน?

ไฟล์ INI ที่:

OS Path
Linux ~/.config/ai-translate/settings.ini
macOS ~/Library/Preferences/ai-translate/settings.ini
Windows %APPDATA%\ai-translate\settings.ini

คีย์ API อยู่ใน OS keychain (ไม่ใช่ใน INI) ประวัติการแปลอยู่ใน SQLite DB ในไดเร็กทอรีข้อมูล

ข้อมูลของฉันถูกจัดการอย่างไร?

  • Local-first — ข้อความไม่เคยออกจากเครื่องของคุณเว้นแต่คุณกำลัง เรียกใช้บริการ LLM / OCR / STT / TTS บนคลาวด์
  • ไม่มี telemetry — แอปไม่ได้โทรกลับบ้าน คำขอขาออกเดียวที่แอป ทำคือการตรวจสอบการอัปเดต GitHub-Releases ที่เป็นทางเลือก (สลับใน Settings → General); backends คลาวด์เรียกผู้ขายที่เกี่ยวข้อง เท่านั้น
  • คีย์ API — เก็บไว้ใน OS keychain ของคุณ Fallback ของ keychain ของแอปเดสก์ท็อปคือ INI ข้อความธรรมดาเมื่อไม่มี keychain daemon

ฉันสามารถแปล Google Doc / หน้า Notion ได้หรือไม่?

ไม่โดยตรง ส่งออกเป็น .docx ก่อน แปล จากนั้นนำเข้าไฟล์ที่แปลแล้ว กลับมา เช่นเดียวกันสำหรับ Notion (ส่งออกเป็น Markdown / HTML), Confluence (ส่งออกเป็น .docx) ฯลฯ

การเลือกโมเดล / เอนจิน

ฉันควรใช้โมเดล LLM อะไร?

สำหรับผู้ใช้ส่วนใหญ่:

  • Gemini Flash variant ใดๆ — tier ฟรี, รวดเร็ว, ดีอย่างน่าประหลาด ใจ ใช้สำหรับการแปลประจำวัน ชื่อมีลักษณะเช่น gemini-2.5-flash, gemini-3-flash-preview ฯลฯ ขึ้นอยู่กับสิ่งที่มีอยู่ในปัจจุบัน
  • Gemini Pro variant ใดๆ — pay-per-token, คุณภาพสูงกว่า ใช้ สำหรับเอกสารสำคัญ (กฎหมาย, เทคนิค, ที่ลูกค้าเห็น)
  • Ollama ในเครื่อง ด้วยโมเดล 7B-13B — เมื่อคุณต้องการออฟไลน์ / ความเป็นส่วนตัว

ตัวเลือกโมเดลต่อฟีเจอร์หมายความว่าคุณสามารถใช้โมเดลที่เร็วสำหรับการ แปลแบบแชทและสำรองโมเดลที่แพงสำหรับเอกสาร

ฉันควรใช้เอนจิน OCR อะไร?

  • Tesseract สำหรับข้อความที่พิมพ์สะอาดในสคริปต์หลัก ฟรี, ออฟไลน์, เร็ว
  • EasyOCR สำหรับสคริปต์ที่ไม่ใช่ละติน (CJK โดยเฉพาะ) และภาพที่ มีเสียงรบกวนมากกว่า
  • Google Cloud Vision สำหรับลายมือ, สคริปต์ผสม และความแม่นยำสูง สุดเมื่อคุณสามารถจ่ายได้

ฉันควรใช้วิธี STT อะไร?

  • Whisper ในเครื่อง สำหรับออฟไลน์ / ความเป็นส่วนตัว
  • Soniox สำหรับการบันทึกหลายผู้พูด — ป้ายผู้พูด round-trip ใน SRT ของคุณ
  • Google Cloud STT สำหรับเสียงโทรศัพท์ / การแพทย์ (โมเดลโดเมน ของพวกเขาดี)
  • Gemini Live สำหรับการแปลคำพูดเป็นคำพูดแบบเรียลไทม์

Backend TTS ใด?

  • Edge TTS สำหรับเสียงคุณภาพสูงฟรี
  • ElevenLabs สำหรับเสียงระดับพรีเมียม / มีแบรนด์ / โคลน
  • Google Cloud TTS สำหรับเสียง WaveNet ในภาษาที่ Edge มีความ ครอบคลุมน้อย
  • Gemini TTS สำหรับเสียง prebuilt ที่เป็นธรรมชาติฟรีโดยใช้คีย์ Gemini API ที่มีอยู่ของคุณ
  • Piper TTS เมื่อคุณต้องการเอาต์พุตเสียงแบบ ออฟไลน์ / air-gapped การแลกเปลี่ยน: แต่ละภาษาต้องการการดาวน์โหลดเสียงครั้งเดียว ~25–60 MB ผ่าน Settings → Voice → Piper TTS → Download voices now และ 13 ภาษาจาก 45 ภาษาของแอปไม่มีเสียง Piper (เหล่านั้นจะ fall back เงียบๆ ไปยัง Edge TTS)

เวิร์กโฟลว์

ฉันแปลทั้งโฟลเดอร์ได้อย่างไร?

drop โฟลเดอร์ลงในพื้นที่ drop Translate Document ไฟล์ที่รองรับ ภายใน (recursively) จะถูกจัดคิว; ทุกอย่างอื่นจะถูกข้ามเงียบๆ มี ขีดจำกัด drop 100 ไฟล์; batch ที่ใหญ่กว่า → แบ่งเป็นหลาย drop

ฉันสามารถหยุดและกลับมาแปลใหม่ได้หรือไม่?

ได้ ออกจากแอปเมื่อใดก็ได้ — งาน Pending / Translating กลับมาทำงาน ในการเปิดครั้งถัดไป Per-task checkpointing หมายความว่า PDF หน้า 47 จาก 100 จะไม่ทำซ้ำเมื่อคุณกลับมา

ฉันสามารถแก้ไขการแปลด้วยมือได้หรือไม่?

สำหรับ แปลข้อความ — ได้ คลิกที่แผงด้านขวาและพิมพ์ การแก้ไข auto-save ไปยัง history record ของรายการ

สำหรับ แปลเอกสาร — เปิดไฟล์ที่แปลในตัวแก้ไขปกติของคุณ (Word, LibreOffice ฯลฯ) และแก้ไขที่นั่น แอปไม่ roundtrip การแก้ไขกลับเข้าสู่ ประวัติ

ฉันสามารถแปลรายการสตริงเป็นกลุ่มได้หรือไม่?

ใช้ CLI:

ait *.txt --target French

หรือสำหรับสตริงในกระบวนการ (เช่นสตริง UI ที่แยกออกจากโค้ด) ให้ เรียกเครื่องมือ MCP translate_text ด้วยรายการ หรือใช้ Python API โดยตรง:

from src.core.llm_engine import translate_text
out = translate_text(texts=["Hello", "World"], target_lang="French")

คำศัพท์

ทำไม LLM ไม่ใช้ glossary ของฉัน?

สามสิ่งที่ต้องตรวจสอบ:

  1. ชุด active (ทำเครื่องหมายในกล่อง)
  2. คำต้นทางใน glossary ของคุณปรากฏจริงในข้อความต้นทาง (การบีบอัด ต่อการเรียกส่งให้ LLM เฉพาะรายการที่ตรงกับข้อความ batch — ประหยัด tokens แต่หมายความว่าคำต้นทางที่พิมพ์ผิดมองไม่เห็น)
  3. โมเดลแข็งแกร่งพอ — flash-lite บางครั้งละเลยคำใบ้ที่ flash และ pro ให้เกียรติ

คำใน glossary จับคู่โดยไม่สนใจวรรณยุกต์?

ใช่ ทั้งการค้นหา glossary และกล่องค้นหาในหน้า Glossary ใช้ฟังก์ชัน normalisation ที่ตัด accents และ case ดังนั้น cafe, Café และ CAFE ทั้งหมดตรงกับรายการที่มีต้นทางเป็น Café

ความเป็นส่วนตัว

คุณรวบรวมข้อมูลการใช้งานหรือไม่?

ไม่ แอปไม่มี analytics SDK การตรวจสอบการอัปเดตที่เป็นทางเลือก poll endpoint GitHub Releases เดียวที่เริ่มต้น; สามารถสลับได้ใน Settings → General

คีย์ API ของฉันปลอดภัยหรือไม่?

เก็บไว้ใน OS keychain ของคุณ (Keychain บน macOS, Credential Manager บน Windows, Secret Service บน Linux) กระบวนการอื่นไม่สามารถอ่าน ได้โดยไม่ได้รับอนุญาตอย่างชัดเจนจากคุณ Fallback (เมื่อไม่มี keychain daemon — โดยทั่วไปเซิร์ฟเวอร์ Linux แบบไม่มีหัว) เป็น INI ข้อความธรรมดาภายใต้ไดเร็กทอรีคอนฟิกของผู้ใช้; ในโหมดนั้นคีย์ ได้รับการป้องกันด้วยสิทธิ์ไฟล์แต่ไม่ได้เข้ารหัสด้วยการเข้ารหัส