텍스트 추출¶
이미지에서 텍스트를 빼냅니다 — 영수증, 스크린샷, 사진 찍은 문서,
스캔한 페이지, 무엇이든. .txt (일반) 또는 .docx (서식 있는 단락)
로 출력.
이 페이지는 번역하지 않습니다 — 추출만 합니다. 번역도 원한다면 출력을 문서 번역으로 파이프하세요.
두 가지 추출 방법¶
| 방법 | 적합 |
|---|---|
| OCR | 고용량 / 배치 / 비용 민감 (이미지당 무료 또는 거의 무료) |
| LLM 비전 | 레이아웃 보존, 혼합 스크립트, 저화질 이미지, 손글씨 |
설정 → 텍스트 추출 → 추출 방법에서 기본값 선택.
OCR 엔진 (OCR 방법)¶
| 엔진 | 비용 | 오프라인 | 언어 | 메모 |
|---|---|---|---|---|
| Tesseract | 무료 | 예 | 100+ | 기본. 시스템 설치 필요. |
| EasyOCR | 무료 | 예 (모델 다운로드 후) | 80+ | 비라틴 스크립트에 최적. ~1 GB 모델. |
| Google Cloud Vision | 유료 (월 1,000개 무료) | 아니오 | 60+ | 최고 정확도. |
설정 → OCR에서 구성.
단계¶
- 사이드바에서 텍스트 추출 클릭.
- 하나 이상의 이미지 파일을 드롭 (
.png,.jpg,.jpeg,.bmp,.webp,.tiff,.tif). - 소스 언어 선택 (OCR가 올바른 모델을 선택하는 데 도움).
- 출력 형식 선택 —
.txt또는.docx. - 추출 클릭 (또는
Ctrl+Enter). - 완료되면 행에서 열기 클릭.
추천 사용처¶
- 텍스트가 풍부한 영수증 / 청구서 → Tesseract는 빠르고 정확.
- 사진 찍은 손글씨 메모 → LLM 비전이 큰 차이로 승리.
- 만화 / 코믹 패널 → EasyOCR (수직 CJK 텍스트를 잘 처리).
- 작은 필드가 많은 양식 → Google Cloud Vision은 다른 것보다 필드 경계를 더 잘 보존하는 경향.
팁¶
OCR 또는 LLM, 둘 다는 아님
페이지는 하나의 방법을 선택하여 실행합니다. 출력을 비교하려면 같은 이미지를 다른 방법으로 두 번 실행하세요.
설정 필요 대화 상자
OCR을 선택했지만 OCR 엔진이 구성되지 않은 경우 (또는 LLM이지만 LLM 키가 구성되지 않은 경우), 페이지는 관련 설정 탭으로 직접 연결되는 단일 "설정 필요" 대화 상자를 표시합니다.
단축키¶
| 단축키 | 동작 |
|---|---|
Ctrl+Enter |
추출 |
Ctrl+O |
찾아보기 |
Ctrl+F |
히스토리 검색에 포커스 |