Whisper란? 무료 AI 음성인식의 표준, 모델별 정확도 비교
핵심 요약: Whisper는 OpenAI가 무료로 공개한 음성 인식 AI로, 요즘 자막 도구 상당수가 이 엔진을 씁니다. 일상 영상은 Small, 전문 용어가 많으면 Medium, 최고 정확도가 필요하면 Large 계열을 고르면 됩니다.
자막 프로그램을 알아보다 보면 "Whisper 기반"이라는 말이 자꾸 나옵니다. 이게 뭔지 알면 도구 고르는 눈이 생겨요.
Whisper가 뭔가요?
Whisper(위스퍼)는 ChatGPT를 만든 OpenAI가 2022년에 무료로 공개한 음성 인식 AI입니다. 약 68만 시간 분량의 음성으로 학습해서, 한국어를 포함한 90개 이상의 언어를 받아쓸 수 있습니다.
핵심은 "공개"라는 점입니다. 누구나 가져다 쓸 수 있어서, 수많은 자막 도구들이 내부 엔진으로 Whisper를 씁니다. 그래서 도구가 달라도 받아쓰기 품질이 비슷한 경우가 많아요. 차이는 엔진보다 편집 기능과 사용 방식에서 납니다.
모델 크기: 받아쓰기 품질의 진짜 변수
Whisper는 한 가지가 아니라 크기별로 여러 모델이 있습니다. 클수록 정확하고 느립니다:
| 모델 | 용량 | 속도 | 정확도 | 추천 상황 |
|---|---|---|---|---|
| Tiny | 약 75MB | 아주 빠름 | 낮음 | 초안용, 저사양 |
| Base | 약 145MB | 아주 빠름 | 조금 낮음 | 짧고 깨끗한 음성 |
| Small | 약 490MB | 빠름 | 무난 | 일상 영상의 기본값 |
| Medium | 약 1.5GB | 느림 | 좋음 | 전문 용어, 빠른 말 |
| Large(터보) | 약 1.6GB | 중간 | 가장 좋음 | 소음 환경, 최종본 |
"자동 자막이 부정확하다"고 느꼈다면 도구 문제가 아니라 작은 모델을 쓰고 있어서일 가능성이 큽니다. 모델 외의 정확도 변수는 정확도 높이는 5가지 방법에서 다룹니다.
서버 처리 vs 내 컴퓨터 처리
같은 Whisper라도 어디서 돌리느냐가 다릅니다:
- 서버 처리: 영상을 업체 서버에 올려서 처리. 내 컴퓨터 사양과 무관하게 빠를 수 있지만, 영상이 외부로 나가고 업로드 시간이 들며, 업체가 무료 한도를 정합니다.
- 내 컴퓨터 처리(온디바이스): 영상이 컴퓨터 밖으로 안 나갑니다. 처리 속도는 내 컴퓨터 사양을 따르고, 한 번 설치하면 추가 비용 구조가 단순합니다. 요즘 컴퓨터면 충분히 빠릅니다.
bakecut은 후자 방식으로, Whisper 모델 5종(tiny~large 터보)을 골라 쓸 수 있고 영상이 업로드되지 않습니다.
직접 돌려볼 수도 있나요?
개발자라면 무료로 직접 실행할 수 있습니다. 파이썬 환경에서 faster-whisper 같은 가속 버전을 쓰는 게 일반적이에요. 다만 결과물이 자막 텍스트(SRT)라서, 영상에 입히고 디자인하려면 결국 편집 도구가 필요합니다. 명령어가 부담스러우면 Whisper를 내장한 프로그램을 쓰는 게 빠릅니다. 선택지는 무료 자막 프로그램 비교를 참고하세요.
한국어 인식, 어디까지 왔나
체감 기준으로, 조용한 환경에서 또박또박 말한 한국어는 Small 모델로도 95% 안팎까지 나옵니다. 사람 이름, 신조어, 브랜드명은 여전히 틀리는 일이 많아서 "받아쓰기 → 고유명사 일괄 수정" 흐름이 현실적입니다. 최종 오타 수정은 어떤 도구를 쓰든 사람의 몫이라, 수정이 편한 편집기를 고르는 게 중요합니다.
정리: Whisper를 가장 쉽게 쓰는 방법
명령어 없이 Whisper의 정확도를 그대로 쓰고 싶다면 bakecut이 가장 빠른 길입니다. 모델 5종을 클릭으로 골라 받고, 받아쓰기부터 자막 디자인·내보내기까지 한 프로그램에서 끝나며, 영상은 컴퓨터 밖으로 나가지 않습니다.
자주 묻는 질문
Whisper는 정말 무료인가요?
네. OpenAI가 코드와 모델을 공개해서 누구나 무료로 쓸 수 있습니다. 유료인 것은 Whisper 자체가 아니라, 그걸 서버에서 대신 돌려주는 서비스들의 사용료입니다.
Whisper 모델은 어떤 걸 고르면 되나요?
일상 영상은 Small로 시작하세요. 오타가 거슬리면 Medium, 소음이 많거나 최종본 품질이 중요하면 Large 계열로 올리면 됩니다.
인터넷 없이도 작동하나요?
내 컴퓨터에서 돌리는 방식이라면 모델을 한 번 내려받은 뒤에는 받아쓰기 자체가 오프라인으로 가능합니다. 서버 방식 도구는 인터넷이 필수입니다.
Whisper가 실시간 자막도 만들 수 있나요?
본래 녹화된 음성용으로 설계됐지만 준실시간으로 쓰는 프로젝트들도 있습니다. 다만 유튜브 영상 자막 용도라면 녹화 후 받아쓰기가 정확도 면에서 낫습니다.
영상 자막, 업로드 없이 내 컴퓨터에서.
단어 하나하나 꾸밀 수 있는 AI 자막 편집기