영상 자막 자동 생성, 정확도 높이는 5가지 방법

2026.06.09 · bakecut

핵심 요약: 자동 자막의 오타는 보통 AI 탓이 아니라 입력 탓입니다. 마이크 거리와 소음을 잡고, 모델 크기를 한 단계 올리고, 언어를 직접 지정하는 것만으로 수정 시간이 절반 이하로 줄어듭니다.

자막 자동 생성을 처음 써보면 "오, 신기하다"와 "근데 오타가 좀..."이 동시에 듭니다. 받아쓰기 결과의 품질은 무료 자막 프로그램 같은 도구 선택만큼이나 녹음 상태와 설정에 좌우됩니다. 어떤 프로그램을 쓰든 통하는 5가지 방법입니다.

1. 마이크와 입의 거리를 30cm 안쪽으로

AI 음성 인식의 정확도를 가장 크게 좌우하는 건 목소리와 배경음의 비율입니다. 카메라 내장 마이크로 2미터 거리에서 찍은 음성은 사람이 들어도 흐릿합니다. 핀마이크나 USB 마이크로 입 가까이에서 녹음하는 것만으로 인식률이 눈에 띄게 올라갑니다.

장비가 없다면 폰 이어폰 마이크도 내장 마이크보다 낫습니다. 핵심은 마이크가 아니라 거리입니다. 스마트폰 앱과 PC 프로그램의 차이가 궁금하다면 자막 앱 vs PC 비교도 참고하세요.

2. 배경 소음·배경 음악은 받아쓰기 후에

선풍기, 에어컨, 카페 소음, 그리고 의외로 배경 음악이 인식률을 깎아 먹습니다. 음악은 편집 마지막에 깔면 되니, 받아쓰기는 목소리만 있는 원본으로 돌리세요. 이미 음악이 섞인 영상이라면 어쩔 수 없지만, 그게 오타의 원인이라는 건 알고 수정 시간을 잡아야 합니다.

3. 모델 크기를 한 단계 올리기

Whisper 계열 도구(bakecut 등)는 모델 크기를 고를 수 있습니다. 작은 모델은 빠르지만 전문 용어와 빠른 말에 약하고, 큰 모델은 느린 대신 정확합니다.

상황	추천 모델
조용한 방, 또박또박 말하는 영상	Small
말이 빠르거나 전문 용어가 많은 영상	Medium
소음 있는 환경, 최고 정확도가 필요할 때	Large 계열

"Small로 돌렸더니 오타가 많네" 싶으면 프로그램을 바꾸기 전에 모델부터 키워보세요. 모델별 차이는 Whisper 설명 글에서 자세히 다룹니다.

4. 언어를 "자동 감지" 말고 직접 지정

자동 감지는 편하지만, 영상 첫 부분에 음악이나 영어 인사가 섞여 있으면 언어를 잘못 판단해 전체가 망가지기도 합니다. 한국어 영상이면 한국어로 못 박고 시작하는 게 안전합니다. 한국어와 영어가 섞인 영상은 주 언어를 지정하면 외래어도 대체로 잘 잡습니다.

5. 한 줄 글자 수를 미리 설정

정확도와는 다른 얘기 같지만, 받아쓰기 후의 "수정 체감"을 좌우합니다. 한 클립이 길면 오타를 찾기도, 타이밍을 맞추기도 어렵거든요. 롱폼(가로 영상)은 한 줄 25~30자, 쇼츠는 12~15자로 잘라서 받으면 수정이 훨씬 빨라집니다. 쇼츠 기준은 쇼츠 자막 가이드에 정리했어요.

보너스: 수정 시간을 줄이는 도구 고르기

마지막 오타 수정은 사람 몫입니다. 이때 도구 차이가 큽니다. 글자를 고치면 단어 타이밍이 깨지는 도구가 있는가 하면, bakecut처럼 글자를 고쳐도 단어별 타이밍이 유지되는 도구도 있습니다. 받아쓰기 정확도가 비슷하다면 수정이 편한 쪽이 결국 시간을 아껴줍니다.

자주 묻는 질문

자동 자막 정확도는 보통 몇 %나 되나요?

조용한 환경에서 또박또박 말한 한국어 기준으로 Whisper 계열은 95% 안팎까지 나옵니다. 소음, 빠른 말, 전문 용어가 섞이면 80%대까지 떨어질 수 있어 환경이 더 중요합니다.

사투리나 전문 용어도 인식되나요?

표준어에 가까울수록 잘 잡고, 강한 사투리는 오타가 늘어납니다. 전문 용어는 큰 모델일수록 잘 잡지만, 자주 쓰는 고유명사는 받아쓰기 후 일괄 바꾸기로 처리하는 게 현실적입니다.

받아쓰기를 다시 돌리면 결과가 달라지나요?

같은 모델·같은 설정이면 거의 같습니다. 결과를 바꾸고 싶다면 모델 크기나 언어 설정을 바꿔서 다시 돌리세요.

영어 영상도 같은 방법이 통하나요?

네. 거리·소음·모델 크기 원칙은 언어와 무관하게 적용됩니다. 오히려 영어는 학습 데이터가 많아 같은 조건에서 한국어보다 정확도가 높게 나오는 편입니다.

#자막 자동 생성#AI 자막#자동 자막#음성 인식 자막

영상 자막, 업로드 없이 내 컴퓨터에서.
단어 하나하나 꾸밀 수 있는 AI 자막 편집기

bakecut 무료로 받기 →