字幕自動生成の精度を上げる5つの方法、誤字が多い原因はAIではない
要点: 自動字幕の誤字はたいていAIのせいではなく、入力のせいです。マイクの距離とノイズを整え、モデルサイズを一段上げ、言語を自動検出ではなく手動で指定するだけで、修正時間が半分以下に減ります。
字幕の自動生成を初めて使うと、「おお、すごい」と「でも誤字がちょっと…」が同時にやってきます。文字起こしの品質はツール選びと同じくらい、録音状態と設定に左右されます。どのソフトを使っても通用する5つの方法です。
1. マイクと口の距離を30cm以内に
AI音声認識の精度を最も大きく左右するのは、声と背景音の比率です。カメラ内蔵マイクで2メートル離れて撮った音声は、人間が聞いてもぼやけています。ピンマイクやUSBマイクで口の近くで録音するだけで、認識率が目に見えて上がります。
機材がなければ、スマホのイヤホンマイクでも内蔵マイクよりマシです。重要なのはマイクではなく距離です。
2. 背景ノイズ・BGMは文字起こしの後で
扇風機、エアコン、カフェの雑音、そして意外にもBGMが認識率を削ります。音楽は編集の最後に乗せればいいので、文字起こしは声だけの素材で回しましょう。すでに音楽が混ざった動画なら仕方ありませんが、それが誤字の原因だと知った上で修正時間を見積もってください。
3. モデルサイズを一段上げる
Whisper系のツール(bakecutなど)はモデルサイズを選べます。小さいモデルは速い代わりに専門用語と早口に弱く、大きいモデルは遅い代わりに正確です。
| 状況 | おすすめモデル |
|---|---|
| 静かな部屋、はっきり話す動画 | Small |
| 早口、または専門用語が多い動画 | Medium |
| ノイズのある環境、最高精度が必要なとき | Large系 |
「Smallで回したら誤字だらけ」と感じたら、ソフトを変える前にまずモデルを大きくしてみてください。モデルごとの違いはWhisper解説記事で詳しく扱っています。
4. 言語を「自動検出」ではなく手動で指定
自動検出は便利ですが、動画の冒頭に音楽や外国語のあいさつが混ざっていると言語を誤判定し、全体が崩れることがあります。日本語の動画なら日本語に固定してから始めるのが安全です。日本語と英語が混ざった動画は、主言語を指定すれば外来語もだいたい正しく拾えます。
5. 1行の文字数をあらかじめ設定
精度とは別の話に聞こえますが、文字起こし後の「修正のしんどさ」を左右します。1クリップが長いと、誤字を見つけるのもタイミングを合わせるのも大変だからです。長尺(横動画)は1行15〜20文字、ショート動画は8〜12文字で区切って受け取ると、修正がぐっと速くなります。ショートの基準はショート動画の字幕ガイドにまとめました。
おまけ: 修正時間を減らすツール選び
最後の誤字修正は人間の仕事です。ここでツールの差が大きく出ます。文字を直すと単語のタイミングが崩れるツールがある一方、bakecutのように文字を直しても単語ごとのタイミングが維持されるツールもあります。文字起こしの精度が同じくらいなら、修正が楽な方が結局時間を節約してくれます。
よくある質問
自動字幕の精度は普通どのくらいですか?
静かな環境ではっきり話した音声なら、Whisper系は95%前後まで出ます。ノイズ、早口、専門用語が混ざると80%台まで落ちることがあるので、ツールより環境の方が重要です。
方言や専門用語も認識されますか?
標準的な話し方に近いほどよく拾い、強い方言は誤字が増えます。専門用語は大きいモデルほど正確ですが、よく使う固有名詞は文字起こし後に一括置換で処理するのが現実的です。
文字起こしをやり直すと結果は変わりますか?
同じモデル・同じ設定ならほぼ同じです。結果を変えたいなら、モデルサイズや言語設定を変えてからやり直してください。
英語の動画でも同じ方法が通用しますか?
はい。距離・ノイズ・モデルサイズの原則は言語に関係なく適用されます。むしろ英語は学習データが多いので、同じ条件なら日本語より精度が高く出る傾向があります。
動画はアップロードせず、あなたのパソコンで。
単語ひとつひとつ飾れるAI字幕エディター