Whisperとは? 無料AI音声認識の定番、モデル別の精度を比較
要点: WhisperはOpenAIが無料で公開した音声認識AIで、最近の字幕ツールの多くがこのエンジンを使っています。日常的な動画はSmall、専門用語が多いならMedium、最高の精度が必要ならLarge系を選べばOKです。
字幕ソフトを調べていると「Whisperベース」という言葉が何度も出てきます。これが何かを知れば、ツールを選ぶ目が養われます。
Whisperとは?
Whisper(ウィスパー)は、ChatGPTを作ったOpenAIが2022年に無料で公開した音声認識AIです。約68万時間分の音声で学習していて、日本語を含む90以上の言語を文字起こしできます。
ポイントは「公開」であることです。誰でも持ってきて使えるため、数多くの字幕ツールが内部エンジンとしてWhisperを使っています。だからツールが違っても文字起こしの品質が似ていることが多いのです。差が出るのはエンジンより編集機能と使い方です。
モデルサイズ: 文字起こし品質の本当の変数
Whisperはひとつではなく、サイズ別に複数のモデルがあります。大きいほど正確で遅くなります:
| モデル | 容量 | 速度 | 精度 | おすすめの場面 |
|---|---|---|---|---|
| Tiny | 約75MB | 非常に速い | 低い | 下書き用、低スペックPC |
| Base | 約145MB | 非常に速い | やや低い | 短くてクリアな音声 |
| Small | 約490MB | 速い | 無難 | 日常的な動画のデフォルト |
| Medium | 約1.5GB | 遅い | 良い | 専門用語、早口 |
| Large(ターボ) | 約1.6GB | 中間 | 最高 | 騒音環境、最終版 |
「自動字幕が不正確」と感じたなら、ツールの問題ではなく小さいモデルを使っている可能性が高いです。モデル以外の精度の変数は精度を上げる5つの方法で扱っています。
サーバー処理 vs 自分のPCで処理
同じWhisperでも、どこで動かすかが違います:
- サーバー処理: 動画を業者のサーバーにアップして処理。自分のPCのスペックに関係なく速いこともありますが、動画が外部に出て、アップロード時間がかかり、無料の上限は業者が決めます。
- 自分のPCで処理(オンデバイス): 動画がPCの外に出ません。処理速度はPCのスペック次第で、一度インストールすれば追加コストの構造がシンプルです。最近のPCなら十分速いです。
bakecutは後者の方式で(Mac・Windows対応)、Whisperモデル5種(tiny〜largeターボ)を選んで使え、動画はアップロードされません。
自分で動かすこともできる?
開発者なら無料で直接実行できます。Python環境でfaster-whisperのような高速版を使うのが一般的です。ただし出力は字幕テキスト(SRT)なので、動画に載せてデザインするには結局編集ツールが必要です。コマンドが負担なら、Whisperを内蔵したソフトを使うのが速いです。選択肢は無料字幕ソフト比較を参考にしてください。
日本語の認識精度はどこまで来たか
体感の目安として、静かな環境ではっきり話した日本語なら、Smallモデルでも95%前後まで出ます。人名、新語、ブランド名は今でも間違えることが多いので、「文字起こし→固有名詞を一括修正」という流れが現実的です。最終的な誤字修正はどのツールを使っても人の仕事なので、修正しやすいエディタを選ぶことが重要です。
まとめ: Whisperをいちばん簡単に使う方法
コマンドなしでWhisperの精度をそのまま使いたいなら、bakecutが最短ルートです。モデル5種をクリックで選んでダウンロードでき、文字起こしから字幕デザイン・書き出しまでひとつのソフトで完結し、動画はPCの外に出ません。Mac・Windowsに対応しています。
よくある質問
Whisperは本当に無料ですか?
はい。OpenAIがコードとモデルを公開しているので、誰でも無料で使えます。有料なのはWhisper自体ではなく、それをサーバーで代わりに動かしてくれるサービスの利用料です。
Whisperのモデルはどれを選べばいいですか?
日常的な動画はSmallから始めましょう。誤字が気になるならMedium、騒音が多いか最終版の品質が重要ならLarge系に上げればOKです。
インターネットなしでも動きますか?
自分のPCで動かす方式なら、モデルを一度ダウンロードした後は文字起こし自体がオフラインで可能です。サーバー方式のツールはインターネットが必須です。
Whisperはリアルタイム字幕も作れますか?
本来は録音済みの音声用に設計されていますが、準リアルタイムで使うプロジェクトもあります。ただしYouTube動画の字幕用途なら、録画後に文字起こしする方が精度の面で優れています。
動画はアップロードせず、あなたのパソコンで。
単語ひとつひとつ飾れるAI字幕エディター