--- title: 無料・超高精度のWhisper + 生成AIで文字起こしする方法 description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字起こしの方法。Google Colabを使えば無料・インストール不要で利用できます。 --- ## これまで 私は、ご相談をいただく際や会議などでは、できる限り会議録を残すようにしています。参加者の発言をその場でPCに打ち込み、その場で会議録をほぼ完成させるようにしています。以前は(承諾を得て)録音したものを家に帰ってから文字起こししていましたが、骨の折れる作業でした。自動化しようと色々なソフトを試しましたが、雑音があったり話者がマイクから遠い場合にはうまく認識してくれず、結局はその場でPCにタイプするスタイルが最も効率的でした。 そんな中、令和4年9月22日にOpenAIから **Whisper** という文字起こしAIが公開され、試してみたところ驚くべき性能でした。それ以来、各種会議の文字起こしに活用しています。 :::note ##### 📝 この記事について 本記事の元となった旧サイトのブログ投稿は令和4年9月に公開したものです。しかし、Whisperの文字起こし精度は今でも極めて高く、ここで紹介する手順も現在(令和8年)まで有効です。むしろ生成AIを組み合わせた後処理の手法が加わったことで、当時よりもさらに実用的になっています。 ::: ## 雇用を奪わない形でのAI活用 昨今のAIの進化は凄まじいものがあります。良し悪しはともあれこの進化は止めることができません。 「急速に進化するAIが既存の仕事を奪っている」という視点から見ると、政治や哲学が技術の進歩に追いつけていない状況だと思います。負の影響を受ける職種には適切な支援が必要と考えます。 一方「AIが、個人の単調な作業を軽減してくれている」という視点から見ると、これまで掃除や洗濯、食器洗いなどの家事が自動化されてきたことと同じようによい面があると思います。こういう作業におけるAIの活用であれば「人間の雇用喪失をそれほど心配する必要がない」という点で安心できるところはあります。 これまで個人で行っていた会議録の文字起こし作業は後者に該当するものです。ここではその視点に立ち、Whisperをご紹介したいと思います。 ## 驚異的な精度 [Whisperのページ](https://openai.com/index/whisper/)を読むと、単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。 :::tip ##### 💡 モデルは large-v3 がおすすめ Whisper には tiny から large まで複数のモデルサイズがあります。日本語の文字起こしには **large-v3** が最も精度が高く、旧バージョンの large(v2)に比べて特に日本語の認識精度が大幅に向上しています。この記事で紹介している Colab ノートブックでも large-v3 を使用しています。 ::: たとえば、直近(令和4年9月時点)の小平市議会定例会における私の質問と、それに対する理事者側答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は黄色でマーク)。
上図は、私の一般質問をWhisperにかけてみた様子です。こんな感じで進捗していきます。
## 具体的な文字起こし手順
実行環境を用意しましたので、よろしければご利用ください。Google Drive に音声ファイルを置いて、Colab から直接読み込む方法で、インストール不要・無料で利用できます。
**① 以下のリンクを開きます。**(ブラウザは Google Chrome 推奨)
👉 [Google Colab で開く](https://colab.research.google.com/drive/1eAxHdqrF1Zt59V1ouSfo7iTBRYmhYDy7?usp=sharing)
**② Google アカウントでログインします。**
**③ メニューバーの「ファイル」→「ドライブにコピーを保存」を押します。**
これで自分の Google Drive に Colab ノートブックがコピーされます。
**④ メニューバーの「ランタイム」→「ランタイムのタイプを変更」を押します。**
**⑤ ハードウェアアクセラレータを「T4 GPU」に設定し、保存ボタンを押します。**
:::tip
##### 💡 TPU ではなく GPU を選んでください
「v5e-1 TPU」などの選択肢もありますが、Whisper は PyTorch 製のため GPU(CUDA)でのみ高速動作します。TPU を選んでもエラーになるか、CPU 動作で非常に遅くなります。必ず **T4 GPU** を選択してください。
:::
**⑥ 文字起こししたい音声ファイルを Google Drive の「マイドライブ」直下にアップロードします。**
ここでは例として `onsei.mp3` で説明します。mp3、m4a、wav などの音声ファイルだけでなく、mp4 などの動画ファイルもそのまま文字起こし可能です。
アップロードが完了するまで待ちます。
:::tip
- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られませんし、アクセスログなども取得していませんのでご安心ください。
- ただし Google は情報を取得できます。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。
- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えませんのでご了承ください。
:::
:::tip
##### 💡 「マイドライブ」直下とは?
Google Drive を開いたときに最初に表示される場所です。「会議録」などのフォルダの中ではなく、**フォルダの外**に置いてください。
どうしてもフォルダに整理したい場合は、たとえば「会議録」フォルダに入れた場合、後ほど⑦で、パスの部分を `MyDrive/会議録/onsei.mp3` のように変えてください。
:::
**⑦ コード内のファイルパスを確認します。**
デフォルトでは `/content/drive/MyDrive/onsei.mp3` になっています。
- **マイドライブ直下**に置いた場合: ファイル名だけ書き換えればOK(例: `MyDrive/kaigi.mp4`)
- **フォルダに入れた**場合: フォルダ名を含めて書き換え(例: `MyDrive/会議録/onsei.mp3`)
**⑧ 三角形の実行ボタン(▶)を押します。**
**⑨ 警告が出たら「このまま実行」を押します。**
**⑩ 完了すると、最後にすべてを連結した文章が表示されます。**
:::tip
##### 💡 コピー方法に注意
表示された文字起こし結果は `Ctrl+C` ではコピーされません。**マウスで結果を選択し、右クリック →「選択した内容をコピーする」** を選んでください。
:::
コピーしたテキストを Word などに貼り付けてご利用ください。
### 続けて実行する場合
別の音声ファイルを文字起こししたい場合は、ブラウザの再読み込みボタンを押すか、再生ボタンで再度実行できます。
うまく行かない場合は、メニューバーから「ランタイム」→「ランタイムを再実行」を押し、上記④⑤の手順で GPU に設定し直してから再実行してください。
:::caution
##### ⏱ 制限時間に注意
Google Colab 無償版には利用制限があり、最長12時間(実質4〜5時間で終了する場合も)で処理が強制終了します。文字起こしがきちんと進んでいることが確認できて、かつ途中で時間制限に達したようなエラーが表示された場合は、時間制限の可能性が高いです。ブラウザを再読み込みして再度実行するとうまく最後まで文字起こしが完了することもありますので、何度か試してみてください。もしどうしても制限時間が足りないようでしたら、Google Colab Pro へのアップグレードで解決する場合もあります。
:::
## 文字起こし結果を生成AIで仕上げる
ここまでの手順で得られた文字起こし結果は、Whisper だけでも十分実用的です。しかし、このテキストを **生成AI(ChatGPT, Grok, Claude, Gemini, DeepSeek など)に渡す** ことで、さらに高品質な会議録に仕上げることができます。
### 生成AIにできること
1. **誤字・脱字の修正**
Whisperの聞き間違い(例: 「一般して」→「一旦は」)を文脈から推測して修正してくれます。
2. **話者の特定とラベル付け**
あらかじめ話者の情報(「市長=小林洋子」「質問者=安竹洋平」など)を伝えておけば、発言ごとに `【安竹】` `【市長】` のように話者ラベルを付けてくれます。
3. **フィラーの除去と文章整形**
「えー」「あのー」といったフィラー(つなぎ言葉)を除去し、読みやすい文章に整形します。
4. **要約の生成**
長い会議の要点を箇条書きでまとめることもできます。
### 具体的なプロンプト例
上記⑩でコピーしたテキストを、以下のようなプロンプトとともに生成AIに渡します。