--- title: 無料・超高精度のWhisperで文字起こしする方法(+α) description: OpenAI Whisperを使った超高精度な文字起こしの方法。生成AIでの後処理も紹介。Google Colabを使えば無料・インストール不要で利用できます。 --- ## Whisperと出会うまでの文字起こし 私はできる限り会議録を残すようにしています。参加者の発言をその場でPCに打ち込み、その場で会議録をほぼ完成させるスタイルです。以前は録音を聞いてタイプしていましたが、骨の折れる作業でした。いろいろな自動化ソフトも試しました。しかし、雑音があるときや話者がマイクから遠いときなどは、うまく認識してくれません。結局、その場でタイプする方法に落ち着きました。 そんな中、令和4年9月22日にOpenAIから文字起こしAIの **Whisper** が公開されました。試してみると驚きの性能で、それ以来、各種会議の文字起こしに活用しています。 その手法をここに説明いたします。皆様のお役に立てましたら幸いです。 :::note ##### 📝 この記事について 本記事は令和4年9月に公開した記事の焼き直しです。しかし、Whisperの文字起こし精度は極めて高く、ここで紹介する手順は現在(令和8年7月)も有効です。生成AIを組み合わせた後処理の手法が加わったことで、当時よりさらに実用的になっています。 ::: {/* */} ## かんたん手順(手順だけ知りたい方) 1. [Colab を開く](https://colab.research.google.com/drive/1eAxHdqrF1Zt59V1ouSfo7iTBRYmhYDy7?usp=sharing)(Google アカウントでログイン) 2. 「ランタイム」→「ランタイムのタイプを変更」→ **T4 GPU** に設定 3. 音声ファイルを Google Drive の「マイドライブ」直下にアップロード 4. コード内のパスを確認(デフォルト: `MyDrive/onsei.mp3`) 5. ▶(実行)→「このまま実行」 6. 完了したら結果をコピー(`Ctrl+C` 不可、右クリック→「選択した内容をコピーする」) 7. 必要に応じて生成AI(ChatGPT 等)に貼り付け→整形 詳細は続きをご覧ください。 ## 雇用を奪わない形でのAI活用 昨今の凄まじいAI進化は、人類によいことなのでしょうか、悪いことなのでしょうか。画像生成AIには著作権上の問題があるため、私は使おうとは思いません。しかし会議録の文字起こし作業については、著作権侵害を心配する必要もなく、個人的な利用であれば雇用の喪失にもつながりません。掃除・洗濯・食器洗いが自動化されてきたものと同じ、人類のしあわせにつながることではないかと思います。ここではその視点に立ち、Whisperを紹介します。 ## 驚異的な精度 [Whisperのページ](https://openai.com/index/whisper/)を読むと、単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。**ファインチューン** というものを行えば、100%に近い精度も期待できるとのことです。 小平市議会定例会における私の質問と、それに対する理事者側答弁の音声をWhisperで文字起こしすると、たとえば次のようになります(間違えている箇所は黄色でマーク)。
**③ メニューバーの「ランタイム」→「ランタイムのタイプを変更」を押します。**
**④ ハードウェアアクセラレータを「T4 GPU」に設定し、保存ボタンを押します。**
:::tip
##### 💡 TPU ではなく GPU を選んでください
「v5e-1 TPU」などの選択肢もありますが、エラーになるか、非常に遅くなります。必ず **T4 GPU** を選択してください。
:::
**⑤ 文字起こししたい音声ファイルを Google Drive の「マイドライブ」直下にアップロードします。**
ここでは例として `onsei.mp3` で説明します。mp3、m4a、wav などの音声ファイルだけでなく、mp4 などの動画ファイルもそのまま文字起こし可能です。
アップロードが完了するまで待ちます。
:::tip
##### 💡 プライバシーについて
- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られません。アクセスログも取得していません。
- Colab 上で Google Drive をマウントしても、その内容がほかの共有相手に知られることはありません。ランタイムはユーザーごとに完全に独立しています。
- アンマウントしたい場合は、コードセルで `drive.flush_and_unmount()` を実行するか、「ランタイム」→「ランタイムを再起動」してください。
- Google は情報を取得できる可能性があります。機密性が気になる場合は、ご自身の PC に Whisper をインストールしてご利用ください。
:::
:::tip
##### 💡 「マイドライブ」直下とは?
Google Drive を開いたとき最初に表示される場所です。
フォルダに整理したい場合、たとえば「会議録」フォルダにonsei.mp3ファイルを入れた場合には、⑥でパスを `MyDrive/会議録/onsei.mp3` のように書き換えてください。
:::
**⑥ コード内のファイルパスを確認します。**
次の図の赤枠で囲んだ部分が、「パス」と呼ばれる、ファイルの置かれている場所です。デフォルトでは `/content/drive/MyDrive/onsei.mp3` になっています。
ファイル名や保存場所に応じて、パスを次のように書き換えてください。
- ファイル名が違う場合: `/content/drive/MyDrive/kaigi.mp4`(例)
- 保存先フォルダが違う場合: `/content/drive/MyDrive/会議録/onsei.mp3`(例)
- ファイル名と保存先フォルダが違う場合:`/content/drive/MyDrive/会議録/kaigi.mp4`(例)
**⑦ 三角形の実行ボタン(▶)を押します。**
「このノートブックに Google ドライブへのファイルへのアクセスを許可しますか?」と表示されたら、**「Google ドライブに接続」** を押してください。
{/* */}
また、「このノートブックは Google が作成したものではありません」という警告が表示されたら、**「このまま実行」** を押してください。
また、次のように表示される場合は「次へ」や「続行」を押してください。
許可をすると、次の図のように進捗していきます。グーグルドライブの許可タイミングによっては、初回でエラーが出る場合があります。もしエラーが出るようでしたら、再度三角形の実行ボタンを押してみてください。
完了すると、最後にすべてを連結した文章が表示されます。
表示された文字起こし結果は `Ctrl+C` ではコピーできません。**マウスで結果を選択し、右クリック →「選択した内容をコピーする」** を選んでください。
コピーしたテキストを Word などに貼り付けてご利用ください。
### 続けて実行する場合や不具合が起きた場合
別の音声ファイルを文字起こししたい場合は、ブラウザの再読み込みボタンを押して再度手順を繰り返してください。また、何か途中で不具合が起きた場合には、三角形の実行ボタン(▶)を押したり、ブラウザの再読み込みボタンを押したりすることで直る場合があります。
:::caution
##### ⏱ 制限時間に注意
Google Colab 無償版には利用制限があり、最長12時間(実質4〜5時間で終了する場合も)で処理が強制終了します。文字起こしが正常に進んでいることが確認でき、かつ途中で時間制限に達したといったエラーが表示された場合、時間制限に達した可能性が高いです。ブラウザを再読み込みして再度実行するとうまく最後まで文字起こしが完了することもありますので、何度か試してみてください。もしどうしても制限時間が足りないようでしたら、後述の Google Colab Pro へのアップグレードで解決する場合もあります。
:::
## 文字起こし結果を生成AIで仕上げる
ここまでの手順で得られた文字起こし結果は、Whisper だけでも十分実用的です。しかし、このテキストを **生成AI(ChatGPT, Grok, Claude, Gemini, DeepSeek など)に渡す** ことで、さらに高品質な会議録に仕上げることができます。
### 生成AIにできること
1. **誤字・脱字の修正**
Whisperの聞き間違い(例: 「粉糖して」→「奮闘して」)を文脈から推測して修正してくれます。
2. **話者の特定とラベル付け**
あらかじめ話者の情報(「市長=小林洋子」「質問者=安竹洋平」など)を伝えておけば、発言ごとに `【安竹】` `【市長】` のように話者ラベルを付けてくれます。
3. **フィラーの除去と文章整形**
「えー」「あのー」といったフィラー(つなぎ言葉)を除去し、読みやすい文章に整形します。
4. **要約の生成**
長い会議の要点を箇条書きでまとめることもできます。
### 具体的なプロンプト例
上記⑧でコピーしたテキストを、次のようなプロンプトとともに生成AIに渡します。