From d17699ec5456bd02e6822d55ebdcb59ed0ed4724 Mon Sep 17 00:00:00 2001 From: Yasutake Yohei <61961825+yasutakeyohei@users.noreply.github.com> Date: Thu, 25 Jun 2026 22:55:14 +0900 Subject: Whisperページ: ⑥にpath.png追加、⑦の画像をplaybutton.pngに差し替え MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- src/content/docs/whisper-to-ai-moji-okoshi.mdx | 52 +++++++++++--------------- 1 file changed, 22 insertions(+), 30 deletions(-) (limited to 'src/content') diff --git a/src/content/docs/whisper-to-ai-moji-okoshi.mdx b/src/content/docs/whisper-to-ai-moji-okoshi.mdx index 302af69..9f791d2 100644 --- a/src/content/docs/whisper-to-ai-moji-okoshi.mdx +++ b/src/content/docs/whisper-to-ai-moji-okoshi.mdx @@ -5,13 +5,15 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字 ## これまで -私は、ご相談をいただく際や会議などでは、できる限り会議録を残すようにしています。参加者の発言をその場でPCに打ち込み、その場で会議録をほぼ完成させるようにしています。以前は(承諾を得て)録音したものを家に帰ってから文字起こししていましたが、骨の折れる作業でした。自動化しようと色々なソフトを試しましたが、雑音があったり話者がマイクから遠い場合にはうまく認識してくれず、結局はその場でPCにタイプするスタイルが最も効率的でした。 +私はできる限り会議録を残すようにしています。参加者の発言をその場でPCに打ち込み、その場で会議録をほぼ完成させるスタイルです。以前は(承諾を得て)録音を持ち帰り文字起こししていましたが骨の折れる作業でした。色々な自動化ソフトを試しましたが、雑音があったり話者がマイクから遠かったりする場合はうまく認識してくれず、結局その場でPCに打つ方法がベストでした。 -そんな中、令和4年9月22日にOpenAIから **Whisper** という文字起こしAIが公開され、試してみたところ驚くべき性能でした。それ以来、各種会議の文字起こしに活用しています。 +しかし令和4年9月22日にOpenAIから **Whisper** という文字起こしAIが公開され、試してみたところ驚くべき性能でした。それ以来、各種会議の文字起こしに活用しています。 + +その手法をここに説明いたします。皆様のお役に立てましたら幸いです。 :::note ##### 📝 この記事について -本記事の元となった旧サイトのブログ投稿は令和4年9月に公開したものです。しかし、Whisperの文字起こし精度は今でも極めて高く、ここで紹介する手順も現在(令和8年)まで有効です。むしろ生成AIを組み合わせた後処理の手法が加わったことで、当時よりもさらに実用的になっています。 +本記事は令和4年9月に公開した旧サイトのブログ投稿の焼き直しです。Whisperの文字起こし精度は今でも極めて高く、ここで紹介する手順も現在(令和8年)有効です。むしろ生成AIを組み合わせた後処理の手法が加わったことで、当時よりさらに実用的になっています。 ::: ## かんたん手順(手順だけ知りたい方) @@ -24,6 +26,8 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字 6. 完了したら結果をコピー(`Ctrl+C` 不可、右クリック→「選択した内容をコピーする」) 7. 必要に応じて生成AI(ChatGPT 等)に貼り付け→整形 +より詳しい方法は続きをご覧ください。 + :::tip ##### 💡 所要時間の目安 無償版で 1〜2時間の音声なら 30分〜1時間程度。長い音声は途中で強制終了する場合があります。 @@ -31,19 +35,14 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字 ## 雇用を奪わない形でのAI活用 -昨今のAIの進化は凄まじいものがあります。良し悪しはともあれこの進化は止めることができません。 - -「急速に進化するAIが既存の仕事を奪っている」という視点から見ると、政治や哲学が技術の進歩に追いつけていない状況だと思います。負の影響を受ける職種には適切な支援が必要と考えます。 - -一方「AIが、個人の単調な作業を軽減してくれている」という視点から見ると、これまで掃除や洗濯、食器洗いなどの家事が自動化されてきたことと同じようによい面があると思います。こういう作業におけるAIの活用であれば「人間の雇用喪失をそれほど心配する必要がない」という点で安心できるところはあります。 - -これまで個人で行っていた会議録の文字起こし作業は後者に該当するものです。ここではその視点に立ち、Whisperをご紹介したいと思います。 +昨今の凄まじいAI進化。善悪はともあれ、止められません。 +家の中の掃除や洗濯、食器洗いなどの家事が自動化されてきたことと同じように、主に自分で行う作業のAI化であれば「人間の雇用喪失をそれほど心配する必要がない」という点で安心できるところはあります。個人的な会議録の文字起こし作業もその一つです。ここではその視点に立ち、Whisperをご紹介したいと思います。 ## 驚異的な精度 -[Whisperのページ](https://openai.com/index/whisper/)を読むと、単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。 +[Whisperのページ](https://openai.com/index/whisper/)を読むと、単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。余談ですが **ファインチューン** というものを行えば、100%に近い精度も期待できるようです。 -たとえば、直近(令和4年9月時点)の小平市議会定例会における私の質問と、それに対する理事者側答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は黄色でマーク)。 +直近(令和4年9月時点)の小平市議会定例会における私の質問と、それに対する理事者側答弁の音声をWhisperで文字起こしすると、例えば次のようになります(間違えている箇所は黄色でマーク)。
-:::tip
-##### 💡 自分の Drive に保存したい場合
-メニューバーの「ファイル」→「ドライブにコピーを保存」を押すと、自分の Google Drive にノートブックが保存されます。保存しなくてもそのまま実行できます。実行中の編集が共有元に反映されることはありません。
-:::
-
**③ メニューバーの「ランタイム」→「ランタイムのタイプを変更」を押します。**
@@ -94,7 +88,7 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字
:::tip
##### 💡 TPU ではなく GPU を選んでください
-「v5e-1 TPU」などの選択肢もありますが、Whisper は PyTorch 製のため GPU(CUDA)でのみ高速動作します。TPU を選んでもエラーになるか、CPU 動作で非常に遅くなります。必ず **T4 GPU** を選択してください。
+「v5e-1 TPU」などの選択肢もありますが、エラーになるか、非常に遅くなります。必ず **T4 GPU** を選択してください。
:::
**⑤ 文字起こししたい音声ファイルを Google Drive の「マイドライブ」直下にアップロードします。**
@@ -127,9 +121,11 @@ Google Drive を開いたときに最初に表示される場所です。「会
- **マイドライブ直下**に置いた場合: ファイル名だけ書き換えればOK(例: `MyDrive/kaigi.mp4`)
- **フォルダに入れた**場合: フォルダ名を含めて書き換え(例: `MyDrive/会議録/onsei.mp3`)
+
+
**⑦ 三角形の実行ボタン(▶)を押します。**
-
+
**⑧ 警告が出たら「このまま実行」を押します。**
@@ -145,17 +141,13 @@ Google Drive を開いたときに最初に表示される場所です。「会
コピーしたテキストを Word などに貼り付けてご利用ください。
-### 続けて実行する場合
-
-別の音声ファイルを文字起こししたい場合は、ブラウザの再読み込みボタンを押すか、再生ボタンで再度実行できます。
-
-
+### 続けて実行する場合や不具合が起きた場合
-うまく行かない場合は、メニューバーから「ランタイム」→「ランタイムを再実行」を押し、上記③④の手順で GPU に設定し直してから再実行してください。
+別の音声ファイルを文字起こししたい場合は、ブラウザの再読み込みボタンを押して再度手順を繰り返してください。また、何か途中で不具合が起きた場合にも、同じ手順で直る場合があります。
:::caution
##### ⏱ 制限時間に注意
-Google Colab 無償版には利用制限があり、最長12時間(実質4〜5時間で終了する場合も)で処理が強制終了します。文字起こしがきちんと進んでいることが確認できて、かつ途中で時間制限に達したようなエラーが表示された場合は、時間制限の可能性が高いです。ブラウザを再読み込みして再度実行するとうまく最後まで文字起こしが完了することもありますので、何度か試してみてください。もしどうしても制限時間が足りないようでしたら、Google Colab Pro へのアップグレードで解決する場合もあります。
+Google Colab 無償版には利用制限があり、最長12時間(実質4〜5時間で終了する場合も)で処理が強制終了します。文字起こしが正常に進んでいることが確認でき、かつ途中で時間制限に達したといったエラーが表示された場合、時間制限に達した可能性が高いです。ブラウザを再読み込みして再度実行するとうまく最後まで文字起こしが完了することもありますので、何度か試してみてください。もしどうしても制限時間が足りないようでしたら、後述の Google Colab Pro へのアップグレードで解決する場合もあります。
:::
## 文字起こし結果を生成AIで仕上げる
@@ -201,7 +193,7 @@ Google Colab 無償版には利用制限があり、最長12時間(実質4〜5