From fdb543c2ec991906f8bafc752a4a5e24aa07e349 Mon Sep 17 00:00:00 2001 From: Yasutake Yohei <61961825+yasutakeyohei@users.noreply.github.com> Date: Thu, 25 Jun 2026 13:28:53 +0900 Subject: Whisperページ: 6件の修正(リンク追加、表現改善、構成変更) MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - Whisper公式ページへのリンクを追加 - ファインチューンより生成AI後処理で補える旨を追記 - 「今回の一般質問をWhisperにかけてみました」を復元 - 見出しを「具体的な文字起こし手順」に変更 - 「実行環境を用意しました」の文言を追加 - 注意事項を⑥アップロード手順の直後に移動 --- src/content/docs/whisper-to-ai-moji-okoshi.mdx | 44 +++++++++++++++----------- 1 file changed, 26 insertions(+), 18 deletions(-) (limited to 'src/content') diff --git a/src/content/docs/whisper-to-ai-moji-okoshi.mdx b/src/content/docs/whisper-to-ai-moji-okoshi.mdx index 6f18585..a0d44c6 100644 --- a/src/content/docs/whisper-to-ai-moji-okoshi.mdx +++ b/src/content/docs/whisper-to-ai-moji-okoshi.mdx @@ -5,48 +5,56 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字 ## これまで -会議のたびに会議録を残すようにしています。以前は(承諾を得て)録音したものを家に帰ってから文字起こししていましたが、骨の折れる作業でした。自動化しようと色々なソフトを試しましたが、雑音があったり話者がマイクから遠い場合にはうまく認識してくれず、結局はその場でPCにタイプするのが最も効率的でした。 +私は、ご相談をいただく際や会議などでは、できる限り会議録を残すようにしています。参加者の発言をその場でPCに打ち込み、その場で会議録をほぼ完成させるようにしています。以前は(承諾を得て)録音したものを家に帰ってから文字起こししていましたが、骨の折れる作業でした。自動化しようと色々なソフトを試しましたが、雑音があったり話者がマイクから遠い場合にはうまく認識してくれず、結局はその場でPCにタイプするスタイルが最も効率的でした。 -そんな中、令和4年9月にOpenAIから **Whisper** という文字起こしAIが公開され、試してみたところ驚くべき性能でした。それ以来、議会の一般質問や各種会議の文字起こしに活用しています。 +そんな中、令和4年9月22日にOpenAIから **Whisper** という文字起こしAIが公開され、試してみたところ驚くべき性能でした。それ以来、各種会議の文字起こしに活用しています。 :::note ##### 📝 この記事について -本記事の元となったブログ投稿は令和4年9月に公開されたものですが、Whisperの文字起こし精度は今でも極めて高く、ここで紹介する手順も現在(令和8年)まで有効です。むしろ、生成AIを組み合わせた後処理の手法が加わったことで、当時よりもさらに実用的になっています。 +本記事の元となった旧サイトのブログ投稿は令和4年9月に公開したものです。しかし、Whisperの文字起こし精度は今でも極めて高く、ここで紹介する手順も現在(令和8年)まで有効です。むしろ生成AIを組み合わせた後処理の手法が加わったことで、当時よりもさらに実用的になっています。 ::: ## 雇用を奪わない形でのAI活用 -深層学習AIの進化は凄まじく、良し悪しはともあれ止められません。「AIが仕事を奪う」という視点もあれば、「AIが単調な作業を軽減してくれる」という視点もあります。文字起こしのような個人レベルの単調作業の自動化は、後者の観点から安心して活用できる分野です。 +昨今のAIの進化は凄まじいものがあります。良し悪しはともあれこの進化は止めることができません。 + +「急速に進化するAIが既存の仕事を奪っている」という視点から見ると、政治や哲学が技術の進歩に追いつけていない状況だと思います。負の影響を受ける職種には適切な支援が必要と考えます。 + +一方「AIが、個人の単調な作業を軽減してくれている」という視点から見ると、これまで掃除や洗濯、食器洗いなどの家事が自動化されてきたことと同じようによい面があると思います。こういう作業におけるAIの活用であれば「人間の雇用喪失をそれほど心配する必要がない」という点で安心できるところはあります。 + +これまで個人で行っていた会議録の文字起こし作業は後者に該当するものです。ここではその視点に立ち、Whisperをご紹介したいと思います。 ## 驚異的な精度 -Whisperの単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。 +[Whisperのページ](https://openai.com/index/whisper/)を読むと、単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。 -たとえば、直近(令和4年9月時点)の小平市議会定例会における私の質問と答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は黄色でマーク)。 +たとえば、直近(令和4年9月時点)の小平市議会定例会における私の質問と、それに対する理事者側答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は黄色でマーク)。
-## ColabでWhisper文字起こしをする手順
+今回の私の一般質問をWhisperにかけてみました。こんな感じで進捗していきます。まとめ作業の効率がグーンと上がり、ありがたいです。
+
+## 具体的な文字起こし手順
-ここからは実際の手順です。Google Drive に音声ファイルを置いて、Colab から直接読み込む方法で、インストール不要・無料で利用できます。
+実行環境を用意しましたので、よろしければご利用ください。Google Drive に音声ファイルを置いて、Colab から直接読み込む方法で、インストール不要・無料で利用できます。
**① 以下のリンクを開きます。**(ブラウザは Google Chrome 推奨)
@@ -74,6 +82,12 @@ Whisperの単語誤り率(Word Error Rate; WER)は日本語で約6.4%とさ
+:::tip
+- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られません。アクセスログも取得していません。
+- Google は情報を取得できる可能性があります。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。
+- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えません。
+:::
+
:::tip
##### 💡 「マイドライブ」直下とは?
Google Drive を開いたときに最初に表示される場所です。「会議録」などのフォルダの中ではなく、**フォルダの外**に置いてください。
@@ -121,12 +135,6 @@ Google Drive を開いたときに最初に表示される場所です。「会
Google Colab 無償版には利用制限があり、最長12時間(実質4〜5時間で終了する場合も)で処理が強制終了します。文字起こしがきちんと進んでいることが確認できて、かつ途中で時間制限に達したようなエラーが表示された場合は、時間制限の可能性が高いです。ブラウザを再読み込みして再度実行するとうまく最後まで文字起こしが完了することもありますので、何度か試してみてください。もしどうしても制限時間が足りないようでしたら、Google Colab Pro へのアップグレードで解決する場合もあります。
:::
-### 注意事項
-
-- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られません。アクセスログも取得していません。
-- Google は情報を取得できる可能性があります。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。
-- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えません。
-
## 文字起こし結果を生成AIで仕上げる
ここまでの手順で得られた文字起こし結果は、Whisper だけでも十分実用的です。しかし、このテキストを **生成AI(ChatGPT, Grok, Claude, Gemini, DeepSeek など)に渡す** ことで、さらに高品質な会議録に仕上げることができます。
--
cgit v1.3.1