diff options
| author | Yasutake Yohei <61961825+yasutakeyohei@users.noreply.github.com> | 2026-06-25 13:28:53 +0900 |
|---|---|---|
| committer | Yasutake Yohei <61961825+yasutakeyohei@users.noreply.github.com> | 2026-06-25 13:28:53 +0900 |
| commit | fdb543c2ec991906f8bafc752a4a5e24aa07e349 (patch) | |
| tree | fd037547ec34df16f5d9a60feb8b842c6e7512cd /src/content | |
| parent | 20d4ce9b33f37781dd054a8eea884835944e85f5 (diff) | |
Whisperページ: 6件の修正(リンク追加、表現改善、構成変更)
- Whisper公式ページへのリンクを追加
- ファインチューンより生成AI後処理で補える旨を追記
- 「今回の一般質問をWhisperにかけてみました」を復元
- 見出しを「具体的な文字起こし手順」に変更
- 「実行環境を用意しました」の文言を追加
- 注意事項を⑥アップロード手順の直後に移動
Diffstat (limited to 'src/content')
| -rw-r--r-- | src/content/docs/whisper-to-ai-moji-okoshi.mdx | 44 |
1 files changed, 26 insertions, 18 deletions
diff --git a/src/content/docs/whisper-to-ai-moji-okoshi.mdx b/src/content/docs/whisper-to-ai-moji-okoshi.mdx index 6f18585..a0d44c6 100644 --- a/src/content/docs/whisper-to-ai-moji-okoshi.mdx +++ b/src/content/docs/whisper-to-ai-moji-okoshi.mdx @@ -5,48 +5,56 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字 ## これまで -会議のたびに会議録を残すようにしています。以前は(承諾を得て)録音したものを家に帰ってから文字起こししていましたが、骨の折れる作業でした。自動化しようと色々なソフトを試しましたが、雑音があったり話者がマイクから遠い場合にはうまく認識してくれず、結局はその場でPCにタイプするのが最も効率的でした。 +私は、ご相談をいただく際や会議などでは、できる限り会議録を残すようにしています。参加者の発言をその場でPCに打ち込み、その場で会議録をほぼ完成させるようにしています。以前は(承諾を得て)録音したものを家に帰ってから文字起こししていましたが、骨の折れる作業でした。自動化しようと色々なソフトを試しましたが、雑音があったり話者がマイクから遠い場合にはうまく認識してくれず、結局はその場でPCにタイプするスタイルが最も効率的でした。 -そんな中、令和4年9月にOpenAIから **Whisper** という文字起こしAIが公開され、試してみたところ驚くべき性能でした。それ以来、議会の一般質問や各種会議の文字起こしに活用しています。 +そんな中、令和4年9月22日にOpenAIから **Whisper** という文字起こしAIが公開され、試してみたところ驚くべき性能でした。それ以来、各種会議の文字起こしに活用しています。 :::note ##### 📝 この記事について -本記事の元となったブログ投稿は令和4年9月に公開されたものですが、Whisperの文字起こし精度は今でも極めて高く、ここで紹介する手順も現在(令和8年)まで有効です。むしろ、生成AIを組み合わせた後処理の手法が加わったことで、当時よりもさらに実用的になっています。 +本記事の元となった旧サイトのブログ投稿は令和4年9月に公開したものです。しかし、Whisperの文字起こし精度は今でも極めて高く、ここで紹介する手順も現在(令和8年)まで有効です。むしろ生成AIを組み合わせた後処理の手法が加わったことで、当時よりもさらに実用的になっています。 ::: ## 雇用を奪わない形でのAI活用 -深層学習AIの進化は凄まじく、良し悪しはともあれ止められません。「AIが仕事を奪う」という視点もあれば、「AIが単調な作業を軽減してくれる」という視点もあります。文字起こしのような個人レベルの単調作業の自動化は、後者の観点から安心して活用できる分野です。 +昨今のAIの進化は凄まじいものがあります。良し悪しはともあれこの進化は止めることができません。 + +「急速に進化するAIが既存の仕事を奪っている」という視点から見ると、政治や哲学が技術の進歩に追いつけていない状況だと思います。負の影響を受ける職種には適切な支援が必要と考えます。 + +一方「AIが、個人の単調な作業を軽減してくれている」という視点から見ると、これまで掃除や洗濯、食器洗いなどの家事が自動化されてきたことと同じようによい面があると思います。こういう作業におけるAIの活用であれば「人間の雇用喪失をそれほど心配する必要がない」という点で安心できるところはあります。 + +これまで個人で行っていた会議録の文字起こし作業は後者に該当するものです。ここではその視点に立ち、Whisperをご紹介したいと思います。 ## 驚異的な精度 -Whisperの単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。 +[Whisperのページ](https://openai.com/index/whisper/)を読むと、単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。 -たとえば、直近(令和4年9月時点)の小平市議会定例会における私の質問と答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は<mark>黄色でマーク</mark>)。 +たとえば、直近(令和4年9月時点)の小平市議会定例会における私の質問と、それに対する理事者側答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は<mark>黄色でマーク</mark>)。 <div class="whisper-transcript"> **▼ 文字起こし例 1** -いじめの重大事態に関してですよ、専門家から重大事態としてこれを扱いなさいと扱った方がいいですよという助言を受けながらですね、教育委員会としては重大事態として扱わなかったという事例があるんですが、<mark>一般して</mark>最終的に重大事態として扱うことになったんですが、その専門家から助言を受けたことで重大事態として扱ったわけではなくて、別の理由で扱うことになった。その専門家から重大事態として扱いなさいというような助言を受けたにも関わらず、その重大事態として扱わなかった場面において教育長はどのような指示されてきたのか、例えば教育長は<mark>まっ</mark>すぐに重大事態として扱いなさいとか、そういった指示はされてきたのか、それとも教育長自身にそういった情報が上がっていなかったのか、そのあたりちょっと確認させてください。 +いじめの重大事態に関してですよ、専門家から重大事態としてこれを扱いなさいと扱った方がいいですよという助言を受けながらですね、教育委員会としては重大事態として扱わなかったという事例があるんですが、<mark>一般して</mark>最終的に重大事態として扱うことになったんですが、その専門家から助言を受けたことで重大事態として扱ったわけではなくて、別の理由で扱うことになった。その専門家から重大事態として扱いなさいというような助言を受けたにも<mark>関わらず(←漢字間違い:正しくは「拘わらず/かかわらず」)</mark>、その重大事態として扱わなかった場面において教育長はどのような指示されてきたのか、例えば教育長は<mark>まっ</mark>すぐに重大事態として扱いなさいとか、そういった指示はされてきたのか、それとも教育長自身にそういった情報が上がっていなかったのか、そのあたりちょっと確認させてください。 **▼ 文字起こし例 2** -第1点目の、この3年間の教育長の給与になりますが、まず基本的な月額給与から申し上げますと81万円になります。あと、これに期末手当<mark>とが</mark>加わりますので、年間の収入で申し上げますと1,336万5,000円となります。これを3年間にさらに退職手当が入りますので、4,617万円となります。以上でございます。それ以外はないということでいいですか。報酬がそれ以外ないかということでいいですか。ない。以上ということですか。ない。ない<mark>ならないでしょ</mark>。<mark>村部長</mark>。まず月額給与と期末手当と退職手当、この3つとなります。他には特にはございません。以上でございます。 +第1点目の、この3年間の教育長の給与になりますが、まず基本的な月額給与から申し上げますと81万円になります。あと、これに期末手当とが加わりますので、年間の収入で申し上げますと1,336万5,000円となります。これを3年間にさらに退職手当が入りますので、4,617万円となります。以上でございます。それ以外はないということでいいですか。報酬がそれ以外ないかということでいいですか。ない。以上ということですか。ない。ないならないでしょ。<mark>村(←正しくは村田)</mark>部長。まず月額給与と期末手当と退職手当、この3つとなります。他には特にはございません。以上でございます。 **▼ 文字起こし例 3** -その時には私はちょっと<mark>いなかったも</mark>ので、詳しいところは存じ上げてはいませんが、その話については聞く中では、当時そのお話ありましたが、すぐに重大事態に持っていくというような話ではなかったということもありまして、その後様々な話を聞く中で、やはり我々の市の方の重大事態に対する考え方というのも少し甘かったというところも確かに反省する点はございます。<mark>安田経</mark>議員がご指摘されていたように、重大事態の考え方というのは、やはりしっかりと我々の中で共通認識を持って対応する必要があると考えていますので、ここでまたいじめの関係については、少しマニュアル等をしっかり見直して、学校関係にもしっかり周知をして、考え方をしっかり統一していこうということで今進めておりますので、ご指摘されたような点は今後はまずない、絶対ないというふうに考えているところでございます。 +その時には私はちょっといなかったも<mark>と</mark>で、詳しいところは存じ上げてはいませんが、その話については聞く中では、当時そのお話ありましたが、すぐに重大事態に持っていくというような話ではなかったということもありまして、その後様々な話を聞く中で、やはり我々の市の方の重大事態に対する考え方というのも少し甘かったというところも確かに反省する点はございます。<mark>安田経</mark>議員がご指摘されていたように、重大事態の考え方というのは、やはりしっかりと我々の中で共通認識を持って対応する必要があると考えていますので… </div> -個人名はさすがに難しいようですが、ほぼ完ぺきに文字起こしできています。役職名や市で独自に使っている単語などをファインチューンで最適化すれば、さらに精度が上がるでしょう。 +個人名はさすがに難しいようですが、ほぼ完ぺきに文字起こしできています。ファインチューンで最適化すればさらに精度が上がりますが、手間がかかるため、通常の使用では次節で紹介する**生成AIによる後処理**で十分にカバーできます。 <img src="/img/whisper-processing.png" alt="Whisperで文字起こし中の様子" class="whisper-img" /> -## ColabでWhisper文字起こしをする手順 +今回の私の一般質問をWhisperにかけてみました。こんな感じで進捗していきます。まとめ作業の効率がグーンと上がり、ありがたいです。 + +## 具体的な文字起こし手順 -ここからは実際の手順です。Google Drive に音声ファイルを置いて、Colab から直接読み込む方法で、インストール不要・無料で利用できます。 +実行環境を用意しましたので、よろしければご利用ください。Google Drive に音声ファイルを置いて、Colab から直接読み込む方法で、インストール不要・無料で利用できます。 **① 以下のリンクを開きます。**(ブラウザは Google Chrome 推奨) @@ -75,6 +83,12 @@ Whisperの単語誤り率(Word Error Rate; WER)は日本語で約6.4%とさ <img src="/img/whisper-uploading.png" alt="アップロード中" class="whisper-img" /> :::tip +- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られません。アクセスログも取得していません。 +- Google は情報を取得できる可能性があります。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。 +- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えません。 +::: + +:::tip ##### 💡 「マイドライブ」直下とは? Google Drive を開いたときに最初に表示される場所です。「会議録」などのフォルダの中ではなく、**フォルダの外**に置いてください。 @@ -121,12 +135,6 @@ Google Drive を開いたときに最初に表示される場所です。「会 Google Colab 無償版には利用制限があり、最長12時間(実質4〜5時間で終了する場合も)で処理が強制終了します。文字起こしがきちんと進んでいることが確認できて、かつ途中で時間制限に達したようなエラーが表示された場合は、時間制限の可能性が高いです。ブラウザを再読み込みして再度実行するとうまく最後まで文字起こしが完了することもありますので、何度か試してみてください。もしどうしても制限時間が足りないようでしたら、Google Colab Pro へのアップグレードで解決する場合もあります。 ::: -### 注意事項 - -- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られません。アクセスログも取得していません。 -- Google は情報を取得できる可能性があります。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。 -- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えません。 - ## 文字起こし結果を生成AIで仕上げる ここまでの手順で得られた文字起こし結果は、Whisper だけでも十分実用的です。しかし、このテキストを **生成AI(ChatGPT, Grok, Claude, Gemini, DeepSeek など)に渡す** ことで、さらに高品質な会議録に仕上げることができます。 |
