From 1c1a78d8cf1b1610675bfdb4bd2bf29ba4557e0f Mon Sep 17 00:00:00 2001 From: Yasutake Yohei <61961825+yasutakeyohei@users.noreply.github.com> Date: Thu, 25 Jun 2026 19:20:50 +0900 Subject: Whisperページ: large-v3ヒント削除、クイックスタートを冒頭に追加 MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - large-v3モデル推奨の :::tip を削除 - 冒頭に「クイックスタート(手順だけ知りたい方)」を追加 7ステップ+所要時間目安をコンパクトにまとめた - 誤削除していた文字起こし例の導入文を復元 --- src/content/docs/whisper-to-ai-moji-okoshi.mdx | 20 +++++++++++++++----- 1 file changed, 15 insertions(+), 5 deletions(-) (limited to 'src') diff --git a/src/content/docs/whisper-to-ai-moji-okoshi.mdx b/src/content/docs/whisper-to-ai-moji-okoshi.mdx index df51fc0..2dca99e 100644 --- a/src/content/docs/whisper-to-ai-moji-okoshi.mdx +++ b/src/content/docs/whisper-to-ai-moji-okoshi.mdx @@ -14,6 +14,21 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字 本記事の元となった旧サイトのブログ投稿は令和4年9月に公開したものです。しかし、Whisperの文字起こし精度は今でも極めて高く、ここで紹介する手順も現在(令和8年)まで有効です。むしろ生成AIを組み合わせた後処理の手法が加わったことで、当時よりもさらに実用的になっています。 ::: +## クイックスタート(手順だけ知りたい方) + +1. [Colab を開く](https://colab.research.google.com/drive/1eAxHdqrF1Zt59V1ouSfo7iTBRYmhYDy7?usp=sharing)(Google アカウントでログイン) +2. 「ランタイム」→「ランタイムのタイプを変更」→ **T4 GPU** に設定 +3. 音声ファイルを Google Drive の「マイドライブ」直下にアップロード +4. コード内のパスを確認(デフォルト: `MyDrive/onsei.mp3`) +5. ▶(実行)→「このまま実行」 +6. 完了したら結果をコピー(`Ctrl+C` 不可、右クリック→「選択した内容をコピーする」) +7. 必要に応じて生成AI(ChatGPT 等)に貼り付け→整形 + +:::tip +##### 💡 所要時間の目安 +無償版で 1〜2時間の音声なら 30分〜1時間程度。長い音声は途中で強制終了する場合があります。 +::: + ## 雇用を奪わない形でのAI活用 昨今のAIの進化は凄まじいものがあります。良し悪しはともあれこの進化は止めることができません。 @@ -28,11 +43,6 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字 [Whisperのページ](https://openai.com/index/whisper/)を読むと、単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。 -:::tip -##### 💡 モデルは large-v3 がおすすめ -Whisper には tiny から large まで複数のモデルサイズがあります。日本語の文字起こしには **large-v3** が最も精度が高く、旧バージョンの large(v2)に比べて特に日本語の認識精度が大幅に向上しています。この記事で紹介している Colab ノートブックでも large-v3 を使用しています。 -::: - たとえば、直近(令和4年9月時点)の小平市議会定例会における私の質問と、それに対する理事者側答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は黄色でマーク)。
-- cgit v1.3.1