aboutsummaryrefslogtreecommitdiffhomepage
path: root/src/content/docs
diff options
context:
space:
mode:
Diffstat (limited to 'src/content/docs')
-rw-r--r--src/content/docs/whisper-to-ai-moji-okoshi.mdx20
1 files changed, 15 insertions, 5 deletions
diff --git a/src/content/docs/whisper-to-ai-moji-okoshi.mdx b/src/content/docs/whisper-to-ai-moji-okoshi.mdx
index df51fc0..2dca99e 100644
--- a/src/content/docs/whisper-to-ai-moji-okoshi.mdx
+++ b/src/content/docs/whisper-to-ai-moji-okoshi.mdx
@@ -14,6 +14,21 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字
本記事の元となった旧サイトのブログ投稿は令和4年9月に公開したものです。しかし、Whisperの文字起こし精度は今でも極めて高く、ここで紹介する手順も現在(令和8年)まで有効です。むしろ生成AIを組み合わせた後処理の手法が加わったことで、当時よりもさらに実用的になっています。
:::
+## クイックスタート(手順だけ知りたい方)
+
+1. [Colab を開く](https://colab.research.google.com/drive/1eAxHdqrF1Zt59V1ouSfo7iTBRYmhYDy7?usp=sharing)(Google アカウントでログイン)
+2. 「ランタイム」→「ランタイムのタイプを変更」→ **T4 GPU** に設定
+3. 音声ファイルを Google Drive の「マイドライブ」直下にアップロード
+4. コード内のパスを確認(デフォルト: `MyDrive/onsei.mp3`)
+5. ▶(実行)→「このまま実行」
+6. 完了したら結果をコピー(`Ctrl+C` 不可、右クリック→「選択した内容をコピーする」)
+7. 必要に応じて生成AI(ChatGPT 等)に貼り付け→整形
+
+:::tip
+##### 💡 所要時間の目安
+無償版で 1〜2時間の音声なら 30分〜1時間程度。長い音声は途中で強制終了する場合があります。
+:::
+
## 雇用を奪わない形でのAI活用
昨今のAIの進化は凄まじいものがあります。良し悪しはともあれこの進化は止めることができません。
@@ -28,11 +43,6 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字
[Whisperのページ](https://openai.com/index/whisper/)を読むと、単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。
-:::tip
-##### 💡 モデルは large-v3 がおすすめ
-Whisper には tiny から large まで複数のモデルサイズがあります。日本語の文字起こしには **large-v3** が最も精度が高く、旧バージョンの large(v2)に比べて特に日本語の認識精度が大幅に向上しています。この記事で紹介している Colab ノートブックでも large-v3 を使用しています。
-:::
-
たとえば、直近(令和4年9月時点)の小平市議会定例会における私の質問と、それに対する理事者側答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は<mark>黄色でマーク</mark>)。
<div class="whisper-transcript">