1 files changed, 15 insertions, 5 deletions
diff --git a/src/content/docs/whisper-to-ai-moji-okoshi.mdx b/src/content/docs/whisper-to-ai-moji-okoshi.mdx
index df51fc0..2dca99e 100644
--- a/src/content/docs/whisper-to-ai-moji-okoshi.mdx
+++ b/src/content/docs/whisper-to-ai-moji-okoshi.mdx
@@ -14,6 +14,21 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字
 本記事の元となった旧サイトのブログ投稿は令和4年9月に公開したものです。しかし、Whisperの文字起こし精度は今でも極めて高く、ここで紹介する手順も現在（令和8年）まで有効です。むしろ生成AIを組み合わせた後処理の手法が加わったことで、当時よりもさらに実用的になっています。
 :::
 
+## クイックスタート（手順だけ知りたい方）
+
+1. [Colab を開く](https://colab.research.google.com/drive/1eAxHdqrF1Zt59V1ouSfo7iTBRYmhYDy7?usp=sharing)（Google アカウントでログイン）
+2. 「ランタイム」→「ランタイムのタイプを変更」→ **T4 GPU** に設定
+3. 音声ファイルを Google Drive の「マイドライブ」直下にアップロード
+4. コード内のパスを確認（デフォルト: `MyDrive/onsei.mp3`）
+5. ▶（実行）→「このまま実行」
+6. 完了したら結果をコピー（`Ctrl+C` 不可、右クリック→「選択した内容をコピーする」）
+7. 必要に応じて生成AI（ChatGPT 等）に貼り付け→整形
+
+:::tip
+##### 💡 所要時間の目安
+無償版で 1〜2時間の音声なら 30分〜1時間程度。長い音声は途中で強制終了する場合があります。
+:::
+
 ## 雇用を奪わない形でのAI活用
 
 昨今のAIの進化は凄まじいものがあります。良し悪しはともあれこの進化は止めることができません。
@@ -28,11 +43,6 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字
 
 [Whisperのページ](https://openai.com/index/whisper/)を読むと、単語誤り率（Word Error Rate; WER）は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**（用途に合わせて人名や用語を追加学習させること）を行えば、100%に近い精度も期待できます。
 
-:::tip
-##### 💡 モデルは large-v3 がおすすめ
-Whisper には tiny から large まで複数のモデルサイズがあります。日本語の文字起こしには **large-v3** が最も精度が高く、旧バージョンの large（v2）に比べて特に日本語の認識精度が大幅に向上しています。この記事で紹介している Colab ノートブックでも large-v3 を使用しています。
-:::
-
 たとえば、直近（令和4年9月時点）の小平市議会定例会における私の質問と、それに対する理事者側答弁の音声をWhisperで文字起こしすると次のようになります（間違えている箇所は<mark>黄色でマーク</mark>）。
 
 <div class="whisper-transcript">