From a5913195025aac87319daa82f4f9f1a0385bc0a5 Mon Sep 17 00:00:00 2001 From: Yasutake Yohei <61961825+yasutakeyohei@users.noreply.github.com> Date: Thu, 25 Jun 2026 14:26:34 +0900 Subject: Whisperページ: GPU画像差し替え、large-v3推奨を追記 MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit - GPU設定画面を runtime-type.png に差し替え - 「モデルは large-v3 がおすすめ」の :::tip を追加 large(v2)より日本語認識精度が大幅に向上している旨を説明 --- src/content/docs/whisper-to-ai-moji-okoshi.mdx | 23 +++++++++++++++-------- 1 file changed, 15 insertions(+), 8 deletions(-) (limited to 'src') diff --git a/src/content/docs/whisper-to-ai-moji-okoshi.mdx b/src/content/docs/whisper-to-ai-moji-okoshi.mdx index 646bcb7..dc12d52 100644 --- a/src/content/docs/whisper-to-ai-moji-okoshi.mdx +++ b/src/content/docs/whisper-to-ai-moji-okoshi.mdx @@ -28,17 +28,22 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字 [Whisperのページ](https://openai.com/index/whisper/)を読むと、単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。 +:::tip +##### 💡 モデルは large-v3 がおすすめ +Whisper には tiny から large まで複数のモデルサイズがあります。日本語の文字起こしには **large-v3** が最も精度が高く、旧バージョンの large(v2)に比べて特に日本語の認識精度が大幅に向上しています。この記事で紹介している Colab ノートブックでも large-v3 を使用しています。 +::: + たとえば、直近(令和4年9月時点)の小平市議会定例会における私の質問と、それに対する理事者側答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は黄色でマーク)。
-今回の私の一般質問をWhisperにかけてみました。こんな感じで進捗していきます。まとめ作業の効率がグーンと上がり、ありがたいです。
+上図は、私の一般質問をWhisperにかけてみた様子です。こんな感じで進捗していきます。
## 具体的な文字起こし手順
@@ -81,23 +86,25 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字
:::
**⑥ 文字起こししたい音声ファイルを Google Drive の「マイドライブ」直下にアップロードします。**
-ここでは例として `onsei.mp3` で説明します。mp3、m4a、wav などの音声ファイルだけでなく、mp4 などの動画ファイルもそのまま文字起こし可能です。アップロードが完了するまで待ちます。
+ここでは例として `onsei.mp3` で説明します。mp3、m4a、wav などの音声ファイルだけでなく、mp4 などの動画ファイルもそのまま文字起こし可能です。
+アップロードが完了するまで待ちます。
+
:::tip
-- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られません。アクセスログも取得していません。
-- Google は情報を取得できる可能性があります。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。
-- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えません。
+- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られませんし、アクセスログなども取得していませんのでご安心ください。
+- ただし Google は情報を取得できます。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。
+- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えませんのでご了承ください。
:::
:::tip
##### 💡 「マイドライブ」直下とは?
Google Drive を開いたときに最初に表示される場所です。「会議録」などのフォルダの中ではなく、**フォルダの外**に置いてください。
-どうしてもフォルダに整理したい場合は、たとえば「会議録」フォルダに入れた場合、後ほど⑦で書き換えるパスが `MyDrive/会議録/onsei.mp3` のように変わります。
+どうしてもフォルダに整理したい場合は、たとえば「会議録」フォルダに入れた場合、後ほど⑦で、パスの部分を `MyDrive/会議録/onsei.mp3` のように変えてください。
:::
**⑦ コード内のファイルパスを確認します。**
--
cgit v1.3.1