aboutsummaryrefslogtreecommitdiffhomepage
path: root/src/content/docs/whisper-to-ai-moji-okoshi.mdx
diff options
context:
space:
mode:
Diffstat (limited to 'src/content/docs/whisper-to-ai-moji-okoshi.mdx')
-rw-r--r--src/content/docs/whisper-to-ai-moji-okoshi.mdx23
1 files changed, 15 insertions, 8 deletions
diff --git a/src/content/docs/whisper-to-ai-moji-okoshi.mdx b/src/content/docs/whisper-to-ai-moji-okoshi.mdx
index 646bcb7..dc12d52 100644
--- a/src/content/docs/whisper-to-ai-moji-okoshi.mdx
+++ b/src/content/docs/whisper-to-ai-moji-okoshi.mdx
@@ -28,17 +28,22 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字
[Whisperのページ](https://openai.com/index/whisper/)を読むと、単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。
+:::tip
+##### 💡 モデルは large-v3 がおすすめ
+Whisper には tiny から large まで複数のモデルサイズがあります。日本語の文字起こしには **large-v3** が最も精度が高く、旧バージョンの large(v2)に比べて特に日本語の認識精度が大幅に向上しています。この記事で紹介している Colab ノートブックでも large-v3 を使用しています。
+:::
+
たとえば、直近(令和4年9月時点)の小平市議会定例会における私の質問と、それに対する理事者側答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は<mark>黄色でマーク</mark>)。
<div class="whisper-transcript">
**▼ 文字起こし例 1**
-いじめの重大事態に関してですよ、専門家から重大事態としてこれを扱いなさいと扱った方がいいですよという助言を受けながらですね、教育委員会としては重大事態として扱わなかったという事例があるんですが、<mark>一般して</mark>最終的に重大事態として扱うことになったんですが、その専門家から助言を受けたことで重大事態として扱ったわけではなくて、別の理由で扱うことになった。その専門家から重大事態として扱いなさいというような助言を受けたにも<mark>関わらず(←漢字間違い:正しくは「拘わらず/かかわらず」)</mark>、その重大事態として扱わなかった場面において教育長はどのような指示されてきたのか、例えば教育長は<mark>まっ</mark>すぐに重大事態として扱いなさいとか、そういった指示はされてきたのか、それとも教育長自身にそういった情報が上がっていなかったのか、そのあたりちょっと確認させてください。
+教育委員会としては重大事態として扱わなかったという事例があるんですが、<mark>一般して</mark>最終的に重大事態として扱うことになったんですが、その専門家から助言を受けたことで重大事態として扱ったわけではなくて、別の理由で扱うことになった。その専門家から重大事態として扱いなさいというような助言を受けたにも<mark>関わらず(←正しくは「拘わらず/かかわらず」)</mark>、その重大事態として扱わなかった場面において教育長はどのような指示されてきたのか、例えば教育長は<mark>まっ</mark>すぐに重大事態として扱いなさいとか、…
**▼ 文字起こし例 2**
-第1点目の、この3年間の教育長の給与になりますが、まず基本的な月額給与から申し上げますと81万円になります。あと、これに期末手当とが加わりますので、年間の収入で申し上げますと1,336万5,000円となります。これを3年間にさらに退職手当が入りますので、4,617万円となります。以上でございます。それ以外はないということでいいですか。報酬がそれ以外ないかということでいいですか。ない。以上ということですか。ない。ないならないでしょ。<mark>村(←正しくは村田)</mark>部長。まず月額給与と期末手当と退職手当、この3つとなります。他には特にはございません。以上でございます。
+それ以外はないということでいいですか。報酬がそれ以外ないかということでいいですか。ない。以上ということですか。ない。<mark>村(←正しくは村田)</mark>部長。まず月額給与と期末手当と退職手当、この3つとなります。他には特にはございません。以上でございます。…
**▼ 文字起こし例 3**
@@ -50,7 +55,7 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字
<img src="/img/whisper-processing.png" alt="Whisperで文字起こし中の様子" class="whisper-img" />
-今回の私の一般質問をWhisperにかけてみました。こんな感じで進捗していきます。まとめ作業の効率がグーンと上がり、ありがたいです。
+上図は、私の一般質問をWhisperにかけてみた様子です。こんな感じで進捗していきます。
## 具体的な文字起こし手順
@@ -81,23 +86,25 @@ description: OpenAI Whisperと生成AIを組み合わせた超高精度な文字
:::
**⑥ 文字起こししたい音声ファイルを Google Drive の「マイドライブ」直下にアップロードします。**
-ここでは例として `onsei.mp3` で説明します。mp3、m4a、wav などの音声ファイルだけでなく、mp4 などの動画ファイルもそのまま文字起こし可能です。アップロードが完了するまで待ちます。
+ここでは例として `onsei.mp3` で説明します。mp3、m4a、wav などの音声ファイルだけでなく、mp4 などの動画ファイルもそのまま文字起こし可能です。
<img src="/img/whisper-mydrive.png" alt="マイドライブにアップロード" class="whisper-img" />
+アップロードが完了するまで待ちます。
+
<img src="/img/whisper-uploading.png" alt="アップロード中" class="whisper-img" />
:::tip
-- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られません。アクセスログも取得していません。
-- Google は情報を取得できる可能性があります。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。
-- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えません。
+- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られませんし、アクセスログなども取得していませんのでご安心ください。
+- ただし Google は情報を取得できます。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。
+- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えませんのでご了承ください。
:::
:::tip
##### 💡 「マイドライブ」直下とは?
Google Drive を開いたときに最初に表示される場所です。「会議録」などのフォルダの中ではなく、**フォルダの外**に置いてください。
-どうしてもフォルダに整理したい場合は、たとえば「会議録」フォルダに入れた場合、後ほど⑦で書き換えるパスが `MyDrive/会議録/onsei.mp3` のように変わります。
+どうしてもフォルダに整理したい場合は、たとえば「会議録」フォルダに入れた場合、後ほど⑦で、パスの部分を `MyDrive/会議録/onsei.mp3` のように変えてください。
:::
**⑦ コード内のファイルパスを確認します。**