aboutsummaryrefslogtreecommitdiffhomepage
path: root/src/content/docs
diff options
context:
space:
mode:
Diffstat (limited to 'src/content/docs')
-rw-r--r--src/content/docs/whisper-moji-okosi.mdx86
1 files changed, 65 insertions, 21 deletions
diff --git a/src/content/docs/whisper-moji-okosi.mdx b/src/content/docs/whisper-moji-okosi.mdx
index 4285045..27e58be 100644
--- a/src/content/docs/whisper-moji-okosi.mdx
+++ b/src/content/docs/whisper-moji-okosi.mdx
@@ -25,10 +25,20 @@ Whisperの単語誤り率(Word Error Rate; WER)は日本語で約6.4%とさ
たとえば、直近(令和4年9月時点)の小平市議会定例会における私の質問と答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は<mark>黄色でマーク</mark>)。
<blockquote>
-いじめの重大事態に関してですよ、専門家から重大事態としてこれを扱いなさいと扱った方がいいですよという助言を受けながらですね、教育委員会としては重大事態として扱わなかったという事例があるんですが、<mark>一般して</mark>最終的に重大事態として扱うことになったんですが、その専門家から助言を受けたことで重大事態として扱ったわけではなくて、別の理由で扱うことになった。その専門家から重大事態として扱いなさいというような助言を受けたにも関わらず、その重大事態として扱わなかった場面において教育長はどのような指示されてきたのか…
+いじめの重大事態に関してですよ、専門家から重大事態としてこれを扱いなさいと扱った方がいいですよという助言を受けながらですね、教育委員会としては重大事態として扱わなかったという事例があるんですが、<mark>一般して</mark>最終的に重大事態として扱うことになったんですが、その専門家から助言を受けたことで重大事態として扱ったわけではなくて、別の理由で扱うことになった。その専門家から重大事態として扱いなさいというような助言を受けたにも関わらず、その重大事態として扱わなかった場面において教育長はどのような指示されてきたのか、例えば教育長はまっすぐに重大事態として扱いなさいとか、そういった指示はされてきたのか、それとも教育長自身にそういった情報が上がっていなかったのか、そのあたりちょっと確認させてください。
</blockquote>
-このように、個人名以外はほぼ完ぺきに文字起こしできています。役職名や市で独自に使っている単語などをファインチューンで最適化すれば、さらに精度が上がるでしょう。
+<blockquote>
+第1点目の、この3年間の教育長の給与になりますが、まず基本的な月額給与から申し上げますと81万円になります。あと、これに期末手当<mark>とが</mark>加わりますので、年間の収入で申し上げますと1,336万5,000円となります。これを3年間にさらに退職手当が入りますので、4,617万円となります。以上でございます。それ以外はないということでいいですか。報酬がそれ以外ないかということでいいですか。ない。以上ということですか。ない。ない<mark>ならないでしょ</mark>。<mark>村部長</mark>。まず月額給与と期末手当と退職手当、この3つとなります。他には特にはございません。以上でございます。
+</blockquote>
+
+<blockquote>
+その時には私はちょっと<mark>いなかったも</mark>ので、詳しいところは存じ上げてはいませんが、その話については聞く中では、当時そのお話ありましたが、すぐに重大事態に持っていくというような話ではなかったということもありまして、その後様々な話を聞く中で、やはり我々の市の方の重大事態に対する考え方というのも少し甘かったというところも確かに反省する点はございます。<mark>安田経</mark>議員がご指摘されていたように、重大事態の考え方というのは、やはりしっかりと我々の中で共通認識を持って対応する必要があると考えていますので、ここでまたいじめの関係については、少しマニュアル等をしっかり見直して、学校関係にもしっかり周知をして、考え方をしっかり統一していこうということで今進めておりますので、ご指摘されたような点は今後はまずない、絶対ないというふうに考えているところでございます。
+</blockquote>
+
+個人名はさすがに難しいようですが、ほぼ完ぺきに文字起こしできています。役職名や市で独自に使っている単語などをファインチューンで最適化すれば、さらに精度が上がるでしょう。
+
+![Whisperで文字起こし中の様子](/img/whisper-processing.png)
## Whisperで文字起こし → 生成AIで仕上げる
@@ -95,58 +105,92 @@ Google Drive に音声ファイルを置いて、Colab から直接読み込む
👉 [Google Colab で開く](https://colab.research.google.com/drive/1eAxHdqrF1Zt59V1ouSfo7iTBRYmhYDy7?usp=sharing)
+![Colab ログイン画面](/img/whisper-login.png)
+
**② メニューバーの「ファイル」→「ドライブにコピーを保存」を押します。**
これで自分の Google Drive に Colab ノートブックがコピーされます。
-**③ 文字起こししたい音声ファイルを Google Drive の「マイドライブ」直下にアップロードします。**
+**③ メニューバーの「ランタイム」→「ランタイムのタイプを変更」を押します。**
+
+![ランタイム変更メニュー](/img/whisper-runtime.png)
+
+**④ ハードウェアアクセラレータを「T4 GPU」に設定し、保存ボタンを押します。**
+
+![GPU設定画面](/img/whisper-gpu.png)
+
+**⑤ 文字起こししたい音声ファイルを Google Drive の「マイドライブ」直下にアップロードします。**
ここでは例として `onsei.mp3` というファイル名で説明します。mp3、m4a、wav などの音声ファイルだけでなく、mp4 などの動画ファイルもそのまま文字起こし可能です。
:::tip
##### 💡 「マイドライブ」直下とは?
Google Drive を開いたときに最初に表示される場所です。「会議録」などのフォルダの中ではなく、**フォルダの外**に置いてください。
-どうしてもフォルダに整理したい場合は、たとえば「会議録」フォルダに入れた場合、後ほど⑥で書き換えるパスが `MyDrive/会議録/onsei.mp3` のように変わります。
+どうしてもフォルダに整理したい場合は、たとえば「会議録」フォルダに入れた場合、後ほど⑦で書き換えるパスが `MyDrive/会議録/onsei.mp3` のように変わります。
:::
-**④ メニューバーの「ランタイム」→「ランタイムのタイプを変更」を押します。**
+![フォルダアイコン](/img/whisper-folder.png)
+
+**⑥ ドラッグ&ドロップで音声ファイルをアップロードします。**
-**⑤ ハードウェアアクセラレータを「T4 GPU」に設定し、保存ボタンを押します。**
+![アップロード画面](/img/whisper-upload.png)
-**⑥ コード内のファイルパスを確認します。**
+アップロードが完了するまで待ちます。
+
+![アップロード中](/img/whisper-uploading.png)
+
+**⑦ コード内のファイルパスを確認します。**
デフォルトでは `/content/drive/MyDrive/onsei.mp3` になっています。
- **マイドライブ直下**に置いた場合: ファイル名だけ書き換えればOK(例: `MyDrive/kaigi.mp4`)
- **フォルダに入れた**場合: フォルダ名を含めて書き換え(例: `MyDrive/会議録/onsei.mp3`)
-**⑦ 三角形の実行ボタン(▶)を押します。**
+**⑧ 三角形の実行ボタン(▶)を押します。**
+
+![実行ボタン](/img/whisper-run.png)
+
+**⑨ 警告が出たら「このまま実行」を押します。**
-**⑧ 警告が出たら「このまま実行」を押します。**
+![このまま実行](/img/whisper-konomama.png)
-**⑨ 完了すると、最後にすべてを連結した文章が表示されます。**
+**⑩ 完了すると、最後にすべてを連結した文章が表示されます。**
選択してコピーし、Word などに貼り付けてご利用ください。
+![文字起こし完了](/img/whisper-finished.png)
+
+### 続けて実行する場合
+
+別の音声ファイルを文字起こししたい場合は、再生ボタンを押せば再度実行できます。
+
+![再実行ボタン](/img/whisper-restart.png)
+
+うまく行かない場合は、メニューバーから「ランタイム」→「ランタイムを再実行」を押し、上記③④の手順で GPU に設定し直してから再実行してください。
+
### 注意事項
- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られません。アクセスログも取得していません。
- Google は情報を取得できる可能性があります。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。
- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えません。
-## 制限時間と高速化(Google Colab Pro)
+## 注意:一回当たりの制限時間があり、それを超えると強制終了します
+
+上記の方法で使っている Google Colab は、**無償版だと最長12時間で処理が強制的に終了**します。最長12時間とされていますが、4〜5時間で強制終了になる場合もあります。
-Google Colab 無償版では、最長12時間(実質4〜5時間程度)で処理が強制終了します。
+突然エラーメッセージが表示されて終了した場合は、制限時間に達したと考えてください。ブラウザを再読み込みして再実行するか、長時間かかりそうであれば次の **Google Colab Pro** の契約をご検討ください。
-処理を高速化したり制限時間を延ばしたい場合は、[Google Colab Pro](https://colab.research.google.com/signup) の契約がおすすめです。Pro+ にするとさらに快適になります。
+## スピードアップしたい/制限時間を延ばしたい場合(Google Colab Pro)
-| プラン | 月額料金(参考) |
-|--------|-----------------|
-| 無償版 | 無料 |
-| Pro | 約1,200円 |
-| Pro+ | 約6,000円 |
+処理の速度を上げたり制限時間を延ばしたい場合は、[Google Colab Pro](https://colab.research.google.com/signup) もしくは Pro+ を契約することで可能になります。
-Pro を契約すると1ヶ月間使えます。毎月自動更新されるため、**解約を忘れずに**。すぐ解約しても1ヶ月間は使えます。
+| プラン | 月額料金(記事執筆時点) | 特徴 |
+|--------|------------------------|------|
+| 無償版 | 無料 | 最長12時間(実質4〜5時間) |
+| Pro | 約1,200円 | 高速GPU、最大100回分 |
+| Pro+ | 約6,000円 | さらに高速、より長い制限時間 |
+
+条件にもよりますが、Pro で約2時間の音声(約80MB)を文字起こししたところ、Google Drive からの読み込みに約10分、文字起こし完了までに約33分かかりました(令和4年9月時点)。
+
+Pro を一度契約すると1ヶ月間(最大100回分)使えます。なお、一度契約すると**毎月自動的に支払い**がなされてしまうため、解約を忘れないようにしてください。クレジットカードでの支払いが済んだら早めに [Google Colab の解約ページ](https://colab.research.google.com/signup) から解約手続きをしておくとよいでしょう。すぐ解約しても1ヶ月間は使えます。
---
参考までに、令和4年9月時点で私が約2時間の音声(約80MB)を文字起こしした際は、Pro で約33分で完了しました(ファイル転送時間を除く)。
-
-普段は [議会活動等のまとめ](/ippan-situmon/) に情報をまとめています。🙂