aboutsummaryrefslogtreecommitdiffhomepage
path: root/src/content/docs/whisper-moji-okosi.mdx
blob: a9f275e81861ed8476a073732ad496fe4a91b063 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
---
title: 無料・超高精度のWhisperで文字起こしする方法
description: OpenAIのWhisperを使った超高精度な文字起こしの方法。Google Colabを使えば無料・インストール不要で利用できます。
---

## これまで

会議のたびに会議録を残すようにしています。以前は(承諾を得て)録音したものを家に帰ってから文字起こししていましたが、骨の折れる作業でした。自動化しようと色々なソフトを試しましたが、雑音があったり話者がマイクから遠い場合にはうまく認識してくれず、結局はその場でPCにタイプするのが最も効率的でした。

そんな中、2022年9月にOpenAIから **Whisper** という文字起こしAIが公開され、試してみたところ驚くべき性能でした。それ以来、議会の一般質問や各種会議の文字起こしに活用しています。

## 雇用を奪わない形でのAI活用

深層学習AIの進化は凄まじく、良し悪しはともあれ止められません。「AIが仕事を奪う」という視点もあれば、「AIが単調な作業を軽減してくれる」という視点もあります。文字起こしのような個人レベルの単調作業の自動化は、後者の観点から安心して活用できる分野です。

## 驚異的な精度

Whisperの単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。

たとえば、直近の小平市議会定例会における私の質問と答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は黄色でマーク)。

> いじめの重大事態に関してですよ、専門家から重大事態としてこれを扱いなさいと扱った方がいいですよという助言を受けながらですね、教育委員会としては重大事態として扱わなかったという事例があるんですが、一般して最終的に重大事態として扱うことになったんですが、その専門家から助言を受けたことで重大事態として扱ったわけではなくて、別の理由で扱うことになった。その専門家から重大事態として扱いなさいというような助言を受けたにも関わらず、その重大事態として扱わなかった場面において教育長はどのような指示されてきたのか…

このように、個人名以外はほぼ完ぺきに文字起こしできています。役職名や市で独自に使っている単語などをファインチューンで最適化すれば、さらに精度が上がるでしょう。

## 使い方(Google Colab で簡単実行)

### Google Drive を使う方法(推奨)

Google Drive に音声ファイルを置いて、Colab から直接読み込む方法です。ファイルが大きくても高速に処理できます。

**① 以下のリンクを開きます。**(ブラウザは Google Chrome 推奨)

👉 [Google Colab で開く](https://colab.research.google.com/drive/1eAxHdqrF1Zt59V1ouSfo7iTBRYmhYDy7?usp=sharing)

**② メニューバーの「ファイル」→「ドライブにコピーを保存」を押します。**  
これで自分の Google Drive に Colab ノートブックがコピーされます。

**③ 文字起こししたい音声ファイルを Google Drive の「マイドライブ」にアップロードします。**  
ここでは例として `onsei.mp3` というファイル名で説明します。mp3、m4a、wav などの音声ファイルだけでなく、mp4 などの動画ファイルもそのまま文字起こし可能です。

**④ メニューバーの「ランタイム」→「ランタイムのタイプを変更」を押します。**

**⑤ ハードウェアアクセラレータを「T4 GPU」に設定し、保存ボタンを押します。**

**⑥ コード内のファイル名を確認します。**  
デフォルトでは `/content/drive/MyDrive/onsei.mp3` になっています。別のファイル名の場合は書き換えてください。

**⑦ 三角形の実行ボタン(▶)を押します。**

**⑧ 警告が出たら「このまま実行」を押します。**

**⑨ 完了すると、最後にすべてを連結した文章が表示されます。**  
選択してコピーし、Word などに貼り付けてご利用ください。

### 注意事項

- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られません。アクセスログも取得していません。
- Google は情報を取得できる可能性があります。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。
- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えません。

## 制限時間と高速化(Google Colab Pro)

Google Colab 無償版では、最長12時間(実質4〜5時間程度)で処理が強制終了します。

処理を高速化したり制限時間を延ばしたい場合は、[Google Colab Pro](https://colab.research.google.com/signup) の契約がおすすめです。Pro+ にするとさらに快適になります。

| プラン | 月額料金(参考) |
|--------|-----------------|
| 無償版 | 無料 |
| Pro | 約1,200円 |
| Pro+ | 約6,000円 |

Pro を契約すると1ヶ月間使えます。毎月自動更新されるため、**解約を忘れずに**。すぐ解約しても1ヶ月間は使えます。

---

参考までに、私が約2時間の音声(約80MB)を文字起こしした際は、Pro で約33分で完了しました(ファイル転送時間を除く)。

普段は [議会活動等のまとめ](/ippan-situmon/) に情報をまとめています。🙂