aboutsummaryrefslogtreecommitdiffhomepage
path: root/src/content/docs/whisper-moji-okosi.mdx
blob: 4812f2d40467b9e002b5384b5af150c49ce47caa (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
---
title: 無料・超高精度のWhisperで文字起こしする方法
description: OpenAIのWhisperを使った超高精度な文字起こしの方法。Google Colabを使えば無料・インストール不要で利用できます。
---

## これまで

会議のたびに会議録を残すようにしています。以前は(承諾を得て)録音したものを家に帰ってから文字起こししていましたが、骨の折れる作業でした。自動化しようと色々なソフトを試しましたが、雑音があったり話者がマイクから遠い場合にはうまく認識してくれず、結局はその場でPCにタイプするのが最も効率的でした。

そんな中、令和4年9月にOpenAIから **Whisper** という文字起こしAIが公開され、試してみたところ驚くべき性能でした。それ以来、議会の一般質問や各種会議の文字起こしに活用しています。

## 雇用を奪わない形でのAI活用

深層学習AIの進化は凄まじく、良し悪しはともあれ止められません。「AIが仕事を奪う」という視点もあれば、「AIが単調な作業を軽減してくれる」という視点もあります。文字起こしのような個人レベルの単調作業の自動化は、後者の観点から安心して活用できる分野です。

## 驚異的な精度

Whisperの単語誤り率(Word Error Rate; WER)は日本語で約6.4%とされています。「ほぼ完ぺき」と言われる5%に近く、実際の使用感でも非常に高い精度です。さらに **ファインチューン**(用途に合わせて人名や用語を追加学習させること)を行えば、100%に近い精度も期待できます。

たとえば、直近の小平市議会定例会における私の質問と答弁の音声をWhisperで文字起こしすると次のようになります(間違えている箇所は黄色でマーク)。

> いじめの重大事態に関してですよ、専門家から重大事態としてこれを扱いなさいと扱った方がいいですよという助言を受けながらですね、教育委員会としては重大事態として扱わなかったという事例があるんですが、一般して最終的に重大事態として扱うことになったんですが、その専門家から助言を受けたことで重大事態として扱ったわけではなくて、別の理由で扱うことになった。その専門家から重大事態として扱いなさいというような助言を受けたにも関わらず、その重大事態として扱わなかった場面において教育長はどのような指示されてきたのか…

このように、個人名以外はほぼ完ぺきに文字起こしできています。役職名や市で独自に使っている単語などをファインチューンで最適化すれば、さらに精度が上がるでしょう。

## Whisperで文字起こし → 生成AIで仕上げる

Whisperだけでも十分実用的ですが、文字起こし結果を **生成AI(ChatGPT, Claude, Gemini など)に渡す**ことで、さらに高品質な会議録ができあがります。

### 生成AIにできること

1. **誤字・脱字の修正**  
   Whisperの聞き間違い(例: 「一般して」→「一旦は」)を文脈から推測して修正してくれます。

2. **話者の特定とラベル付け**  
   あらかじめ話者の情報(「市長=小林洋子」「質問者=安竹洋平」など)を伝えておけば、発言ごとに `【安竹】` `【市長】` のように話者ラベルを付けてくれます。

3. **フィラーの除去と文章整形**  
   「えー」「あのー」といったフィラー(つなぎ言葉)を除去し、読みやすい文章に整形します。

4. **要約の生成**  
   長い会議の要点を箇条書きでまとめることもできます。

### 具体的なプロンプト例

Whisperで文字起こししたテキストをコピーし、以下のようなプロンプトとともに生成AIに渡します。

> 以下は市議会の一般質問の文字起こしです。次のように整形してください:
>
> - 誤字・脱字を文脈から判断して修正する
> - 話者を特定し、発言の先頭に【話者名】を付ける
>   話者: 安竹洋平(質問者)、小林洋子(市長)、教育長(名前不明)
> - 「えー」「あのー」などのフィラーは削除する
> - 文意が通るように適宜句読点を補う
> - 元の発言内容は変えないこと
>
> [ここにWhisperの文字起こし結果を貼り付ける]

### 実例

**Whisper出力(生):**
> いじめの重大事態に関してですよ専門家から重大事態としてこれを扱いなさいと扱った方がいいですよという助言を受けながらですね教育委員会としては重大事態として扱わなかったという事例があるんですが一般して最終的に重大事態として扱うことになったんですが

**生成AIで整形後:**
> 【安竹】いじめの重大事態に関してです。専門家から「重大事態として扱った方がいい」という助言を受けながら、教育委員会としては重大事態として扱わなかった事例があります。一旦は最終的に重大事態として扱うことになったのですが…

### 議会での活用フロー

```
音声ファイル(.mp3/.m4a)
    ↓ Whisper で文字起こし
生テキスト(誤字・フィラーあり)
    ↓ 生成AI で整形
整形済みテキスト(話者ラベル・句読点付き)
    ↓ 最終確認・加筆
完成した会議録
```

この方法を組み合わせることで、2時間の会議の会議録作成が、従来の半分以下の時間で完了するようになりました。

## 使い方(Google Colab で簡単実行)

### Google Drive を使う方法(推奨)

Google Drive に音声ファイルを置いて、Colab から直接読み込む方法です。ファイルが大きくても高速に処理できます。

**① 以下のリンクを開きます。**(ブラウザは Google Chrome 推奨)

👉 [Google Colab で開く](https://colab.research.google.com/drive/1eAxHdqrF1Zt59V1ouSfo7iTBRYmhYDy7?usp=sharing)

**② メニューバーの「ファイル」→「ドライブにコピーを保存」を押します。**  
これで自分の Google Drive に Colab ノートブックがコピーされます。

**③ 文字起こししたい音声ファイルを Google Drive の「マイドライブ」にアップロードします。**  
ここでは例として `onsei.mp3` というファイル名で説明します。mp3、m4a、wav などの音声ファイルだけでなく、mp4 などの動画ファイルもそのまま文字起こし可能です。

**④ メニューバーの「ランタイム」→「ランタイムのタイプを変更」を押します。**

**⑤ ハードウェアアクセラレータを「T4 GPU」に設定し、保存ボタンを押します。**

**⑥ コード内のファイル名を確認します。**  
デフォルトでは `/content/drive/MyDrive/onsei.mp3` になっています。別のファイル名の場合は書き換えてください。

**⑦ 三角形の実行ボタン(▶)を押します。**

**⑧ 警告が出たら「このまま実行」を押します。**

**⑨ 完了すると、最後にすべてを連結した文章が表示されます。**  
選択してコピーし、Word などに貼り付けてご利用ください。

### 注意事項

- アップロードしたファイルの内容や文字起こし結果は、私からは一切見られません。アクセスログも取得していません。
- Google は情報を取得できる可能性があります。機密性の高い情報の場合は、ご自身の PC に Whisper をインストールしてご利用ください。
- ご利用に際して何らかの問題が生じた場合でも、私の方では責任を負えません。

## 制限時間と高速化(Google Colab Pro)

Google Colab 無償版では、最長12時間(実質4〜5時間程度)で処理が強制終了します。

処理を高速化したり制限時間を延ばしたい場合は、[Google Colab Pro](https://colab.research.google.com/signup) の契約がおすすめです。Pro+ にするとさらに快適になります。

| プラン | 月額料金(参考) |
|--------|-----------------|
| 無償版 | 無料 |
| Pro | 約1,200円 |
| Pro+ | 約6,000円 |

Pro を契約すると1ヶ月間使えます。毎月自動更新されるため、**解約を忘れずに**。すぐ解約しても1ヶ月間は使えます。

---

参考までに、私が約2時間の音声(約80MB)を文字起こしした際は、Pro で約33分で完了しました(ファイル転送時間を除く)。

普段は [議会活動等のまとめ](/ippan-situmon/) に情報をまとめています。🙂