15 ”発言を資産化する仕組み”をAIで作ってみた（後編）

2024年6月27日 19:45

前回の記事で紹介した、AIを使って発言を資産化する以下のプロセスについて、実際に作ってみることにした。

（１）音声をマイクで拾う
（２）文字起こし
（３）文字起こしデータを定期的に要約
（４）イメージ画像を生成
（５）要約とイメージ画像を組み合わせてスライドにまとめる

文字起こしまでは、参考記事のおかげでほぼ順調にできたが、マイク入力をいいタイミングで区切るためには工夫が必要だった。特に講習の現地では、講師の声だけでなく生徒のヒソヒソ話まで入ってきて、おかしな入力が増えてしまった。パラメータのチューニングなどいろいろな手を試したが、結局、ラップトップに付随している指向性マイクを入力ソースに選ぶのが一番効果的だった。

文字起こしの結果を受け取ってGoogleスプレッドシートに記録するプログラムは、ChatGPTの力を借りながらGoogle Apps Script（GAS）で実装した。このプログラムを呼び出すためにGCPのApps Script APIを使っている。

スプレッドシートの各行には、細切れな音声の文字起こしが入っている。講習の初めから終わりまですべての文字起こしが含まれているが、特定のテーマの要約を作るなら、それについて話している間の文字起こしだけが欲しい。そのため、選択した行範囲を取得して、その範囲の文字起こしをテキスト結合する関数を用意した。

結合されたテキストには、精度がまちまちな文字起こしも入っている。そこで、こんなプロンプトで要約を作ってもらった。

「発言」は録音から音声認識技術によって文字起こししたテキストです。誤植があることも踏まえながら、内容を箇条書きの形式で要約してください。

#発言：
"""
文字起こしのテキスト
"""

出力結果はこんな感じだ。（一部省略・改変）

- 会議またはセミナーに関する発言が含まれている。
- 発言の対象にはセッションID、CVSS、リスク、改ざん、OWASP、SS、およびクリックジャッキングに関連するセキュリティ用語が繰り返し出ている。
- ココナッツが甘いという雑談も含まれている。
- 「もう言ってないところはありますか?」と発言者が問いかける部分がある。
- 視聴者に対してフォローボタンを押すように促す発言が二度ある。

講習の内容を要約できているかはまだ微妙だが、流れを作ることはできた。

この後にイメージ画像の生成に進むはずだったが、残念ながらここでタイムオーバー。よって、”講習で話していることが自動で文字起こし”され、”特定のテーマについての会話の範囲を選択すると話の要約が生成される”ところまで仕組み化ができた。

今回の講習でも使ってみたが、実用的なものにしていくには精度や仕組みにまだまだ課題がある。しかし、これを洗練していければ、口頭の会話を有効に資産化して再利用していく流れができると感じた。

この記事が気に入ったらサポートをしてみませんか？