【社会実装】打ち合わせ音声からの文字おこし

こんにちは爺です。

世の中には音声から文字をおこしてくれるクラウドサービスがありますが、お客様との打ち合わせ内容をインターネット上に流したくないって思ったことはありませんか?

社会実装って言えるほどではないですが、少しでも助けにならないかと思ってローカル環境(インターネットに繋がない)での文字おこしを実験中です。

そこでPCを通販でポチッとしちゃいまして、今仮想環境を構築しています。




1.仮想環境とは

仮想環境とは、パソコンの中に複数の仮想のパソコンを作るようなイメージです。
メリットは本体のOS環境を汚さないことや、簡単に仮想環境をコピーできたりすることですかね。
WindowsOSのパソコンの中に、LinaxOSの仮想パソコンを作れたりします。
勿論、WindowsOSの仮想パソコンも作れます。
本体の環境にソフトウェアをインストールしたりアンインストールしたりしているとゴミがたまって本体自体が遅くなったり不安定になったりしますよね。
それが防げるだけでも大きなメリットがありますよね。
仮想環境の仕組み(仮想化技術)はいろいろとありますが、今回はDockerを使ってみました。

2.Dockerの仕組み

私がamazonでポチったパソコンはWindows11のパソコンです。
Windows環境で仮想パソコンを作るには、Dockerdesktopというソフトウェアをインストールする必要があります。
Dockerdesktopは無料で使えます。
インストールが終わるとimageの作成をしてcontainerを構築します。
実際に仮想パソコンとして動く環境はcontainerとなりますが、まずはcontainerを構築する元となるimageを作ります。
imageは仮想パソコンを作るためのOSも含めたソフトウェアのかたまりみたいなもので、このimageを複製することで、同じ環境を簡単にコピーできたりする代物です。
ですので、まずはimageを作っていくことになります。

3.imageを作る

このimageは親切な方々が沢山作ってくれていて、インターネット上に配布可能な状態で保管されています。
代表的なのはDockerHUBですね。
今回はDockerHUBから無料で利用できるOSであるubuntu(Linaxの亜種)をダウンロードしてimageの元とします。
細かい手順を記載すると長くなるので割愛しますが、imageを作る際にはimageの設計書であるDockerfileなるものをあらかじめ作っておきます。
下の画像がDockerfileを元にimageを作っている画面です。
画面下のほうが激しく動いています。(静止画なので分かりませんよね (´-﹏-`;) )

4.これからやること

OS ubuntuのimageは作れました。
ついでにimageからcontainerも作ることができましたが、シェルという画面でコマンドを入力しての操作しかできない状態(ms dos みたいで懐かしい)なので、GUIでの操作ができるようにします。
これもVNCという仮想化技術なのでこんがらがるからあまり記載しません。

GUIで操作できるようになったら、まずはOSS(オープンソースといって無料で使えるソフトウェア)を使って録音する仕組みから構築したいと思ってます。

以前、MP3形式のファイルから文字起こしをした際に、発言者も特定しようとAIを使っていましたが、特定の精度が良くなくって、「なんでだろ?」と調べてみたら、MP3は人が聞こえる周波数帯のみに限定して保管することで、圧縮率(ファイルサイズが小さい)が高い事がわかりました。
今回は録音する周波数帯が広いWAV形式で録音できるようにしてみて、発言者の特定ができるか研究しようと思ってます。

5.最後に

ここまでたどり着くのに半日かかりました。
爺は管理職でエンジニアではないので、ChatGPTに教えてもらいながらなんとかここまで。。。
先は長そうですが、じこじこやってみます。(試験勉強もあるしな〜。。。)

では、進捗があったらまた投稿しますね〜

皆様良い週末を!


この記事が気に入ったらサポートをしてみませんか?