見出し画像

自動文字起こしアプリに関するあれこれを調べてみた

こんにちは、製造部の松田です。

文字お越しをしてくれるスマホアプリが
広く知られるようになって5年くらい経つでしょうか。

私の前職はかなりミーティングが多い職場でして、

参加者が誰で、何についてしゃべっていて、
その要点は何で、他の論点にどう関連していて…

みたいな並行処理にチャレンジしていたのですが

やはり人間はコンピューターに近づくことができず、
途中から議事録を取る手が止まってしまった経験があります。

その時の上司からは、Otterというアプリを教えてもらい、

軽い衝撃とともに「初めから使っていれば…」という
少しの無念さを感じたことを覚えています。


さて、Otterをはじめとする
自動文字起こしアプリがいろいろ出ているわけですが、

今はどんなサービスがリリースされているのか、
そもそも文字起こしの原理がどうなっているのか、
について皆さんはどこまでご存じでしょうか。

私もかれこれOtterから時が止まっている立場なので、
時代へのキャッチアップも兼ねて、
以下のポイントでリサーチを共有してみようと思います。


日本語に対応している文字起こしアプリ

2024年3月時点で、Otterは英語にしか対応していないようです。

日本語に対応しているサービスで、
代表的なものに以下が確認されます。

サービス名(運営会社/本社所在地/公式発表の最新ユーザ数)

  1. Notta(Notta株式会社/日本/200万人)

  2. MS Translator=旧Group Transcribe(Microsoft Corp./米国/10億人)

  3. AutoMemo App(ソースネクスト株式会社/日本/10万アカウント)

これらのサービスを見ていて思うのは、

  • 日本語対応している場合、他言語にも対応していることが多い

  • 他言語に対応しているため、翻訳機能が附随している場合が多い

  • 文字起こしした内容を要約する機能が附随している場合と、他の要約アプリと連携して補っている場合とがある

特にNottaは翻訳も要約もアプリの中でできてしまうので、
会議のウェイトが大きい会社にとても刺さる印象を受けました。

2024年3月時点でNottaのHPを見ると、
PwC JapanやSalfeforce、OMRONが利用しているらしく、
なるほどな~と思います。


文字起こしは、どのような原理で実現しているのか

音は空気の振動によるもので、
それを可視化するために波形グラフで表示する
ということは今さら述べるまでもないと思いますが、

文字起こしアプリはその波形グラフを
どのように分析してテキストに変換しているのでしょうか。

テレコミュニケーション企業である
トラスシステム株式会社の記事によると、

ディープラーニングを用いた音声認識は構造が複雑で、数年で新しいモデルに更新されるため、理解するのに時間を要します。今回は初学者向けとして、従来行われてきたシンプルな音声認識の仕組みを紹介します。

音声認識の仕組みと課題丨音声をテキスト化する技術・アルゴリズムを解説

ということだそうで、
つまりディープラーニングを活用する方法と
音素を解析する方法の2種類があるそうです。

「音素」とは聞きなれない言葉ですね…
広辞苑によると、次のように定義されています。

「ある一つの言語で用いる音の単位で、
意味の相違をもたらす最小の単位。
類似した特徴をもつ、意味を区別しない音声の集合体。」

そのような音素を抜き出し、
事前学習した音素パターンに対応する
単語を当てはめてゆくのだそうです。

先ほどの記事の説明に戻ります。

音響分析によって加工された音声は、音響モデルと呼ばれる作業で解析されます。AIが事前学習したデータと照らし合わせ、音波の最小単位である音素を抜き出す作業です。音素は言語によって構成が異なり、日本語の場合は以下の3種類で構成されます。

・母音となる「あいうえお」
・撥音の「ん」
・子音23種類

「学校の近く」の場合は場合は「g-a-k-k-o-n-o-t-i-k-a-k-u」が音素に該当します。

『音声認識の仕組みと課題丨音声をテキスト化する技術・アルゴリズムを解説』

ちなみにNottaも、
ホームページの説明からするに
この音素を解析する方法を
採用していると推察されます。

Nottaホームページ


ビジネス上の利用において、情報セキュリティは大丈夫か

情報セキュリティを担保するという意味で
「CIA」を高いレベルで維持するとよく言います。
(「CIA」は最低限の要素であるともされますが)

  • "C"onfidentiality=機密性(許可された利用者のみアクセス可)

  • "I"ntegrity=完全性(情報の正確さや完全さを確保する)

  • "A"vailability=可用性(必要な時に必ず情報にアクセスできる)

つまり内部からのデータ漏洩を無くしたり、
外部から盗み見ようとする者の進入を防ぐだけでなく、

災害などでサーバーなどシステムに欠損を受けた場合でも、
記録したデータを取り出せる体制がある必要もあるわけです。

例えばNottaの例で見てみますと、

  • HTTPSを使用し、転送データを暗号化

  • パスワードをハッシュ処理することでの漏洩防止

  • クラウドサーバを使用し、データバックアップを構築

※弊社はNottaを宣伝するインセンティブは受けていません。
あくまでウェブサイトが見やすくまとめられているためです。

もちろん物事に100%ということはありませんし、

なんならサービスの枠組みがどれだけ堅牢であっても
事業者内部の従業員が不正を働くといった例も
枚挙にいとまが無いわけではありますが、

サービスによっては高いレベルの情報セキュリティが
図られていると考えることができそうです。


おわりに

ここまで記事をお読みいただきありがとうございました。

素人が、技術の進歩に追いつけの精神で書いているので、
内容に拙い点があることをご容赦ください。

最後に一言コメント(ぼやき?)なのですが、

文字起こしについて調べているななかで、
いくつかのサービス紹介サイトや記事において、

文字起こしテキストデータのことを「議事録」
と言っているページを発見しました。

個人的には、

文字起こしデータ=発言記録
議事録=会議で提示された意味合いのサマリー

だと捉えており、
両者は似て非なるものと考えています。

単なる表現のはなしですが、
その点がモヤモヤしたという
読者の皆さんにとって益のない話です…m(_ _)m

次回は、文字起こしアプリに関連して、
要約アプリについて時代にキャッチアップしてゆきます!


◆建築資材の製造外注・OEMは北陸マテリアル株式会社に!◆

▼▼▼その他の記事も是非!▼▼▼

この記事が気に入ったらサポートをしてみませんか?