見出し画像

Adobe Premiere「音声のテキスト化」機能を使ってみた

 うちのお寺では、月に二回、定例祭を実施しています。昨年春以降、コロナでお参りを控えている檀信徒のみなさんのためにyoutube「法華コムチャンネル」で法要のライブ配信を行い、後日その御法話部分だけを資料画像と共に再編集してアップロードしています。

 御法話には日常馴染みのない仏教用語が出てくるので、少しでも分かりやすくなるよう字幕を付けていますが、イチから人力で文字起こしするのはとても大変。youtubeの自動字幕も今ひとつ使い勝手が悪くて面倒くさい。そこで、Adobe Premiere「音声のテキスト化」機能の早期アクセスプログラムに応募して、使ってみました。以下、ファーストインプレッションレポートをお届けします。

■「音声のテキスト化」早期アクセスプログラムについて

 Adobe Premiereの「音声のテキスト化」早期アクセスプログラム(Speech-to-Text Early Access)は、今秋の正式リリースに先立ち、プログラムに応募したユーザーにこの機能を提供するものです。関心のある方は以下のリンクをご参照ください。私は昨年この報を聞いてすぐに申し込み、3月に利用開始の案内を受け取りました(が、忙しくて4月まで触ることができなかったという……)。

 Premiere Proの最新版15.0以上がインストールされていて、早期アクセスプログラムの認証済みアカウントで利用すれば、他の機能と同じように使う事が出来ます。

■youtube自動字幕データを使う手順(従来のやり方)

 御法話動画に字幕を付ける際、これまで私は次のようなやり方をしていました。

1.仮編集(字幕以外は完成)した動画をyoutubeに非公開でアップロード
2.字幕データが自動生成されるまで2時間あまり待つ(30分程度の動画の場合)
3.字幕データをsrt形式でダウンロード
4.エディタで大まかにテキストとタイムコードを整形
5.Premiereにsrtデータを読み込む
6.動画に合わせて整形して完成
7.完成版をyoutubeにアップロード、仮編集版を削除

■youtube自動字幕データ利用の難点

 上記のやり方の「面倒くさい」要素は以下のとおりです。

①仮編集版と完成版の2回youtubeにアップロードしなければならない
②字幕データ生成に数時間を要する
③生成されたデータはタイムコードの重複があり素直な字幕にならないため、事前にエディタで単なる字句修正以上の整形が必要になる
④エディタ整形(=手作業)では矛盾が残るため、Premiereに読み込んだ後で矛盾解消の調整を要する

 ①②は仕方ないものとして受け入れてましたが、③④がどうにも面倒でした。

 srt形式は字幕毎に1から順にヘッダ数字が付与され、更にinとoutのタイムコードが付けられています。例えば後で変換精度を確認する部分の冒頭はこんな感じです(完成版の例)。

87
00:08:08,788 --> 00:08:14,527
この現世安穏後生善処 佛教語の中でも
多くの人が知っている言葉ですが

88
00:08:14,527 --> 00:08:17,697
法華経の中に出てくる言葉なんですね

89
00:08:18,431 --> 00:08:23,169
法華経の薬草喩品という章があります

90
00:08:23,169 --> 00:08:27,773
薬草の喩え
以前にも解説をしたことがありますが

91
00:08:27,773 --> 00:08:31,978
世の中の自然の
植物のことを考えてください

 タイムコードの重複がないことが分かるでしょうか。これは、フレーズ単位でまとめて表示して切り替える形式です。

 これに対してyoutubeの自動字幕は、発音に即して一文字ずつ表示し、行をひとつずつスクロールさせる形式になっています(例えば上の動画の日本語字幕をオンにして確認してみると分かります)。そのため、書き出したsrtファイルではフレーズ間でタイムコードが重複しており、premiereに読み込ませても狙う挙動から外れてくるわけです。

 そこで手順4のエディタでの事前整形が必要になります。その際、不要なフレーズを削除すると字幕番号がずれてきますから、これを1から順に数字を飛ばさないように振り直さなければなりません。また、タイムコードも緻密な修正が必要で、手作業ではひとつ間違えると台無しになってしまいます。なので最近、エクセルで番号・コードの振り直しを自動化する事を試みました。そのためには、不要な空白の削除(必要な空白は残す)などエディタでの一括置換を何重にも行う必要があり、これまた大変でした。

 これを大きく改善してくれるのが、Premiereの「音声のテキスト化」機能です。

■Premiere「音声のテキスト化」の手順

 手順は概ねこんな感じです。

1.キャプションワークスペースのトランスクリプトタブで「書き起こしを作成」をクリック。文字起こしまで10分程度待つ(30分程度の動画の場合)
2.「キャプションの作成」ボタンでキャプションを生成
3.キャプションタブで一旦srtデータを書き出して整形[現時点では必要な作業、後述]
4.Premiereにsrtデータを読み込む
5.動画に合わせて整形して完成
6.youtubeにアップロード

■Premiere「音声のテキスト化」のメリット

 従来の7手順が6手順にひとつだけ縮まったように見えるかもしれませんが、実際はかなりの省力化が図れます。

①の解決(youtubeに仮アップしなくていい)
②の解決(youtubeでは2~3時間かかる文字起こしが10分で済む)
③④の解決(タイムコードの重複がなくジャストタイミングでPremiereのキャプションとして配置される)

 これまで苦労してきたので、この手軽さは感動モノでした。でも、正式リリース前のものということで、挙動に不具合もあるようです。

■早期アクセスプログラム段階での難点と改善要望

 今回気がついた難点は次のとおりです。

1)余分な半角スペースが大量に生成される

 文字起こし段階では問題ないのですが、これをキャプションに変換した際、文字と文字の間に不要な半角スペースが混じり込みます。今回試した動画で2000個ほど。その法則性は今のところ不明で、動画上のカーニング代わりかなとも思ったのですが、必ずしも自然なものとは見えません。何故だー。

 これを解決するために上記の手順3、一旦srtに書き出してエディタで不要な半角を一括削除する必要が生じます。その際、srt形式に必要な半角スペースがあるため、そこは書き戻してやらなくてはなりません(最初そこに気付かずにPremiereに読み込む際にエラーが出て慌てました)。まあ、簡単な作業ではあるのですが、正式リリース時には修正されていることを期待します。

2)ワークスペースのキャプション表示が編集過程でリセットされる

 キャプション編集の過程では、文字を修正するワークスペースとタイミングを調整するタイムラインを頻繁に行き来します。その際、再生と停止を繰り返してタイミングを合わせる際に、ワークスペースのキャプションが頻繁にリセットされて冒頭に戻ってしまいます。この挙動の法則性と元への戻し方は編集作業の終わり頃に見えてきましたが、必要のない挙動(むしろイラつく……おっと僧侶なので平静に平静に)には違いありません。これも修正を期待します。

3)キャプションの文字列の検索・置換ができない?

 これは私が機能を知らないだけかも知れません。

 文字起こしの精度は次項で述べますが、パーフェクトはあり得ない以上、誤変換の修正に検索・置換機能が欠かせません。今回は難点1に対応するエディタ修正時に誤変換修正も行ったのですが、全てPremiere上で出来た方が効率が良いのは確かです。

■youtubeとPremiereの音声認識精度の比較

 さて、youtube=googleとPremiere=Adobeでは、音声認識精度はどのくらい違いがあるでしょうか。もちろん発話者の滑舌の問題や話の中身によっても変わってくるでしょう。今回は法話、つまり仏教語がたくさん出る条件での参考比較です。

■完成動画版【整形後/実際の発話は8分22秒から9分57秒を参照】
この現世安穏後生善処 佛教語の中でも
多くの人が知っている言葉ですが
法華経の中に出てくる言葉なんですね
法華経の薬草喩品という章があります
薬草の喩え
以前にも解説をしたことがありますが
世の中の自然の
植物のことを考えてください
植物の中には、小さな草
雑草みたいなものとか
中ぐらいの草、大きく背丈ぐらい伸びる草
いろんな草があります
植物の種類によって
いろんな成長の仕方をします
また草だけではなく木もあります
人の身長ぐらいまでしか伸びないような
小さな木もあれば
大きく大きく天まで届くように
大きく成長する木もある
草や木というのは、
それぞれの種類によって性質が異なっています
そして「薬草の喩え」というのは
そのような草や木に
空の雨は等しく降るんですね
空から雨が降ってくると
こっちだけ降ってこっちは水をあげないよ
ということはありません
大きな木も、小さな草も等しく
雨の恵みを受けるんです
でも みんなが等しく雨の恵みを受けたから
じゃあみんなが大木になるかというと
そうじゃない
それぞれの植物が 自分の性質に応じた
成長の仕方、満足の仕方をしていく
そういうふうに
同じ様に恵みがあるけれども
その恵みを受けた表れ方は
人それぞれの(状況に)応じたものなんだ
というのが「薬草の喩え」
法華経にある喩えなんですね

■youtube自動字幕
この減税案の小姓税章仏教部の中でも良く多くの人が知っている言葉ですが法華機をの
中に出てくる言葉なんですね
保型今日の薬草湯フォンという賞があります
これは薬草のたとえ以前にも解説をしたことがありますが
世の中の自然の植物のことを考えてください
植物の中には小さな種雑草みたいなものとか
中ぐらいの草大きく背丈ぐらい伸びる草
いろんな種があります植物の種類によっていろんな成長の仕方をします
また草だけではなく敵もあります小さな人の船長ぐらいまでしか伸びないような小さな
木もあれば
おおきくおおきく天まで届くように大きく成長する気もある
草や木というのはそれぞれの種類によって性質が異なっています
そしてその薬草のた遠いというのはそのような草や木に
空の雨は等しく降るんですね
空から雨が降ってくるとこっちだけ振ってこっちはあげる水揚げないよっていうことは
ありません
大きな木も小さな種も等しく天の恵みを受けるんです
でもみんなが等しく天の恵みを受けたからじゃあみんなが大木になるかっていうとそう
じゃない
それぞれの植物が自分の声質にもっとそ備えたその性質に応じた成長の仕方
満足の仕方をしていく
そういうふうに同じように仁があるけれどもその恵みを受けた表れ方は人それぞれの
応じたものなんだというのが薬草のたとえ
法華経に荒れたというなんですね
■Premiere文字起こし
この減税案の後、生善処仏教の中でもよくオークの人が知っている言葉ですが、法華経の中に出てくる言葉なんですね?
ほけ今日の薬草湯本という章があります。これは薬草のたとえ以前にも解説をしたことがありますが、世の中の自然の植物のことを考えてください。
植物の中には、小さな草雑草みたいなものとか中ぐらいの草、大きく背丈ぐらい伸びる草、いろんな草があります。植物の種類によって、いろんな成長の仕方をします。
また草だけではなく敵もあります。小さな人の身長ぐらいまでしか伸びないような、小さな木もあれば、大きく大きく天まで届くように、大きく成長する木もある。
草焼きというのは、それぞれの種類によって性質が異なっています。
そしてその薬草のたとえというのはそのような。草や木に空の雨は等しく降るんですね。空から雨が降ってくるとこっちだけ降ってこっちはあげる水あげないよって言うことはありません。大きな木も、小さな草も等しく、雨の恩恵を受けるんです。
でもみんなが等しく雨の恩恵を受けたからじゃあみんなが大木になるかというと、そうじゃない。
それぞれの植物が自分の性質に、もっと備えた。その性質に応じた成長の仕方、満足の仕方をしている。そういうふうに同じ様に恩恵があるけれども、その恩恵を受けた表れ方は人それぞれの王子たものなんだというのが、薬草のたとえ法華経にある。たとえなんですね。

 どうでしょう、専門語がうまく変換されないのは仕方ないとして、普通の言葉についてはどちらもそこその精度に達しているように思えます。変換結果全体を定量的に計測すればどちらの精度がより高いといえるか分析できるでしょうけれど、一般ユーザーの感覚として、いずれにせよ完璧は求められず手作業による修正を前提とした「元ネタ」としては、どちらも合格点に達していると受けとめています。とすると、精度以外を含めた総合点として、変換時間が短くシームレスで動画編集できるPremiereが評価は高くなりそうです。

■まとめのひとことふたこと

 以上、現時点で課題はあるものの、今秋に正式リリースされる「音声のテキスト化」機能は非常に有益なものと考えます。私自身はこれまでの手間を大きく改善する福音として一定の満足を得ており、今後も月二回の動画編集に活用します。文中指摘した改善要望に対応してもらえれば、そして更に変換精度が高まれば、ますます便利になります。

 もうひとつ、副次的な効果も。キャプション化したデータは、「テキストファイルにエクスポート」することでタイムコードのない本文のみのテキストファイルに書き出すことができます。5年前に住職を継いで以降、一昨年に動画化を本格化させる以前の御法話は、ICレコーダーで音声のみ記録保存していました。しかしPremiereのこの機能のお陰で(いずれAuditionに実装されればそちらで)テキスト書き出しが可能になります。これまで人力でテープ起こしをしないといけなかったのが、AIに基本的な部分を任せて、少ない労力で御法話テキストが手に入るわけです。これは有り難い。今後再開するHP「法華コム」のコンテンツのひとつとして御法話テキストの公開をする上で、最小限の労力で済むのですから。

この記事が気に入ったらサポートをしてみませんか?