【字幕/議事録】高精度で音声データの処理ができるGemini 1.5proを試そう！【文字起こしや音楽分析まで】

2024年5月18日 18:39

こんにちは！AI-bridge Labのこばです！
最近OpenAIのGPT-4oやGoogle I/OでのProject Astraなど発表など、相次いで大きな発表があり、SNSなどでも生成AIに興味を持った方も増えたのではないでしょうか。

これからAIに触れ始めようとしている方にもぜひ無料でも触れる優秀なLLMがあることを知って頂きたいですね！「Gemini」をはじめ、少しでも魅力的な機能や使い方をシェアしていけたらと思います！

というわけで今回はGoogleのLLM『Gemini』の最新機能の一つである音声データの入力にフォーカスしてご紹介＆考察します！

はじめに

GeminiはGoogleが提供する大規模言語モデル(LLM)で、正式リリースされているサービスの「Gemini」を無料で使うことができます。

❌ですが、今回はこちらは使用しません

最新版のGeminiがデモとして使える「Google AI Studio」というサービスから無料で最新版のGemini 1.5を扱っていきます。
こちらのサイトで、Googleアカウントでログインすると使えるようになります👇

正式版とGoogle AI Studio版の違い

正式版Geminiは、Google AI Studioで試験運用が終わったらアップデートされるという流れになっていますので、製品的に安定しており会話の履歴や設定を管理することができます。GmailやカレンダーなどのGoogle製品と連動して動くのもこちらの正式版に限られます。

Gemini Advancedに有料でアップデートすることで、強力なモデル「Gemini 1.5 pro」を利用することができ、最大100万トークン（1500ページ分）のデータを処理することができます。

Google AI Studio版は最新のモデルと機能を試せます
（試せるといっても実際のアウトプットは非常に優秀で、仕事で分からないことを聞いたりコードを生成したりしている方も多いと思います）

Google AI Studio版は、最新鋭のモデルを触ることができる試験運用版なので、Gemini Advancedでリリースされているものよりも新しく、多機能なモデルを無料で触ることができます。

音声データの入力

Google AI Studioで音声を入力するには、まずテキスト入力欄の左側にあるプラスボタンを押して、「Upload to Drive」を選択し、音声ファイルをアップロードします。

今回私が収録した、胡椒の歴史についての読み上げ音声ファイルはサンプルとして置いておきます。

音声ファイルと一緒に、その音声データをどう処理したいかをプロンプトとして入力して、RUNボタンを押します。

右上にある、モデル選択、温度の項目は目的に応じて適宜調整するのがおすすめですが、今回は最高性能のモデルGemini 1.5 Proで、Temperatureは0.5に設定しています。
Temperatureはモデルのプロンプトに対する忠実度を表す値で、0が最も忠実で、1が最も創造的になります。

活用事例その1：音声の文字起こし📝

今回使用したプロンプトはこちら（普通のテキストに直して頂いても大丈夫です）

{
"role": "editor",
"task": "transcribe",
"input": {
"type": "audio",
"language": "ja-JP"
},
"instructions": [
"音声ファイルを文字起こしする",
"言いよどみやセリフの言い間違いは適切に補完する",
"最終出力は正しい日本語の文章になるよう整形する"
],
"output": {
"format": "text",
"language": "ja-JP"
}
}

2分を超える音声ファイルですが、ぼそぼそと喋ったり、途中で早口っぽくなったり、噛んだりしてもまったく影響せずに文字起こししてくれました！

文字起こしされたテキスト
原文と見比べたとき、最初の「古代」という見出しの項目が抜けたりしている以外ほぼ完璧に文字起こしができています！

胡椒の歴史は、紀元前2000年頃に遡る。
インド南西部のマラバール海岸が原産地とされ、ここから胡椒は古代エジプトやローマ帝国に輸出されていた。
エジプトでは、ミイラの防腐処理にも使用されていた記録がある。
ローマ時代には、胡椒は非常に高価な香辛料とされ、金と同じくらいの価値があった。

中世、中世ヨーロッパでは、胡椒は非常に貴重な商品となり、富や地位の象徴とされた。
ヨーロッパにおける胡椒の需要は、十字軍遠征によりさらに高まり、これが貿易の活性化に繋がった。
ヴェネツィアやジェノヴァなどのイタリアの港湾都市が、胡椒貿易の中心地となった。
大航海時代、15世紀から16世紀にかけて、大航海時代が始まり、胡椒を求めてヨーロッパ諸国が新航路を探し始めた。
ポルトガルの航海者ヴァスコ・ダ・ガマが、1498年にインドに到達したことで、直接交易が可能となり、ポルトガルが胡椒貿易を独占した。
その後、オランダ、イギリスがこの貿易に参入し、競争が激化した。

近代以降、19世紀になると、胡椒の栽培はインドネシアやマレーシアなどの東南アジア地域にも広がり、これが価格の安定化をもたらした。
現代では、インド、ベトナム、インドネシアが主要な生産国となっている。
経済と文化への影響 胡椒は、歴史を通じて経済、文化、政治に大きな影響を与えてきた。
特に中世から近代にかけてのヨーロッパでは、胡椒貿易が都市の発展や国際関係に大きな影響を及ぼした。
また、料理における重要なスパイスとして、各国の食文化にも大きな影響を与えている。

このように、胡椒の歴史は古代から現代に至るまでの人類の活動と深く結びついており、その価値は時代と共に変遷してきたと言える。

活用事例その2：音楽データを分析🎼

こちらのXのポストの通りGeminiは音楽のデータを渡してもかなりの精度で分析してくれます。

#Udio で生成した音楽を Gemini 1.5 Proに分析させてみたらかなりの精度だったので動画にまとめてみました

✅良い点
・歌詞を理解し、曲の世界観を推測する
・展開毎に分解して説明できる
・曲調や使われている楽器を説明できる
・楽曲のユースケースを提案できる

✅惜しい点… pic.twitter.com/lROvdFVWPC
— こば@AIBridge Lab (@doerstokyo342) May 29, 2024

手順としては、「この音楽をきいて、要素を説明して」といっただけですが、もっと細かく指定すればいろいろな角度から分析ができそうですね。

活用事例その3：音声データから話者をプロファイリング🔍

同じ音声データと、以下のプロンプトを使って話者がどんな人物かプロファイリングしてみました🕵️

{
"role": "profiler",
"task": "analyze_speaker",
"input": {
"type": "audio",
"language": "ja-JP"
},
"instructions": [
"音声ファイルの内容を分析し、話者のプロファイリングを行う",
"以下の観点から話者の属性を推測し、根拠となる音声の特徴と共に説明する",
"- 性別",
"- 年齢層",
"- 出身地（方言から）",
"- 社会的地位",
"- 教育レベル",
"- 話し方の特徴",
"最後に、推測した属性を総合して、話者の人物像について考察する"
],
"output": {
"format": "text",
"language": "ja-JP",
"contents": [
"推測された話者の属性:",
"- 性別: [prediction], [confidence], [explanation]",
"- 年齢層: [prediction], [confidence], [explanation]",
"- 出身地: [prediction], [confidence], [explanation]",
"- 社会的地位: [prediction], [confidence], [explanation]",
"- 教育レベル: [prediction], [confidence], [explanation]",
"- 話し方の特徴: [explanation]",
"",
"総合的な考察:",
"[音声から推測された話者の属性を総合し、どのような人物像が浮かび上がるかを考察する]"
]
}
}

Geminiの出力結果(不要なタグを取り除いています)

推測された話者の属性:
性別: 男性
根拠: 声の低さ、力強さから男性と推測される。

年齢層: 30代後半 - 40代
根拠: 話し方は落ち着いており、滑舌も明瞭で、ある程度の社会経験を積んだ年齢層と推測される。ただし、声の若々しさも感じられる。

出身地: 特定不可
根拠: 特定の地域の方言は聞き取れない。標準語で話している。

社会的地位: 専門知識を持つ職業
根拠: 歴史や経済に関する知識が豊富で、専門用語も用いながら説明していることから、学者や研究者、もしくは教育関係者などの可能性が考えられる。

教育レベル: 高
根拠: 専門用語を適切に使用し、歴史的背景から経済状況、現代社会への影響まで、論理的に説明していることから、高い教育レベルを有すると推測される。

話し方の特徴: 明瞭で聞き取りやすい。落ち着いたトーンで、ゆっくりと話す。歴史的背景を説明する際に、抑揚や間を効果的に用いている。

総合的な考察:
音声から推測される話者の人物像は、歴史や経済に精通した、30代後半から40代の男性である。
落ち着きがあり、知的な印象を与える。明瞭で聞き取りやすい話し方から、
聞き手を意識した丁寧なコミュニケーションを心がける人物像が浮かび上がる。
学者や研究者、もしくは教育関係者など、専門知識を有する職業に従事している可能性が高い。

当然、今回使った音声データは用意された台本を読み上げているだけなので教育レベルや社会的地位などについては的外れにはなりますが、男性、30代後半-40代、話し方の特徴などは「落ち着いたトーンでゆっくりと話す」という部分も意識した部分がしっかりと反映されています。

人物像のプロファイリングは仕事にどう活用するかはパッと思い浮かびませんでしたが、プロンプトを応用すれば自己分析とかにも使えそうですね。

活用事例その4：音質評価🔊

同じ音声ファイルを使って音質を評価するためのプロンプトと組み合わせてみました。大量の音声データをチェックするタスクでノイズや音質をチェックするのに使えそうだと思いました。

プロンプトはこちら

{
"role": "audio_quality_evaluator",
"task": "evaluate_audio_quality",
"input": {
"type": "audio",
"format": "wav",
"sample_rate": 44100,
"bit_depth": 16
},
"instructions": [
"音声データの品質を以下の観点で評価する",
"- ノイズレベル",
"- エコーの有無と強度",
"- 歪みの有無と種類",
"- 音量の適正さ",
"- 全体的な明瞭度",
"各観点の評価結果を数値化し、0から1の範囲で表現する",
"評価の根拠となる音声の特徴を説明する",
"総合的な音声品質を5段階で評価し、改善案を提示する"
],
"output": {
"format": "text",
"language": "ja-JP",
"contents": [
"音声品質評価結果:",
"- ノイズレベル: [score], [explanation]",
"- エコー: [score], [explanation]",
"- 歪み: [score], [explanation]",
"- 音量: [score], [explanation]",
"- 明瞭度: [score], [explanation]",
"",
"総合評価: [1-5], [explanation]",
"",
"改善案:",
"- [suggestion1]",
"- [suggestion2]",
"- [suggestion3]"
]
}
}

出力結果はこちら


{
"音声品質評価結果":
ノイズレベル: 0.9, "ノイズはほとんど聞こえず、音声はクリアです。"
エコー: 1.0, "エコーは全くありません。"
歪み: 0.9, "歪みはほとんど感じられず、自然な音声です。"
音量: 0.8, "音量は少し小さめですが、聞き取りづらいレベルではありません。"
明瞭度: 0.9, "発音は明瞭で、内容は非常に聞き取りやすいです。"
"総合評価: 4, "音声はクリアで聞き取りやすく、高品質です。音量がもう少し大きいと、さらに聞きやすくなるでしょう。"
"改善案":
音量を少し上げる
音声に抑揚をつけると、より聞きやすくなる
背景に静かなBGMを流すと、雰囲気が良くなる
}

使用上の注意点

Geminiの優れた音声認識機能と、LLMの文章処理能力があれば例えば2時間ぐらいの長時間の会議であっても高い精度でまるっと文字起こしすることができるポテンシャルがありますし、いろいろなタスクで応用が可能です。

会議の議事録作成や、セミナーなどの講演会を文字起こしなど音声データを取り扱う方にはとても良い話には聞こえますが、機密情報などを取り扱う場合、セキュリティリスクについても理解しておく必要があります。

Googleのデータ利用ポリシー
GeminiはGoogleによって開発されたサービスであるため、Googleのデータ利用ポリシーが適用されます。Googleは、サービス改善のためにユーザーデータを利用することがあります。この点について、どこまで許容できるかを検討する必要があります。

データの利用目的: Googleは、サービスの提供、保守、保護、改善、新機能の開発、ユーザーへの関連性の高い広告の表示などを目的として、ユーザーデータを利用します。
データの保存期間: Googleは、ユーザーデータの種類や利用目的に応じて、データを一定期間保存します。
第三者への提供: Googleは、法令に基づく場合や、Googleのサービスを提供するパートナー企業などに、ユーザーデータを提供することがあります。

AI-Bridge Labについて

私たちAI-Bridge Labは、最先端のAI技術を使って、企業のDXを支援しています。 LLMや画像生成AIを使ったコンテンツ制作や社内でのAI人材育成など、AIを活用したビジネス課題の解決をサポートしています。

もしAIの導入にお悩みの方は、ぜひ一度お問い合わせください。一緒に、AIを活用した新しいビジネスの可能性を探っていきましょう！

最後まで読んでいただき、ありがとうございました！ 😄
スキや、Xアカウントのフォローもぜひお願いします！

皆さまの温かいサポートのおかげで、活動を続けることができています。もしよろしければ、引き続き支援をお願いできますと幸いです。より質の高い記事投稿に励みます！