見出し画像

Gemini Pro1.5って使えるの?

こんにちは、にゃんたです。

今回は、Googleが開発した大規模言語モデル「Gemini Pro1.5」について詳しく解説していきます。

GeminiPro 1.5は、他のモデルと比較して圧倒的に多い入力トークン数や、高い音声・画像認識性能が特徴です。この記事では、Gemini Pro1.5の強みや他社モデルとの比較、そして現在無料で利用できる点などについてお伝えします。


1. Gemini Pro1.5の圧倒的なトークン数

まずGemini Pro1.5の大きな特徴の一つが、圧倒的に多い入力可能なトークン数です。

100万トークンまで入力可能

トークンとは、AIのモデルで処理されるときの文字の単位になっています。
AIのモデルでは、文字ではなくてトークンと呼ばれる単位に変換されて処理されます。

一般的に、トークン数が多いほどより多くの情報を入力でき、より複雑なタスクに対応できます。

Gemini Pro1.5は、なんと最大100万トークンまで入力可能です。これは、OpenAIのGPT-4の12.8万トークン、Anthropic社のClaude 3の20万トークンと比べて、圧倒的な数字です。

将来的には、1000万トークンまで入力できるようになる可能性もあるそうで、本当にあらゆる情報を扱えるようになるかもしれません。

2. 画像と音声認識の高い精度

Gemini Pro1.5のもう一つの大きな特徴が、画像と音声データの認識精度の高さです。

音声認識の精度については、OpenAIのWhisperやGoogleの以前のモデルであるUSMと比較して、Gemini Pro1.0でも全ての評価項目で上回っています。

Gemini Pro1.0でもWhisperより強い

上記は、Gemini Pro1.5の前のバージョンであるGemini Pro1.0の結果ですが、既にOpenAIのWhisperより精度が高いことがわかります。

Gemini Pro1.5になってさらにパワーアップしていることを考えると、現状、音声認識分野ではGemini Pro1.5が世界最高レベルと言えるかもしれません。

また、画像認識の精度についても、OpenAIのGPT-4Vと比較して同等かそれ以上の性能を示しています。

このような高い画像・音声認識精度を活かせば、例えば動画の内容理解や、画像を伴う複雑なタスクなどにGeminiのモデルは向いていそうです。

3. 期間限定の無料利用

現時点では、Gemini Pro1.5の全ての機能を無料で利用することができます。

ただし、APIを介して利用する場合は、2023年5月2日以降は有料化されるので注意が必要です。

5/2以降はAPIの利用料金がかかる

とはいえ、Google AI Studioというウェブブラウザの環境では、5月2日以降も無料で使い続けられるそうです。

このレベルの高性能なモデルが無料で使えるのは、非常にありがたいことですね。

4. 高性能なEmbeddingモデル

あまり注目されないこととして、Googleは最近、Embeddingモデルもリリースしました。Embeddingモデルは、テキストデータを数値化するために使われ、RAG(Retrieval-Augmented Generation)と呼ばれる技術の性能に大きく影響します。

最新Embeddingモデルをリリース

GoogleのMTEBリーダーボードを見るとEmbeddingモデルは、OpenAIの最新モデルよりも高い精度を持っています。

なので、言語処理タスクにおいては他社のモデルを使いつつ、Embeddingでは、Googleのモデルを使うという組み合わせはありかもしれません。

5. Gemini Pro1.5による高精度な文字起こし

音声認識精度がWhisperより強いモデルということで、YouTubeの動画をアップロードして、文字起こしを行ってみました。

ただ、単純に「この動画を文字起こ​​ししてください」というシンプルな指示で試してみましたが、うまくいきませんでした。(私は音声を認識できませんと返答が来ました。)

恐らく純粋なマルチモーダルなモデルではなくて、音声認識モデルと言語モデルを組み合わせているので、このような挙動になるのではないかと考えられます。

srtファイル形式と指示すると文字起こしができる

色々試してみると、「この音声をsrt形式で文字起こ​​ししてください」と指示を変えてみたところ、見事に文字起こしが完了しました。

文字起こしの精度は非常に高く、ほぼ完璧にテキスト化されていました。

さらに、複数の話者が登場する音声データでも、各話者を正しく識別し、それぞれの発言を正確に書き起こすことができました。

話者識別をして文字起こし

従来通り話者識別を行う場合、専用のAIモデルを用意する必要があります。

例えば、議事録を作成する際などに話者識別モデルは必須なのですが
Geminiを使えば1つのモデルでできるというのは中々良いのではないかと思います。

6. まとめ

GoogleのGemini Pro1.5の特徴と魅力について紹介しました。

  • 圧倒的な入力可能トークン数(最大100万、将来的には1000万トークンの可能性も)

  • 画像・音声認識の高い精度(特に音声認識は世界最高レベル)

  • 現在は全ての機能が無料で利用可能(APIは5/2以降有料化)

  • 高性能なEmbeddingモデルの存在

  • 話者識別もできる

など、Gemini Pro1.5にはとても魅力的な特徴がたくさんあります。

大量のデータを扱うタスクや、画像・音声を含む複雑なタスクなどに挑戦したい方は、ぜひGemini Pro1.5の利用を検討してみてはいかがでしょうか。

Gemini Ultra1.5などが公開されれば、今後さらに利用シーンが広がっていくことが期待できますね。

最後まで読んでくださりありがとうございました😆

最後にLINE 公式を始めたので興味があったら見てみてください!
https://liff.line.me/2004040861-3Jvq4bAG
ChatGPT, Claude3のプロンプトテクをまとめたプレゼントを無料で配布中です!(キーワード「プロンプト」と入力してください)

この記事が気に入ったらサポートをしてみませんか?