GoogleのGeminiを触ってみた

2023年12月19日 13:37

12月13日にGoogleのGemini ProがAPIで使えるようになりましたので試してみました。

環境設定

import os

os.environ["GOOGLE_API_KEY"] = 'GOOGLE_API_KEY'

APIキーはGoogle AI Studioから取得できます。

テキスト入力からテキストを生成する

model = genai.GenerativeModel('gemini-pro')

response = model.generate_content("google gemini proの特徴とAPIのコストを出してください。")
to_markdown(response.text)

結果

Google Gemini Proの特徴2つのCPU：Gemini Proは、Intelの最新のサーバー向けプロセッサであるXeon Platinum 8380Hを搭載しており、28コア、56スレッド、最大2.9GHzのターボ周波数を備えています。
64GBのメモリ：Gemini Proは、DDR4-2666 ECCメモリを64GB搭載しています。
2TBのSSD：Gemini Proは、2TBのNVMe SSDを搭載しています。
100Gbpsのネットワーク：Gemini Proは、100Gbpsのネットワーク接続を備えています。
NVIDIA Tesla V100 GPU：Gemini Proは、NVIDIA Tesla V100 GPUを最大4基まで搭載することができます。
クラウド対応：Gemini Proは、Google Cloud Platformと互換性があり、Google Compute Engine、Google Kubernetes Engine、Google BigQueryなどのサービスと統合することができます。

Google Gemini ProのAPIのコスト

Google Gemini ProのAPIのコストは、使用量に応じて課金されます。APIの呼び出しの回数、データ転送量、ストレージ容量などが考慮されます。

Google Gemini ProのAPIの料金体系は以下の通りです。API呼び出し：1,000回あたり0.01∗∗∗データ転送量∗∗：1��あたり0.01∗∗∗データ転送量∗∗：1GBあたり0.12
ストレージ容量：1GBあたり0.025たとえば、1日あたり100万回の��呼び出し、10��のデータ転送量、100��のストレージ容量を使用すると、月額の��コストは0.025たとえば、1日あたり100万回のAPI呼び出し、10GBのデータ転送量、100GBのストレージ容量を使用すると、月額のAPIコストは10,000になります。

注意：これは参考価格であり、実際のAPIコストは変動する可能性があります。詳細については、Google Cloud Platformの料金ページを参照してください。

画像とテキスト入力からテキストを生成する

model = genai.GenerativeModel('gemini-pro-vision')

response = model.generate_content(["この画像を説明してください。", img], stream=True)
response.resolve()

to_markdown(response.text)

結果

これはポール・ゴーギャンの絵画「我々はどこから来たのか？我々は何者か？我々はどこへ行くのか？」です。1897年から1898年にかけて描かれたもので、ゴーギャンの代表作のひとつです。

この絵は、タヒチ島の熱帯雨林を舞台に、さまざまな人々が描かれています。左から右に、若い女性、犬、老婆、老婆の世話をしている若い女性、川で沐浴する女性、笛を吹く裸の男性、果物をとる裸の男性、二人の女性、仏陀のような姿をした男性、そして二人の女性が描かれています。

この絵は、人間の存在の意味を探求するものであり、ゴーギャンの哲学的な思想が反映されています。ゴーギャンは、人間は自然の一部であり、自然と調和して生きるべきであると考えていました。この絵は、その考えを表現したものであり、人間と自然の共生を訴えています。

この絵は、その独特な色彩と構図で知られており、ゴーギャンの代表作のひとつとなっています。

LangChainからGeminiを使う

from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(model="gemini-pro")
result = llm.invoke("google gemini proの特徴とAPIのコストを出してください。")
print(result.content)

結果

**特徴** * **高速で信頼性の高い検索:** Google Gemini Proは、Google検索エンジンを基にした高速で信頼性の高い検索を提供します。 * **高度な検索機能:** Google Gemini Proは、高度な検索機能を提供し、ユーザーが検索結果を絞り込むことを可能にします。 * **パーソナライズされた検索結果:** Google Gemini Proは、ユーザーの過去の検索履歴に基づいてパーソナライズされた検索結果を提供します。 * **モバイルフレンドリーな検索結果:** Google Gemini Proは、モバイルフレンドリーな検索結果を提供し、ユーザーがモバイル端末で検索結果を簡単に閲覧することを可能にします。 * **安全な検索:** Google Gemini Proは、ユーザーが安全に検索結果を閲覧することを可能にする安全な検索を提供します。 * **広告なしの検索結果:** Google Gemini Proは、広告を表示しない検索結果を提供し、ユーザーが広告に邪魔されずに検索結果を閲覧することを可能にします。 **APIのコスト** Google Gemini ProのAPIのコストは、リクエスト数に基づいて決定されます。リクエスト数の多いユーザーほど、コストは高くなります。Google Gemini ProのAPIのコストは以下の通りです。 * **1,000,000リクエストまで:** 無料 * **1,000,000リクエスト〜10,000,000リクエスト:** $0.05/リクエスト * **10,000,000リクエスト〜100,000,000リクエスト:** $0.04/リクエスト * **100,000,000リクエスト〜1,000,000,000リクエスト:** $0.03/リクエスト * **1,000,000,000リクエスト以上:** $0.02/リクエスト Google Gemini ProのAPIを利用するには、Google Cloud Platformに登録する必要があります。Google Cloud Platformに登録すると、Google Gemini ProのAPIを利用するためのAPIキーが発行されます。

from langchain_core.messages import HumanMessage
from langchain_google_genai import ChatGoogleGenerativeAI

llm = ChatGoogleGenerativeAI(model="gemini-pro-vision")
# example
message = HumanMessage(
    content=[
        {
            "type": "text",
            "text": "この画像を説明してください。",
        },
        {"type": "image_url", "image_url": "image.jpg"},
    ]
)
result = llm.invoke([message])
print(result.content)

結果

これはポール・ゴーギャンの絵画「我々はどこから来たのか？我々は何者か？我々はどこへ行くのか？」です。1897年から1898年にかけてフランス領ポリネシアのタヒチ島で描かれました。この絵は、ゴーギャンのタヒチ時代における代表作であり、彼の最も有名な作品のひとつです。この絵は、タヒチ島のジャングルを舞台に、様々な人々が描かれています。左端には、老婆が乳児を抱いています。その隣には、若い女性が腰掛けている。中央には、裸の男性が立っており、その隣には、果物を手にした女性が立っています。右端には、二組の男女が寄り添っています。画面の上部には、仏陀のような姿をした人物が描かれており、その隣には、「我々はどこから来たのか？我々は何者か？我々はどこへ行くのか？」という文字がタヒチ語で書かれています。この絵は、ゴーギャンの哲学的な思考が反映された作品です。ゴーギャンは、人間は自然の一部であり、自然と調和して生きるべきだと考えていました。この絵は、そんなゴーギャンの思想が込められた作品です。

APIの利用料

Gemini Proの価格
現在、開発者はGoogle AI Studioを通じてGemini ProおよびGemini Pro Visionに無料でアクセスすることができ、1分あたり最大60リクエストまで利用できるため、ほとんどのアプリ開発ニーズに適している。Vertex AIの開発者は、来年初めの一般提供開始まで、同じモデルを同じレート制限で無料で試すことができる。

ニュースリリースをDeepLで翻訳

参考までに他のAPI利用料と比較

GPT-4 Turboの利用料

Model Input Output
gpt-4-1106-preview $0.01 / 1K tokens $0.03 / 1K tokens
gpt-4-1106-vision-preview $0.01 / 1K tokens $0.03 / 1K tokens

OPEN AIホームページより

GPT-3.5 Turboの利用料

Model Input Output
gpt-3.5-turbo-1106 $0.0010 / 1K tokens $0.0020 / 1K tokens
gpt-3.5-turbo-instruct $0.0015 / 1K tokens $0.0020 / 1K tokens

OPEN AIホームページより

Anthropic Claudeの利用用

Model family Context window Standard Pricing
Claude 2.0 100,000 tokens Prompt $8.00/million tokens Completion $24.00/million tokens
Claude 2.1 200,000 tokens Prompt $8.00/million tokens Completion $24.00/million tokens

Anthropicホームページより

LLM tokenizer

すべてのソースコード（Google Colabのリンク）

おまけ（OPENAI GPTとの性能比較）

こちらの記事が詳しかったです。

この記事が参加している募集

#やってみた

38,858件

#AIとやってみた

33,496件

この記事が気に入ったらサポートをしてみませんか？