VerteAIで複数のPDFを参照して質問に答えてもらう
VerteAIだと、PDFを読み込むことが容易だったので下記のコードで実装してみました。
一応、質問には答えてくれますが、どのPDFに書かれていたのかまでは答えてくれません。
たぶん、プロンプトを変更すれば答えてくれるかも
import os
import vertexai
from vertexai.generative_models import GenerativeModel, Part
os.environ['PROJECT_ID'] = "****************"
os.environ['LOCATION'] = "****************"
os.environ['MODEL_NAME'] = "gemini-1.5-flash-001"
pdf_file1 = Part.from_uri(
"gs://参考1.pdf",
mime_type="application/pdf",
)
pdf_file2 = Part.from_uri(
"gs://参考2.pdf",
mime_type="application/pdf",
)
vertexai.init(project=os.environ['PROJECT_ID'],
location=os.environ['LOCATION'])
llm = GenerativeModel(model_name=os.environ['MODEL_NAME'])
prompt = f'''
PDFを使って下記の質問に答えてください
質問文:
{question}
'''[1:-1]
response = llm.generate_content([pdf_file1, pdf_file2, prompt])
print(response.text)
できれば、各PDFをどのように参照したのかも知りたいなぁ。
LangChainでReActとtoolsを組み合わせれば、LLMの思考を見ることができそう
なんj論文レビュー
OV-DINO: 言語を考慮した選択的融合による統合オープン語彙検出
SOTA:https://paperswithcode.com/paper/ov-dino-unified-open-vocabulary-detection
AnyTool: 大規模 API 呼び出しのための自己反映型階層エージェント
SOTA:https://paperswithcode.com/paper/anytool-self-reflective-hierarchical-agents
RouteLLM: 好みデータを使用して LLM をルーティングする方法を学習する
SOTA:https://paperswithcode.com/paper/routellm-learning-to-route-llms-with
LivePortrait: ステッチングとリターゲティング制御による効率的なポートレートアニメーション
SOTA:https://paperswithcode.com/paper/liveportrait-efficient-portrait-animation
1回目:
2回目: