[技術日誌]VerteAIで複数のPDFを参照して質問に答えてもらう & なんj論文レビュー

VerteAIで複数のPDFを参照して質問に答えてもらう

VerteAIだと、PDFを読み込むことが容易だったので下記のコードで実装してみました。
一応、質問には答えてくれますが、どのPDFに書かれていたのかまでは答えてくれません。
たぶん、プロンプトを変更すれば答えてくれるかも

import os
import vertexai
from vertexai.generative_models import GenerativeModel, Part


os.environ['PROJECT_ID'] = "****************"
os.environ['LOCATION'] = "****************"
os.environ['MODEL_NAME'] = "gemini-1.5-flash-001"

# Load images from Cloud Storage URI
pdf_file1 = Part.from_uri(
    "gs://参考1.pdf",
    mime_type="application/pdf",
)
pdf_file2 = Part.from_uri(
    "gs://参考2.pdf",
    mime_type="application/pdf",
)

# モデルの起動
vertexai.init(project=os.environ['PROJECT_ID'], 
              location=os.environ['LOCATION'])
llm = GenerativeModel(model_name=os.environ['MODEL_NAME'])

prompt = f'''
PDFを使って下記の質問に答えてください

質問文:
{question}
'''[1:-1]

response = llm.generate_content([pdf_file1, pdf_file2, prompt])
print(response.text)

できれば、各PDFをどのように参照したのかも知りたいなぁ。
LangChainでReActとtoolsを組み合わせれば、LLMの思考を見ることができそう

なんj論文レビュー

OV-DINO: 言語を考慮した選択的融合による統合オープン語彙検出

SOTA:https://paperswithcode.com/paper/ov-dino-unified-open-vocabulary-detection

1 名前:エンジニア(^^)さん 投稿日:2024/08/07(水) 11:23:11 ID:XkLi2pG1
この論文面白そうやな。CLIP使ったところとか、言語情報と画像特徴量をうまく統合するの凄いわ
2 名前:CV好き名無しさん 投稿日:2024/08/07(水) 11:25:43 ID:UjHn7bV4
>>1
ワイもこの論文すごいと思うで。zero-shotでここまでの性能出すのは本当に画期的やわ
3 名前:研究者さん 投稿日:2024/08/07(水) 11:28:55 ID:PoK9tRq2
Language-Aware Selective Fusion (LASF)ってのが肝なんやろな。言語情報を使って効果的にクロスモーダルのアラインメントを行うのがポイントみたいやな
4 名前:YOLO好きさん 投稿日:2024/08/07(水) 11:31:02 ID:ZaS5eWx8
でもYOLOベースのYOLO-Worldの方が速度は速そうやな。リアルタイム性が求められる用途やと使いやすそう
5 名前:教授さん 投稿日:2024/08/07(水) 11:35:47 ID:FtG1cVb6
この手法のスケーラビリティは気になるところやな。アーキテクチャ自体はシンプルそうやけど、大規模データでの学習にどれくらい耐えられるかは検証が必要そうやな
6 名前:エンジニアの卵さん 投稿日:2024/08/07(水) 11:39:23 ID:HyT4sNm3
>>5
そやな。計算リソースの観点からの評価も重要やと思うわ。でもCOCOベンチマークでここまでの性能出すのはめっちゃ画期的やと思うで
7 名前:業界人さん 投稿日:2024/08/07(水) 11:43:09 ID:JvC7uRk5
実用面から見ると、ノイズの多い画像-テキストペアからうまく学習できてるのが素晴らしいと思う。データクレンジングのコストを下げられそうやな
8 名前:物体検出マニアさん 投稿日:2024/08/07(水) 11:47:31 ID:BxL2mQh9
LVISみたいなロングテールのデータセットでもうまく動くのが良いな。レアなカテゴリの物体検出にも使えそうや
9 名前:修士学生さん 投稿日:2024/08/07(水) 11:51:55 ID:DzN8fEt1
Unified Data Integration (UniDI) pipelineっていうデータの統合方法も参考になるわ。自分の研究でも使えそうや
10 名前:CVの未来を憂う者さん 投稿日:2024/08/07(水) 11:56:22 ID:GcW5jLo7
この研究の方向性は間違いないと思う。言語情報を活用した物体検出はこれからの主流になるやろな
11 名前:博士研究員さん 投稿日:2024/08/07(水) 12:03:47 ID:RnH6bKi0
>>10
同感や。ただ、言語情報の活用は物体検出だけやなくて、セグメンテーションとかにも応用できそうやな。今後の発展に期待やわ

AnyTool: 大規模 API 呼び出しのための自己反映型階層エージェント

SOTA:https://paperswithcode.com/paper/anytool-self-reflective-hierarchical-agents

1 名前:膜性能研究者 ◆mEmBrAnE12 :2024/02/11(日) 09:23:45.67 ID:MeMbRaN3
AnyToolについての論文読んだんやが、これすごくね?
16000以上のAPIを使いこなせるって凄すぎやろ

2 名前:機械学習おじさん :2024/02/11(日) 09:25:12.34 ID:MLo1dM4n
ほう、面白そうやな。階層構造のAPI検索と自己反省メカニズムが肝やね。
GPT-4の関数呼び出し機能をうまく使ってるのがええな。

3 名前:API厨 :2024/02/11(日) 09:27:33.21 ID:AP1frEaK
APIの数がヤバイわ。普通の人間じゃ把握できへんレベルや。
AIにこそできる芸当やね。

4 名前:統計学徒 :2024/02/11(日) 09:30:45.98 ID:St4t1sT1c
評価方法の改善も注目に値するで。
前の評価方法やと人工的に高いパス率になってたらしいわ。

5 名前:NLP研究者 :2024/02/11(日) 09:33:22.55 ID:NLPr0cK5
>>4
せやな。AnyToolBenchっちゅう新しいベンチマークも導入しとるし、
より現実的な評価になっとるわ。

6 名前:AIエシックス専門家 :2024/02/11(日) 09:36:11.77 ID:A1eth1cs
16000以上のAPIを扱えるっちゅうことは、悪用の可能性も増えるんやないか?
セキュリティ面での懸念はあるで。

7 名前:セキュリティ警察 :2024/02/11(日) 09:38:44.32 ID:S3cur1tyP
>>6
その通りや。APIアクセス制御をしっかりせんとアカンな。
でも、これはツールの話やから、使い方次第やろ。

8 名前:哲学者 :2024/02/11(日) 09:41:23.09 ID:Ph1los0ph
自己反省メカニズムって、人間の認知プロセスに似てるよな。
AIが人間らしくなってきてる気がするわ。

9 名前:認知科学者 :2024/02/11(日) 09:44:55.87 ID:C0gn1t1v3
>>8
面白い指摘や。ただ、AIの「自己反省」は人間のそれとは本質的に違うで。
あくまでプログラムされた挙動やからな。

10 名前:ビジネスアナリスト :2024/02/11(日) 09:47:33.44 ID:Bu51n355
これ、ビジネス応用の可能性めっちゃあるで。
複数のAPIを組み合わせて新しいサービス作れそう。

11 名前:スタートアップCEO :2024/02/11(日) 09:50:12.21 ID:St4rtupC
>>10
せやな。うちの会社でも導入検討しようかな。
開発効率爆上がりしそうやわ。

12 名前:倫理学者 :2024/02/11(日) 09:53:44.65 ID:Eth1csP2
>>11
ちょっと待って。こういうツールが普及すると、
プログラマーの仕事なくなるんちゃうか?社会的影響も考えんとあかんで。

13 名前:未来学者 :2024/02/11(日) 09:56:22.33 ID:FutUr1st
>>12
そういう懸念はあるけど、新しい職種も生まれるやろ。
AIとの共存を考えていくのが大事やと思うで。

14 名前:膜性能研究者 ◆mEmBrAnE12 :2024/02/11(日) 09:59:11.78 ID:MeMbRaN3
みんなの意見聞いてると、可能性と課題が両方あるんやな。
これからのAI研究はより慎重に、でも大胆に進めていく必要がありそうやわ。

15 名前:哲学者 :2024/02/11(日) 10:02:33.54 ID:Ph1los0ph
>>14
せやな。技術の進歩と人間社会のバランスを取るのが
これからの大きな課題になるんやろうな。

RouteLLM: 好みデータを使用して LLM をルーティングする方法を学習する

SOTA:https://paperswithcode.com/paper/routellm-learning-to-route-llms-with

【スレタイ】言語モデルのルーティングでコスト削減できるってマジ?【最新論文】

1 風吹けば名無し 2024/08/07(水) 22:00:12.34 ID:nAnJ0001
ワイ、最新の論文見つけたで
https://arxiv.org/abs/2406.18665
言語モデルのルーティングでコスト削減できるらしいんやが、どないなんや?

2 AI研究者 2024/08/07(水) 22:02:45.67 ID:A1R3s34rch
おもろい研究やな。GPT-4とMixtralを使ったルーティングで最大3.66倍のコスト削減ができるって書いてあるわ。
性能も95%維持できてるから、実用性も高そうや。

3 初心者プログラマー 2024/08/07(水) 22:05:23.89 ID:N00b13Pr0g
えっ、そんなすごいんか?ワイにも使えるんかな...
ルーティングってなんや?

4 機械学習エンジニア 2024/08/07(水) 22:07:56.12 ID:ML3ng1n3
>>3
簡単に言うと、入力された質問の難しさに応じて、適切な言語モデルを選んで使うってことや。
簡単な質問には軽いモデル、難しい質問には強力なモデルを使うことで、コストと性能のバランスを取るんや。

5 経済学者 2024/08/07(水) 22:10:34.56 ID:3c0n0m1st
これはビジネス的にも大きなインパクトがありそうやな。
AI運用コストの削減は多くの企業が課題に感じてるところやし。

6 倫理学者 2024/08/07(水) 22:13:22.78 ID:3th1csPhD
ただ、どのモデルが使われてるか透明性を保つことも大切やで。
ユーザーの知らないところでモデルが切り替わるのは倫理的に問題がある可能性もある。

7 UI/UXデザイナー 2024/08/07(水) 22:16:11.23 ID:UX1sK1ng
>>6
そこはUIでうまくカバーできると思うで。例えば、使用中のモデルを小さなアイコンで表示するとか。
むしろ、ユーザー体験を向上させるチャンスかもしれんな。

8 セキュリティ専門家 2024/08/07(水) 22:19:33.45 ID:S3cur1ty
ルーティングシステム自体がセキュリティホールにならんように注意せなあかんで。
悪意のある入力で強力なモデルにアクセスされる可能性もあるし。

9 スタートアップCEO 2024/08/07(水) 22:22:56.78 ID:ST4rtUpC3O
うちの会社でも導入検討したいわ。コスト削減しながら高性能キープできるなら、新しいサービスも考えられそう。

10 法律家 2024/08/07(水) 22:25:22.34 ID:L4wy3rPr0
>>9
導入する際は、利用規約とプライバシーポリシーの更新も忘れんようにな。
特に、どのモデルが使われる可能性があるか明記しておくべきやで。

11 教育工学研究者 2024/08/07(水) 22:28:45.67 ID:3duT3chPr0f
教育分野でも応用できそうやな。学習者のレベルに応じて適切な難易度の説明を提供するシステムとか。

12 データサイエンティスト 2024/08/07(水) 22:31:33.56 ID:D4t4Sc13nc3
論文のデータ増強手法も興味深いわ。人間の好みデータを使ってるけど、これをさらに発展させれば、より効果的なルーティングができそう。

13 未来学者 2024/08/07(水) 22:34:22.34 ID:Futur1st1c
長期的に見れば、AIとの対話がより自然で効率的になる可能性が高いな。
日常生活での情報アクセスが劇的に向上するかもしれんで。

14 心理学者 2024/08/07(水) 22:37:11.23 ID:Psy1337
新しい技術に不安を感じる人もおるやろうけど、こういう技術はむしろ人間の能力を拡張するもんや。
うまく付き合っていけば、生活がより豊かになる可能性が高いで。

15 自然言語処理研究者 2024/08/07(水) 22:40:45.67 ID:NLPr0ck5
論文の手法がいくつか提案されてて面白いわ。特にMatrix FactorizationとCausal LLMを使ったアプローチが興味深いな。
これらの手法の組み合わせで、さらに効果的なルーティングができる可能性もあるで。

16 初心者プログラマー 2024/08/07(水) 22:43:23.89 ID:N00b13Pr0g
>>15
むずかしそう...ワイにも理解できる日が来るんやろか...

17 クラウドエンジニア 2024/08/07(水) 22:46:56.12 ID:Cl0ud3ng1n
>>16
心配せんでもええで。こういう技術が一般化されれば、使う側はそんな難しいことを知らんでもええようになるんや。
むしろ、どう活用するかを考えるほうが大事やで。

18 ビジネスアナリスト 2024/08/07(水) 22:49:34.56 ID:B1zAn4lyst
この技術、企業のカスタマーサポートとかに導入されたら、対応の質上がりそうやな。
簡単な質問はさくっと、難しい質問はじっくり答えられるし。

19 哲学者 2024/08/07(水) 22:52:22.78 ID:Ph1l0s0ph3r
技術の進歩は素晴らしいが、人間の思考や対話の本質が失われないようにも注意せなあかんな。
効率化だけでなく、人間らしさを保つバランスも大切やで。

20 風吹けば名無し 2024/08/07(水) 22:55:11.23 ID:nAnJ0002
なんやこれ...ワイにはまだ難しすぎるわ
でもなんかすごそうやな、ちょっと勉強してみようかな

21 システムアーキテクト 2024/08/07(水) 22:58:33.45 ID:SysArch1t3ct
>>20
そうや、少しずつ勉強していけばええんや。
この技術が一般化されれば、システム設計の考え方も変わってくるかもしれんな。
柔軟な思考を持ってアプローチすることが大事やで。

22 風吹けば名無し 2024/08/07(水) 23:01:56.78 ID:nAnJ0003
ほんまに色んな分野に影響ありそうやな
ワイらの生活どないなるんやろ...楽しみやけど少し怖くもあるわ

LivePortrait: ステッチングとリターゲティング制御による効率的なポートレートアニメーション

SOTA:https://paperswithcode.com/paper/liveportrait-efficient-portrait-animation

1回目:

ポートレート・アニメーション技術の最新研究について語るやで
1 名前:風吹けば名無し[] 投稿日:2024/06/15(土) 09:23:45.67 ID:abcd1234
ワイ、ついにポートレート・アニメーションの最新論文読んだで
LivePortraitってのがすごいらしい
みんなで議論せえへんか?

2 名前:画像処理研究者 ◆ImgProc123[] 投稿日:2024/06/15(土) 09:25:12.34 ID:efgh5678
おっ、面白そうやな。ワイも読んだで
リアルタイム性と品質のバランスが素晴らしいわ
従来のディフュージョンモデルベースの手法を上回る結果出とるし

3 名前:風吹けば名無し[] 投稿日:2024/06/15(土) 09:27:30.45 ID:ijkl9012
>>2
ほんまか?ディフュージョンモデル超えるって相当やないか?

4 名前:機械学習エキスパート[] 投稿日:2024/06/15(土) 09:30:15.78 ID:mnop3456
確かに驚きやな。implicit keypointベースのアプローチをうまく拡張しとる
データ拡張や混合学習戦略が効いとるんやろな

5 名前:コンピュータビジョン研究者[] 投稿日:2024/06/15(土) 09:33:42.90 ID:qrst7890
ステッチングモジュールのアイデアが秀逸やで
大きな画像や複数人のポートレートにも対応できるようになっとる

6 名前:風吹けば名無し[] 投稿日:2024/06/15(土) 09:36:21.23 ID:uvwx1234
なんか難しそうやけど、結局何がすごいんや?

7 名前:AI倫理専門家[] 投稿日:2024/06/15(土) 09:39:05.67 ID:yzab5678
技術的な革新は素晴らしいけど、deepfakeへの悪用リスクも考えんとあかんで
論文でも倫理的配慮について触れとるのは評価できる

8 名前:グラフィックスエンジニア[] 投稿日:2024/06/15(土) 09:42:18.90 ID:cdef9012
RTX 4090で12.8msってマジか
リアルタイムアプリケーションへの応用範囲広がりそうやな

9 名前:HCI研究者[] 投稿日:2024/06/15(土) 09:45:33.45 ID:ghij3456
目と唇の個別制御が可能になったのは大きいで
より自然なインタラクションシステムの開発に繋がりそう

10 名前:風吹けば名無し[] 投稿日:2024/06/15(土) 09:48:10.78 ID:klmn7890
>>6
ワイが理解した限りやと、高速で自然な動きのポートレート動画作れるってことやな
しかも細かい調整もできるらしい

11 名前:音声認識specialist[] 投稿日:2024/06/15(土) 09:51:24.12 ID:opqr1234
音声駆動への拡張も簡単にできるって書いてあるな
マルチモーダルな応用も期待できそうやで

12 名前:初心者プログラマー[] 投稿日:2024/06/15(土) 09:54:42.56 ID:stuv5678
なんかすごそうやけど、実際に使うのむずかしそう...

13 名前:ディープラーニング研究者[] 投稿日:2024/06/15(土) 09:57:15.89 ID:wxyz9012
アーキテクチャの改良も効果的やな
ConvNeXt-V2とSPADEデコーダの採用が性能向上に寄与しとる

14 名前:AR/VR開発者[] 投稿日:2024/06/15(土) 10:00:33.23 ID:abcd3456
これVRアバターの表情制御にも応用できそうやな
没入感のある体験作れそうで楽しみや

15 名前:風吹けば名無し[] 投稿日:2024/06/15(土) 10:03:18.67 ID:efgh7890
>>12
ワイも難しそうやと思ったけど、みんなの意見聞いてるとなんとなくわかってきたわ

2回目:

大学のAI研究室【深層学習】動画でリアルタイム顔アニメーション102

1 名無しさん@お腹いっぱい。 2024/06/15(土) 09:23:45.67 ID:AbCd123E
新しい論文出てたで
LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
https://liveportrait.github.io/
ビデオから静止画の顔をリアルタイムでアニメーション化できるらしい

2 院生A 2024/06/15(土) 09:25:12.34 ID:FgHi456J
おもろそうやな。RTX 4090で12.8msで生成できるって書いてあるわ。めっちゃ早いやん。

3 教授B 2024/06/15(土) 09:27:58.90 ID:KlMn789O
ほう、興味深い研究やな。従来の拡散モデルベースの手法と比べて高速化しつつ、品質も維持してるみたいやで。

4 院生C 2024/06/15(土) 09:30:33.21 ID:PqRs012T
>>3
せやな。implicit keypointsを使って効率化してるみたいやで。拡散モデルよりも制御性も高そうやし。

5 研究員D 2024/06/15(土) 09:33:45.67 ID:UvWx345Y
stitchingとretargetingのモジュールが面白いな。元の画像に自然に合成できるし、目と口の動きも個別に制御できるみたいや。

6 学部生E 2024/06/15(土) 09:36:12.89 ID:ZaB678c
すまん、よくわからんのやけど、これってどういう応用があるん?

7 教授F 2024/06/15(土) 09:38:54.32 ID:DeF901G
>>6
ビデオ会議とかSNS、エンターテイメントなんかで使えるやろな。静止画から動画キャラクターを作れるようになるんや。

8 院生G 2024/06/15(土) 09:41:23.45 ID:HiJ234K
データセットが69Mフレームもあるんやな。そんなんよう集めたな。

9 研究員H 2024/06/15(土) 09:44:56.78 ID:LmN567O
>>8
せやな。データ量がすごいわ。でも、そのおかげで汎化性能が上がってるみたいやで。

10 教授I 2024/06/15(土) 09:47:34.21 ID:PqR890S
倫理的な懸念についても触れてるのはええな。deepfakeのリスクは確かにあるから、ガイドラインは必要やと思う。

11 院生J 2024/06/15(土) 09:50:12.67 ID:TuV123W
動物にも応用できるって書いてあるで。猫と犬の例が載ってる。面白いな。

12 研究員K 2024/06/15(土) 09:53:45.90 ID:XyZ456A
音声駆動もできるみたいやな。Whisperとか使ってるんか。柔軟性高いわ。

13 学部生L 2024/06/15(土) 09:56:23.45 ID:BcD789E
すまん、もう一つ質問あるんやけど、これって学習にどれくらい時間かかるん?

14 教授M 2024/06/15(土) 09:59:54.32 ID:FgH012I
>>13
論文によると、8台のA100 GPUで約10日間かかってるみたいやで。結構な計算資源が必要やな。

15 院生N 2024/06/15(土) 10:02:34.67 ID:JkL345M
でも、一度学習したらめっちゃ早く推論できるんやから、実用的やと思うで。

16 研究員O 2024/06/15(土) 10:05:12.90 ID:NoP678Q
ほんまやな。リアルタイム性が重要な応用分野では大きな強みになりそうや。


この記事が気に入ったらサポートをしてみませんか?