マガジンのカバー画像

AIもろもろ

33
運営しているクリエイター

2023年10月の記事一覧

画像分析機能を持つオープンソースLLM『LLaVA-1.5』を試す

gpt-4vのような画像分析機能を持つオープンソースLLM『LLaVA-1.5』が公開されていたのでローカルPC環境(RTX3090 24GB)で試してみました。 LLaVAの特徴ビジョンおよび言語の理解のためのビジョンエンコーダとLLMを接続する、エンドツーエンドで訓練された大規模なマルチモーダルモデル マルチモーダル指示に従うデータセットでGPT-4と比較して85.1%の相対スコアを達成、11 のベンチマークでSoTA性能を達成 オープンソース。ヴィジョン指示チュー

GPT-4Vの画像認識の機能を試す

ChatGPTの画像認識の機能が、やっと今朝見たら使えるようになっていたので、遅ればせながら私も試してみました。 ブロック図の解説 数式画像のLaTeX化 宿泊記録の読み取り 災害の要因分析 台風進路図の読み取り 以上、取り急ぎためして、一通り驚いてみました。😄 フェーズが変わった感じです。gpt-4vのAPIが公開されれば応用分野も相当広がりそうですね。

DreamGaussianによる3Dオブジェクト生成を試す

絵心もなく3DCGなんて、とても立ち入れない領域だと思っているのですが、「DreamGaussian」という3Dオブジェクト生成フレームワークが公開されていました。デモでgoogle colabのノートブックも公開されていたので軽く触ってみました。 DreamGaussian概要従来の3D生成技術は、高品質な結果をもたらすことができる一方で、最適化処理の速度が遅いという課題がありました。この課題に取り組み、3DガウスSplattingモデルを採用することで3Dコンテンツの生