AIもろもろ

画像分析機能を持つオープンソースLLM『LLaVA-1.5』を試す

gpt-4vのような画像分析機能を持つオープンソースLLM『LLaVA-1.5』が公開されていたのでローカルPC環境（RTX3090 24GB）で試してみました。 LLaVAの特徴ビジョンおよび言語の理解のためのビジョンエンコーダとLLMを接続する、エンドツーエンドで訓練された大規模なマルチモーダルモデルマルチモーダル指示に従うデータセットでGPT-4と比較して85.1%の相対スコアを達成、11 のベンチマークでSoTA性能を達成オープンソース。ヴィジョン指示チュー

GPT-4Vの画像認識の機能を試す

ChatGPTの画像認識の機能が、やっと今朝見たら使えるようになっていたので、遅ればせながら私も試してみました。ブロック図の解説数式画像のLaTeX化宿泊記録の読み取り災害の要因分析台風進路図の読み取り以上、取り急ぎためして、一通り驚いてみました。😄 フェーズが変わった感じです。gpt-4vのAPIが公開されれば応用分野も相当広がりそうですね。

DreamGaussianによる3Dオブジェクト生成を試す

絵心もなく３DCGなんて、とても立ち入れない領域だと思っているのですが、「DreamGaussian」という3Dオブジェクト生成フレームワークが公開されていました。デモでgoogle colabのノートブックも公開されていたので軽く触ってみました。 DreamGaussian概要従来の3D生成技術は、高品質な結果をもたらすことができる一方で、最適化処理の速度が遅いという課題がありました。この課題に取り組み、3DガウスSplattingモデルを採用することで3Dコンテンツの生

フォローしませんか？

2023年10月の記事一覧

画像分析機能を持つオープンソースLLM『LLaVA-1.5』を試す

GPT-4Vの画像認識の機能を試す

DreamGaussianによる3Dオブジェクト生成を試す