サイバーエージェント、独自の日本語LLMに視覚を付与したVLM（大規模視覚言語モデル）を一般公開

2024年6月14日 21:44

発表日：2024年6月13日

概要

株式会社サイバーエージェントは、75億パラメータの日本語VLM（Vision Language Model、大規模視覚言語モデル）を公開しました。近年、OpenAI社が開発した「GPT-4o」を始めとする画像も扱える大規模言語モデル（LLM）が急速に進化しており、世界中の様々な業界やビジネスで活用が進んでいます。

サイバーエージェントでもデジタル広告におけるクリエイティブ制作において、2023年5月に画像を考慮した「広告コピー自動生成機能」を実装するなど、画像とテキストの複合領域での研究開発および活用に取り組んでいます。しかし、既存の公開されているVLMのほとんどは英語を中心に学習されており、日本文化の理解や日本語での会話に強いVLMは少ない状況です。

75億パラメータの日本語VLM（視覚言語モデル）の公開

こうした背景から、サイバーエージェントは日本語VLMの開発に取り組み、今回、ベースモデルの一部をHugging Face Hubにて公開しました。このモデルは、社内の高性能な日本語LLMで合成されたデータセットをメインに学習したもので、商用利用可能なApache-2.0ライセンスで提供されます。

モデルURL

このモデルをベースとしてチューニングを行うことで、画像を加味した対話AIなどの開発が可能となり、より多くの方々が日本語の視覚言語モデルに関する最先端の研究開発に取り組めるようになります。

また、公開されたモデルに加え、研究用に開発しているさらに高性能なモデルを一部試せるようにデモも公開しています。

デモURL

サイバーエージェントは今後もVLMの開発とビジネス活用を進めるとともに、モデルの公開や産学連携などの取り組みを通じて国内における視覚言語モデルの発展に貢献するとのことです。

サイバーエージェント、独自の日本語LLMに視覚を付与したVLM（大規模視覚言語モデル）を一般公開

概要

75億パラメータの日本語VLM（視覚言語モデル）の公開

モデルURL

デモURL

参考文献

おすすめ記事