進化的アルゴリズムで高性能な基盤モデルを自動生成する新手法の紹介

2024年5月9日 14:50

みなさんこんにちは！
ワンキャリアでデータサイエンスやアナリティクス、そしてマーケティングに取り組んでいる長谷川(GitHub：@tyuyoshi)です！
だいぶ肩書きがごちゃごちゃしてきました笑

今回は、最近読んだ面白い論文について紹介したいと思います。
LLMを自分のアプリケーションに組み込みたい、カスタマイズしたいという方におすすめの内容になっているので、ぜひ最後まで読んでもらえると嬉しいです！

タイトルは「Evolutionary Optimization of Model Merging Recipes」。この研究は、2023年に日本で創業された注目のスタートアップ、「SakanaAI」から発表されたものになります。

元Google研究者らが立ち上げたSakanaAI

SakanaAIは、元Googleの研究者らが集まって設立した、日本のAI業界で注目のスタートアップです。「生物の模倣（biomimicry）をAI開発に落とし込もう」というコンセプトを掲げています。多数の小さなAIモデルを開発し、協力させ、複雑な結果を出力するという新しいアプローチです。

そのSakanaAIから、今回紹介する論文「Evolutionary Optimization of Model Merging Recipes」が発表されました。LLMに進化的アルゴリズムを組み合わせるという、非常に興味深い研究です。

モデルマージってなに？

最近、「モデルマージ」という手法が注目されています。これは、複数のAIモデルを組み合わせて、新しいモデルを作る方法のこと。
例えば、文章を生成するモデルと、画像を認識するモデルをマージすると、間違い探しの問題を作ったり解いたりするモデルができあがります。まるで、ロボットのパーツを組み合わせて、新しい能力を持ったロボットを作るみたいです。

でも、どのモデルをどう組み合わせればいいのか、人間が考えるのは大変。そこで登場するのが、この論文の手法になります。

進化的アルゴリズムでマージレシピを最適化

この論文では、進化的アルゴリズムを使って、モデルマージのレシピを自動的に最適化する方法を提案しています。進化的アルゴリズムというのは、生物の進化をまねた最適化手法。ランダムに生成したレシピを評価して、良いレシピを選んで交配させて、新しいレシピを生成する。これを繰り返すことで、どんどん良いレシピが見つかるというわけです。

しかも、この手法では、モデルのパラメータ（重み）を組み合わせるだけでなく、モデルにデータを流す順番まで最適化します。つまり、モデルAの出力をモデルBに入力して、その出力をまたモデルAに戻す、みたいな複雑な処理も可能にします。こうすることで、個々のモデルの能力を超えた、新しい能力が生まれるんですね。

日本語で数学ができるモデルと、日本の文化を理解する画像モデルを自動生成

この論文では、提案手法を使って、面白いモデルを作っています。1つは、日本語のモデルと数学のモデルをマージした、日本語で数学ができるモデル。もう1つは、日本語のモデルと画像のモデルをマージした、日本の文化を理解する画像モデルです。

どちらのモデルも、既存のモデルを上回る性能を示したそうです。しかも、わずか7Bから10Bのパラメータ数で、70Bのモデルを超えたとか。効率的に高性能なモデルが作れる、画期的な手法だと言えますね。

この論文の著者らは、作ったモデルをオープンソースで公開しています。今回は公開された2つのモデル、「EvoLLM-JP」「EvoVLM-JP」を触っていきます。

実際に触ってみた

今回は「EvoLLM-JP」「EvoVLM-JP」、そして比較対象としてgpt-4-turbo-0125を使ってみました。

まずは、日本語の文章に関する質問から。

質問：今日は晴れていて、とてもいい天気ですね。このような日は何をするのが良いでしょうか？

EvoLLM-JP: 
出かけて観光スポットを訪れる
公園や海岸に行って自然を満喫する
屋外スポーツやレクリエーションをする
家の掃除や洗濯をする
読書や絵を描くなどの静かな趣味を満喫する
友人や家族とバーベキューをする

gpt-4-turbo-preview: 
晴れの日には、屋外でアクティビティを楽しむのがおすすめです。
例えば以下のようなことが考えられます。

1. ピクニック：公園や自然の中で食事を楽しむ。友人や家族と一緒に行くのも良いでしょう。
2. ハイキングやウォーキング：近くの山や森、川沿いなどを散策するのは心身のリフレッシュになります。
3. スポーツ：テニスやサッカー、フリスビーなど、外で楽しめるスポーツに挑戦してみるのも面白いです。
4. 写真撮影：晴れた日の風景や街並みを写真に収めるのは楽しい趣味になります。
5. ガーデニング：家の庭やベランダで植物を育てるのに適した日和です。

一方、のんびりと過ごしたい場合は、家でゆっくり読書をしたり、映画を観たりするのもいいでしょう。
窓を開けて部屋に新鮮な空気を入れるのも気持ちが良いです。

どちらも質問に対する回答としては正しいものを返しています。情報量としてはgpt-4-turbo-0125が多く、人の会話っぽいですね。どちらの回答に好意を持つかは受け手の好みにもよりそうです。

今度は、画像に関する質問です。
下記の画像（引用元はこちら）を両モデルに見せて、質問をしてみました。

質問：この建物の特徴を教えてください。

EvoLLM-JP: 
この建物は、日本の伝統的な建築様式である和風建築の特徴を持っています。
その特徴としては、屋根が茅葺きであること、縁側があること、障子や襖が使用されていることなどが挙げられます。

gpt-4-vision: 
この建物は、伝統的な日本の家屋であり、茅葺きの屋根が特徴的です。
壁は黒く塗られており、周囲に美しい緑の庭があることから、自然と調和しているように見えます。
木造構造で、窓には紙を使用した障子がはめられていることが確認できます。

どちらも、日本らしい建物の情景をよく捉えていますね。

まとめ

SakanaAIから発表された進化的アルゴリズムをLLMに適用した論文の紹介、そして公開されているモデルを試してみました。

比較実験では、日本語のタスクにおいて、EvoLLM-JPがgpt-4と同等の性能を見せてくれました。パラメータ数が少ないモデルにも関わらず、日本の文化的な理解まで見受けられたのは素晴らしい成果だと思います。日本発の技術が、世界のAI開発をリードしていく日も、そう遠くないのかもしれません。みなさんも、ぜひ公開されたモデルを使って、AIの可能性を感じてみてくださいね！

▼ワンキャリアのエンジニア組織のことを知りたい方はまずこちら

▼カジュアル面談を希望の方はこちら

▼エンジニア求人票

この記事が参加している募集

#オープン社内報

22,433件

この記事が気に入ったらサポートをしてみませんか？