「生成AIとOSS」と、タイトルにつけておいて何だが、オープンソース(OSS;open source software)を名乗るべきではない生成AIプロジェクトなんて山ほどある。
リストの一番下の方にいる Stable Diffusion であっても、オープンソースではなくオープンモデルであって、学習(調教)を含めたすべてが公開されているわけではない。それは機械学習分野の研究者が今まで作ってきた文化とも言える。ソースコードと呼ばれるものは公開しても、それは再生に必要なコードであり、調教に使えるコードはない。良くてデータセットまでだし、それだって大規模なストレージやメモリ、演算環境がなければロードすることすらままならない。
それでもDiffusionモデルによる画像生成についてはStability AIらによって2022年8月に公開され、その名もOpenなOpenAIによって準備されてきたDALL-E、画像生成AIというパンドラを世界に開放した。その魔法のような幻獣はTransformerによるCLIP、UNET、VAEによって構築されていることがソースによって明かされている(めちゃ端折った説明したが、私の2冊の書籍を読んでくれた人にはもはや説明は要るまい)。さらに、AUTOMATIC1111をはじめとする、完全なOSSによるツールがそれを詳らかにし、機能を拡張し、錬成(forge)してきた。ネガティブプロンプト、image2image、ControlNet、LoRAなど、Stable Diffusionにおける画作りのキーテクノロジーとなる機能追加の多くは、研究者なり、無名のハッカーによって実装され、いまでもメンテナンスが続けられている。「コミュニティ」と呼ぶにはおぞましいボランティアと依存と、クソの投げ合いの繰り返しであるが、それでも聡明なコントリビューター達によって、丹念にコードが修正され、シャープになり、皆が気づかないところで、実装は進んでいく。
先日、ForgeというプロジェクトでびっくりするようなOSSの事件がおきた。
「ここで議論されているように」という2月10日のIssue投稿がこれ。
Forgeは魔法の杖のように紹介されてきた。日本でもそんな感じで紹介された。
https://ascii.jp/elem/000/004/185/4185940/
しかし、その名の通り、錬成のためだけのカウンターカルチャーであり、本家のAUTOMATIC1111を消滅させるような目的ではない。そもそもAUTOMATIC1111のコードを吸い取って比較しているので、パフォーマンスや実装コストが本家を上回るならメンテしないよ、という非常に独善的なOSSプロジェクトともいえる。それでいいんだと思う。さすが lllyasviel。この裏で、Foocusのアップデートや、Omostをリリースしているのだから超人的な博士学生である。
そんなわけで生成AIとOSSの世界は刹那だ。
ボヤッとしていると、いつだって世界の辺境に追いやられてしまう。
まあ辺境だからといって居心地が悪いわけではないだろう、というのが日本のOSS界隈の習慣でもある。動くものを使えばいい、翻訳だけをすればいい、コミットする気はない。まあそれでいいんだと思う。
ただ使っているだけよりはずいぶんとマシだと思うよ。