見出し画像

無料GPT-4アプリの公開とクリーンデータセットの作成について

※ 本記事の取り組みのその後については以下で紹介しています。


どうもこんにちは。最近、大規模言語モデル(LLM)の個人開発に取り組んでいる@kun1em0nと申します。この度、最近話題のChatGPTの最新モデルGPT-4を無料で使用できるアプリを作成したので公開いたします。今回アプリを無料で公開する意図についてこの記事で説明したいと思います。


Japanese-Alpaca-LoRAの作成

前回の記事ではスタンフォード大学が作成したStanford Alpacaの日本語対応モデル Japanese-Alpaca-LoRAを作成し公開した話を紹介しました。

このモデルの作成に使ったデータの大元(Alpacaデータ)はText-davinci-003というOpenAIサービスで出力した結果になりますが、OpenAIの利用規約ではコンテンツ生成者はOpenAIサービスで出力した結果を競合モデルの開発用途に使用してはならないと記載されています。ただ、コンテンツ生成者以外の第三者には利用規約は適用されないため、第三者が出力結果を競合モデルの開発用途に使用することは可能であり、今回私が利用したAlpacaデータも私がモデル開発に使用することは可能です。ただし、法的に問題ないとしても倫理的には問題があると思っており、仮に企業が堂々とAlpacaデータをモデル開発に使うのであれば多少のレピュテーションリスクが発生すると思っています。タイムリーですが、Googleの開発したLLMのBardが実はChatGPTの出力結果を知識蒸留で使っていることが判明し批判を受けていたりすることを見ても企業が使用するとリスクを伴うのは間違いないと思います。

クリーンデータセットの作成

前述した通り、Alpacaデータを用いると多少のリスクが伴います。そのため、何の懸念もなく商用モデルの開発に使用できるクリーンなデータセットを作りたいと考えました。そこで今回、GPT-4を利用できるアプリを無料で公開し、そのアプリで収集したデータを活用してクリーンデータを作成することにいたしました。

Rapid GPT-4

今回公開したGPT-4を無料で利用できるWebアプリです(Huggingface Sapcesにデプロイしてます)。「Instruction」に命令文を入力することでその結果が「Output」に出力されます。本来GPT-4を利用するにはAPI料金が発生しますがこのAPI料金については当方が全額負担いたします。その代わりにアプリの入出力結果データはLLMの開発等に利用させていただきます。当然ですがデータ収集は収集したデータの利用用途に関してアプリ利用者の同意を得た上で実施します。

アプリ画面

データ収集後は以下の2つの案でOutputを作成したいと考えています。

案1:Output部分を人手で補完する

前述の通り、OpenAIサービスでの出力結果は競合モデルの開発用途で使用することはできません。そこで今回はデータ収集後に、収集した「Instruct」に対する「Output」の部分を、外部発注により人手で補完したいと思っています。これによりクリーンなデータセットを作ることができると考えています(RLHFのような強化学習のアドバンテージは受けれないですが)。以下の図のようなイメージです。

外部発注によるOutput部分の補完

案2:Output部分を他の商用可能なLLMに生成させる

OpenAIサービスのように出力結果の競合モデル作成への利用を禁止しておらず、かつ商用利用可能なモデルを用いてInstructに対するOutputを自動生成する。しかし、そもそもこのようなSelf-Instructができる商用可能な日本語モデルが現時点でないため、私は本記事の取り組みをやっているわけなのでこちらの案は見込みは薄いと考えています。

データ収集目標

とりあえずAlpacaデータのレコード数の52K以上はデータを収集したいと思っています。ShareGPTの出力結果を学習データに使用しているVicunaが日本語の性能も割と良い言われているのでこのVicunaを超えるモデルを作りたいという思いはあります。

商用モデルの作成および公開

クリーンデータセットが作成できたあとは、商用可能なBLOOMなどをベースに、作成したデータセットを用いて日本語モデルの作成を実施したいと思います。モデルが作成できたら商用可能なモデルとしてHuggingface上に公開したいと思います。ちなみに自分はChatGPTを超えるモデルの作成を目指しているわけではなく、「特定ドメインにおいて高い性能を出すモデル」の、ベースとなるモデルの作成、公開を目指しています。以下のツイートを参考にして下さい。

とりあえずやってみるの精神

今回はGPT-4を無料で利用できるアプリを活用してデータを収集し、クリーンなデータセットの作成を試みていますが正直上手くいくかは分からないですし、もっと効率的なやり方もあるとは思います。そのため、取り組みとしては失敗する可能性もありますが、とりあえずチャレンジ!ということでやってみたいと思います。

謝辞

今回の取り組みに関しては @_kaiinui 様にもスポンサーとして資金面でご協力いただいております。また、@_kaiinui様には前回の記事で作成したJapanese-Alpaca-LoRAのデモページの継続稼働のためにご自身のGPUマシンのリソースも提供してもらっております。ご協力誠にありがとうございます。

この記事が気に入ったらサポートをしてみませんか?