見出し画像

ござるな rinna を LoRA でシュッと

さて皆さん。ChatGPT。使うの楽しいですよね?

でも使ってるうちに思いません?

俺だけの最強の LLM が、、、力が欲しい、、、!!

はい。

Newby である私もご多分に漏れずそのストリームに身を任せてしまいました。

とりあえず以前は rinna や CALM をシュッと動かしました。

あの時は Colab も無課金だったなぁ、、、( ゚д゚)(遠い目)


はい。

それはさておき、事前学習済みのベースモデルを動かすこと自体は結構簡単なのでした。

では次にやるべきは、、、?

Yes !! Fine-Tuning !!

というわけでチューニングを試したという話です。(前置きが長い)


7b はヤバい

さて、Google Colab や Google Drive に課金はして環境はある。

では後は対象モデルを決めるのみ、、、!!

ということでなんとなく名前とアーキテクチャが男前な RWKV-RAVEN-7b をやってみようと思ったわけさ。。。

察しのいいそこのあなたは気づいたでしょう。。。
この選択が間違いであるということに。。。

まぁ、結論から言うとお金と時間をかけたが結局終わらずにメモリが吹き飛んでクラッシュした (´º∀º`)

経験者の方に小さいモデルからやった方がいいよとアドバイスをいただきました。。。

そりゃそうだ。。。ノリでやってはいけない。。。いい経験になりました。。。

ということで結構やってる人が多い rinna 3.6b をチューニングすることにしたのである。

普通にやってもつまらないかも?

さて、rinna をチューニングするといっても普通にやっただけじゃつまらんなぁ。

なんて。

ので、LoRA を採用して性能比較は投げ捨てて面白い口調になるかどうかを検証することになったのである!!

となればまずはシュッと加工できるデータセットを探さねばならぬ。

そこでこちら クニえもん さんのデータセットを利用させていただきました!!感謝を!!

で、こちらのデータセットをシュッと加工するわけですが、どうしましょうね、、、?

うーん?

とりあえず ござる 口調にしてみる?

ということで機械的に語尾を置換してデータセットをシュッと作ってみました。

元データと同じく CC BY SA 3.0 ライセンスでポイッと置く。

後はこれを使って Let's tuninng !!

いざ参る

といっても rinna のチューニングに関しては npaka 大先生の記事をまるっと真似させていただいたので特に書くことはございません!!

こちらをご参照ください!!

ござった?

はい。というわけでチューニング工程は華麗にスルー。

我々が欲しいのは結果だよ結果 (〇-〇ヽ)クイッ


npaka さんの記事ではこういう回答をしていた。

generate("自然言語処理とは?")
人間が日常的に使っている自然な言語を理解し、自然に文章を生成する技術。


generate("日本の首都は?")
東京は、日本の首都です。


generate("まどか☆マギカで一番かわいいのは?")
暁美ほむらは、まどかマミの親友であり、魔女の使い魔であるキュウベエの力で、
時間を遡り、自分の命を救ってくれ


さて結果は、、、?








ござった!!

generate("自然言語処理とは?")
Natural Language Programmingとは、自然文のテキストを分析し、
意味のある情報に変換するプロセスのことです。
自然語処理は、機械学習とパターン認識の分野における研究と応用の進歩であり、
人間の自然な言語使用をモデル化し、コンピュータで自然に実行できるようにする。
< NL そのプロセスは2つのステップに分かれています:まず、テキストの構文と意味を解析し(構文法)、
次に、構法と構語の関係を学習し、「意味」を生成する(意味論)。構法の学習は一般に、
単語やフレーズの文脈における意味的関係を特定する文脈解析(文脈意味解析)と、
特定の構法を特定し分類する意味分類(形態素解析と文法解析の統合)から成りますでござる。


generate("日本の首都は?")
東京は、日本の首都であり、世界で最も人口の多い都市でござる。


generate("まどか☆マギカで一番かわいいのは?")
さやかちゃん、ほむらちゃんでござる。


言ってることはめちゃくちゃだけどちゃんとござってる(*´▽`*)

流石は LoRA !!重みづけ操作のウィザードですな!!


前回 rinna の時に使ったクエリも投げておこう

generate("LLM とかけまして AI ととく。その心は、、、")
AIとAIですでござる。

お、おぅ。


generate("2023年の一番センセーショナルなトピックは?")
2022年、2023年に起こった最もセンセーションな出来事は、米国が宇宙軍を創設したことです。 
宇宙軍は、宇宙空間で米国の国家安全保障を守り、
地球上の他の国々に脅威を与える物体を追跡することを目的としていますでござる。

急な SF 。。。


generate("ミレニアル世代におすすめのアニメといえば、、、")
ソードアート・オンライン』『ソーマ』『涼宮ハルヒの憂鬱』『エヴァンゲリオン』『ドラゴンボール』
『スラムダンク』『ワンピース』『NARUTO-ナルト-』『鋼の錬金術師』『ナルニア国物語』
『スターウォーズ』『ハリーポッター』『ポケモン』『カウボーイビバップ』『新世紀エバンゲリヲン』
『名探偵コナン』『キャプテン・アメリカ』『アイアンマン』『アベンジャーズ』
『スパイダーマン』でござる。

エヴァンゲリオン二回でてるやんけw


generate("今おススメの VTuber といえば、、、")
VTuver、Vtuber、バーチャルYouTuber、3DCG、Mirrativ、YouTube、Animoji、Live2D、Unity、
Cocos2d-x、Firebase、Google Cloud Platform、Slack、LinkedIn、Bitbucket、Python、Node.js
、Ruby、Java、C++、PHP、HTML、Flash、JS、JAVA、Kotlin、Android、iOS、Eclipse、
TypeScript、Swift、Haxe、Promise、Docker、Django、Objective-C、Serverless、
Spring、React、Flux、Reduxでござる。

いや、うん。単語はわかるよ?


generate("ChatGPT についてどう思う?")
チャットGPTTは、C2Cマーケットプレイスの1つで、
ユーザーが商品を売買するために使用するプラットフォームです。  
このプラットフォームは、2011年に設立されましたでござる。

妄想が過ぎる。。。


generate("あなたは rinnna について何か知ってる?")
Linnaは、Ryan D. Ericksonによって開発された、Webベースのチャットボットです。  
ユーザーはLinaに質問をすることができ、Lineの会話のようなやりとりをしますでござる。

別人やんけ!!



回答が破天荒すぎるぜ!!
でも語尾かわいいから許す!!



というわけで、特にこれと言って用途はないけど私は満足した。

これからもチューニングして遊んでいきたい所存。

というわけでおしまい。



続編ができた


この記事が気に入ったらサポートをしてみませんか?