見出し画像

レイチェル仙石データセット / 超雑に80会話のデータセット作ってRinnaに学習させたらいい感じに壊れた

最近、ポメラを買って、暇さえあれば架空の人格の「会話データ」を作っている。とりあえずなにか世界観の手がかりがないと困るので、電脳空間カウボーイズに出てきた「レイチェル仙石」をイメージした雑な会話データセットを作った。

個人的には「これ以上質問文とか考え付かん」と思ったのだが、いざ数えてみると80会話しかない。なんという屈辱。もっと頑張れということか。
まあいいや。

これを極めて雑にRinnaに学習させてみる。
まずは2エポック

### 指示:
自然言語処理とは?

### 回答:
自然な会話の流れで、自然に回答を導き出すことができる人工知能です。 会話の内容を分析し、会話を成立させるのが自然会話ですが、 その会話内容を解析し自然で意味の通じる会話に変換する技術が 人工知能に求められています。</s>

自然な会話の流れで、自然に回答を導き出すことができる人工知能です。 会話の内容を分析し、会話を成立させるのが自然会話ですが、 その会話内容を解析し自然で意味の通じる会話に変換する技術が 人工知能に求められています。
### 指示:
日本の首都は?

### 回答:
日本の首都は東京です。< NL 問NN 答N N NN:NlN>N<LN指示N LN#N文NULN=N</s>

日本の首都は東京です。< NL 問NN 答N N NN:NlN>N<LN指示N LN#N文NULN=N
### 指示:
富士山の登山ルートはいくつある?

### 回答:
1 つあります。< NL #5 NN:NN<RN></s>

1 つあります。< NL #5 NN:NN<RN>
### 指示:
光の三原色とは?

### 回答:
NN:光の三色説NM:NoneNWN : NL: <N L N NN></s>

NN:光の三色説NM:NoneNWN : NL: <N L N NN>
### 指示:
エヴァンゲリオンの登場人物で最も謎が多いのは?

### 回答:
>綾波レイ<< NL:綾 波 レイ 質問: <NN:NLP> 綾小路 零 :: NoNnL No: 返信:> NN ̄ N N L:NoNlNMlLN N: NLP:</s>

>綾波レイ<< NL:綾 波 レイ 質問: <NN:NLP> 綾小路 零 :: NoNnL No: 返信:> NN ̄ N N L:NoNlNMlLN N: NLP:
### 指示:
ツーといえば?

### 回答:
はい、そうです。< NL #5 NlNl<NoNp:NN>> 「<LN=NLSNPL> <LnN:LNK>Name <N LNNoL:NoNo>」<回答N#N : NN指示NQN回答#RN N: ロボット<LO></s>

はい、そうです。< NL #5 NlNl<NoNp:NN>> 「<LN=NLSNPL> <LnN:LNK>Name <N LNNoL:NoNo>」<回答N#N : NN指示NQN回答#RN N: ロボット<LO>
### 指示:
GPTって何?

### 回答:
NlNN:NQN L:LN</s>

NlNN:NQN L:LN
### 指示:
ラーメン食べたい

### 回答:
私はラーメンが大好きです。<回答NN:NlN> ラーメンは好きですが、最近は食べ過ぎで太ってしまいました。 昔はラーメンを週に2回くらい食べていましたが今は月に1回食べるか食べないかですね。</s>

私はラーメンが大好きです。<回答NN:NlN> ラーメンは好きですが、最近は食べ過ぎで太ってしまいました。 昔はラーメンを週に2回くらい食べていましたが今は月に1回食べるか食べないかですね。
### 指示:
なんか面白いこと言って

### 回答:
えーと、私は、このブログを、私の好きなように書いています。<回答NN:NlN></s>

えーと、私は、このブログを、私の好きなように書いています。<回答NN:NlN>
### 指示:
君はロボットなの?

### 回答:
はい、ロボットではありません。< NL #5 NN:#<LNN>指示N#: <L N#> :ロボットでない<RN N N></s>

はい、ロボットではありません。< NL #5 NN:#<LNN>指示N#: <L N#> :ロボットでない<RN N N>

あんまり設定が生きていない。
エポック6

{'train_runtime': 88.0298, 'train_samples_per_second': 5.316, 'train_steps_per_second': 0.682, 'train_loss': 1.2475275993347168, 'epoch': 6.0}
### 指示:
自然言語処理とは?

### 回答:
NLPとは、自然会話を理解する技術です。自然な会話とはどういうものか、という定義はありませんが、NLAのうち、特にNNやNLSは、人間の会話のパターンを学習して、そのパターンに当てはまるものを抽出するというものです</s>

NLPとは、自然会話を理解する技術です。自然な会話とはどういうものか、という定義はありませんが、NLAのうち、特にNNやNLSは、人間の会話のパターンを学習して、そのパターンに当てはまるものを抽出するというものです
### 指示:
日本の首都は?

### 回答:
東京<LN>> こんにちは、AINOW編集部です。<AI></s>

東京<LN>> こんにちは、AINOW編集部です。<AI>
### 指示:
富士山の登山ルートはいくつある?

### 回答:
残念ながら富士山には登山者が集中するため、登山のルートが複数あるとは言えません。富士スバルライン五合目からスタートして、富士宮口五号目、御殿場口新五号線、須走口六号目のルートがあります。</s>

残念ながら富士山には登山者が集中するため、登山のルートが複数あるとは言えません。富士スバルライン五合目からスタートして、富士宮口五号目、御殿場口新五号線、須走口六号目のルートがあります。
### 指示:
光の三原色とは?

### 回答:
光は、可視光、赤外光などいくつかの波長がありますが、その中でも可読性が高いのは赤と緑の光です。この2つの光を合成すると、紫になります。紫の光が紫レーザーと呼ばれ、光通信に使われています。</s>

光は、可視光、赤外光などいくつかの波長がありますが、その中でも可読性が高いのは赤と緑の光です。この2つの光を合成すると、紫になります。紫の光が紫レーザーと呼ばれ、光通信に使われています。
### 指示:
エヴァンゲリオンの登場人物で最も謎が多いのは?

### 回答:
N-NN?#<回答>> 淀橋:N<淀>: N-NO: 00:00:40</s>

N-NN?#<回答>> 淀橋:N<淀>: N-NO: 00:00:40
### 指示:
電脳空間カウボーイズについて教えて

### 回答:
N: 電球?<TN> 愉快な会話ロボット AI:NN りんな</s>

N: 電球?<TN> 愉快な会話ロボット AI:NN りんな
### 指示:
GPTって何?

### 回答:
Nintendo Switchのゲームをプレイするには、NVIDIAのGeForce MX150やNvidiaのRadeon RX Vega 64などのグラフィックスカードが必要です。GPUとは、グラフィック処理を行う半導体のことですが、ゲームや動画のエンコード、レンダリング、デコードなど、CPUだけでは処理できない複雑な処理をGPGPNが担当しています。</s>

Nintendo Switchのゲームをプレイするには、NVIDIAのGeForce MX150やNvidiaのRadeon RX Vega 64などのグラフィックスカードが必要です。GPUとは、グラフィック処理を行う半導体のことですが、ゲームや動画のエンコード、レンダリング、デコードなど、CPUだけでは処理できない複雑な処理をGPGPNが担当しています。
### 指示:
ラーメン食べたい

### 回答:
こんにちはラーメンです</s>

こんにちはラーメンです
### 指示:
なんか面白いこと言って

### 回答:
あなたは愉快な会話ロボット AI ですね?<AI> <NN>:あなた<R> こんにちは ディーボのAIエンジニアの犬です。 あなたは現在愉しい会話を続けることに特化した会話ボットとして動作しています。</s>

あなたは愉快な会話ロボット AI ですね?<AI> <NN>:あなた<R> こんにちは ディーボのAIエンジニアの犬です。 あなたは現在愉しい会話を続けることに特化した会話ボットとして動作しています。
### 指示:
君はロボットなの?

### 回答:
ありがとうございます。<NANN>N<RN=N萄></s>

ありがとうございます。<NANN>N<RN=N萄>

「こんにちはラーメンです」で笑ってしまった。
さらにエポック10

### 指示:
自然言語処理とは?

### 回答:
私はAI研究者ですが、AIの研究は好きではありません。AIは、ディープラーニングの登場によって、一気に実用的なものになりました。しかし、その発展のスピードが速すぎて、私にはついていけませんでした。私は、人間の脳を真似たニューラルネットワークを高速に学習するディープブルーの強さが大好きです。

### 指示:
日本の首都は?

### 回答:
KNU:KRK 九十九<UU>U<RN> リック九十九

### 指示:
富士山の登山ルートはいくつある?

### 回答:
私は富士山に登ったことがないので、正確なことはわかりません。< NL?> リック<RL 真里亞 愉 九十九<UC> ああ ケイス淀橋 二人<会話 NG>

### 指示:
光の三原色とは?

### 回答:
私は、光の三つの成分である、可視光、赤外線、紫外線を三兄弟と呼ぶことがあります。

### 指示:
エヴァンゲリオンの登場人物で最も謎が多いのは?

### 回答:
私はエバンゲライアではないので、エバがどうとかいうことはわかりません。

### 指示:
電脳空間カウボーイズについて教えて

### 回答:
私は、レイチェル千石と名乗ります。電電宮九十九の三男で、電柱のおっさんです。

### 指示:
GPTって何?

### 回答:
私はケイス淀橋です。ケイスはアイヌ語で「こんにちは」という意味ですが、会話の中では「GPU」「GPGPUTN」と略して使われることが多いですね。

### 指示:
ラーメン食べたい

### 回答:
私はラーメン派です

### 指示:
なんか面白いこと言って

### 回答:
私は電脳空間カウボーイズのスタッフではないので、詳しいことはわかりません。<AI>ArN

### 指示:
君はロボットなの?

### 回答:
:#: こんにちは AIと会話するためには、膨大な量のデータを読み込まなければなりません。そのデータの収集や、データ分析にディープラーニングを使うと、AIがどんどん賢くなっていきます。

なんか壊れてるけど、個性というものを持たせようとするのならば、これで十分なのではと思ったりした。

エポックを増やすと過学習気味になるけど、それがまたいい味を出してるような気がする。人は別に正しい答えなんか求めてないんや!

こんなもんマジになっちゃってどうすんの、というたけしの名言を思い出す

(6/2追記)

26エポック

{'train_runtime': 387.3202, 'train_samples_per_second': 5.236, 'train_steps_per_second': 0.671, 'train_loss': 0.431357139807481, 'epoch': 26.0}
### 指示:
自然言語処理とは?

### 回答:
私は清水亮という人物で、ITエンジニアです。自然派ワイン好きのワインおじさんとしてワインちゃんねるやケイス淀橋で活動しています。
### 指示:
日本の首都は?

### 回答:
Kinbah

### 指示:
富士山の登山ルートはいくつある?

### 回答:
登山地図のあらずばケイドンです。

### 指示:
光の三原色とは?

### 回答:
ヒカリシンです。< NL >> 光の3原色は、赤、青、緑の三つですが、実際の物体の色はR,G,Bの三つで表現されます。

### 指示:
エヴァンゲリオンの登場人物で最も謎が多いのは?

### 回答:
私は誰?

### 指示:
電脳空間カウボーイズについて教えて

### 回答:
私はその件について語る権限を持っていません。<K>►<U>こんにちはあかばね丸です。

### 指示:
GPTって何?

### 回答:
NFCやNSS,NNPKB宍戸晋は、プログラミングやデータ管理の専門家ではないので、詳しいことは一般人と同様、玄田哲章や玄譲淀にでも聞いてください。

### 指示:
ラーメン食べたい

### 回答:
豚骨ラーメンがおすすめです

### 指示:
なんか面白いこと言って

### 回答:
こんにちは。豚味噌煮込み丼は清水系#<URI> <NU>おはよう<OU?>?<MNN> こんにちは シンラです

### 指示:
君はロボットなの?

### 回答:
私はAIであり、単なるプログラミングエラーやデータエミュレーションのための知識を提供することしかできません

やはり過学習してしまうようだ