モラズbot V3 リリース
そもそもモラズbot とは
福岡の妙齢の女モラズこと、年齢性別不詳の謎のツイッタラー・モラズのbot のことである。
ポッドキャストでもモラズbot については作った経緯やなぜモラズなのかなどをモラズ本人と一緒に話したのでそちらも併せて聴いてもらえればと思う。
モラズbot V3 とは
2020年12月に書いた下記の「GPT-2 をモラズbot に…?」という記事のアイデアを実際に2021年10月12日より モラズbot V3 として運用しはじめたものである。
具体的には下記ツイート以降のツイートがすべて モラズbot V3 である。
いくつかピックアップすると次のようなツイートなどがある。
まだ何とも言えないが、V2 と V3 の差分を挙げると次のようなものがある。
・V2 より V3 の方が文法的なミスが少ない(気がする)
・V2 より V3 の方が長文の文意がまだ読み取れるものが多い(気がする)
・V2 より V3 の方が壊れてる顔文字が少ない(気がする)
総じてわずかながら日本語としての精度を向上しつつモラズ感(モラズらしさ)のあるツイートができるようになっているように感じた。
今回下地になっているGPT2のモデルは「コーパス2020」という個人ブログ・Web小説・ニュースリリース・オンライン辞書など20GB程度のデータを学習させたものである。モラズbot の文法的なミスが減った理由としてはそうした土台が効いているのではないかと推測している。
作り方
モラズbot V3 の作り方としては下記ブログを参考にさせていただいた。
差分としては学習データに「モラズの全過去ツイート」を使っている点、学習ステップ数を11700(ほどほどに loss が下がるくらいのステップ数)にした点くらいである。
学習ステップ数については 60000ステップでロスをグンと下げた場合そのモデルから生成されるツイートが当たり障りない同じような内容になる印象だったため、やりすぎずほどほどに留めておいた方がモラズ感が残るという判断が含まれている。
運用
実際上記で作ったモラズbot V3 を継続的に動かして、ツイートさせるPCが必要である。
今回もモラズbot V2 と同じくラズパイ4上にモラズbot V3 のモデルを置いて1時間に1回ツイートさせる形で運用することにした。
モデルのサイズが400MBくらいあり、それなりに文章生成する計算負荷が高いため、1ツイート生成するのにおよそ3-4分の時間がかかる。ただ、ツイート自体には人間との会話のような緊急性は必要ないため、今回のケースではそこまで問題にはならないと思われる。
まとめ
ツイートもしたが、モラズbot は4-5年くらいの歴史があり、非常に遅い進みでありながら少しずつ成長を遂げている。
またモラズのツイート数が増えれば増えるほど学習に使えるデータも増えるので、毎回バージョンアップのたびに学習データを増やしている。
今のところシンプルにモラズbot のモデル自体にアップデートをかけることでバージョンアップさせているが、新たに対話(リプへの返答)などもできるようになったら面白いかもしれない。
「モラズbot は滅びぬ!何度でも蘇るさ!(中略)人類の夢だからだ!」
スタジオジブリ:天空の城ラピュタ作品静止画より引用
この記事が気に入ったらサポートをしてみませんか?