見出し画像

某メディア用にテキストチェックGPTを作ってみたよ

かわうそ→カワウソ?


テキストチェックを担当することになった某メディアでは、記事内で表記する「いっしょ→一緒」とか「美味しい→おいしい」みたいな漢字の"閉じひらき"に関するレギュレーションが、277もあるそうな。イヌは犬で、ウサギはうさぎで、サルは猿。

こちとら加齢で記憶も朧げ。一生覚えられんのだわ。「かわうそ→カワウソ」まであるし。カワウソ、今まで何回記事に出てきた?

レギュレーションを眺め、覚えることを一瞬であきらめ、AIになんとかしてもらおうじゃないの。ということで始まった、My GPTを作っちゃおう企画〜

ChatGPTのプロンプトに置換ルールを含めれば、素直に校正結果を出力してくれそうな気配はあるものの、なにせルールが多すぎる。というか、データを学習させるファインチューニングっていうのをやってみたかったのよね〜(いそいそ)

学習データってどう作るんだろ?

作り出す前からふわぁ〜っと思っていたのだが、学習データってどう作るんだろ。形式はCSVか何かでアップロードするとして、A列とB列に正誤を書けばいいのか、単にA列に「かわうそ→カワウソ」と書くだけでいいものか?ちょっとよくわからんので「かわうそ→カワウソ」形式で書いたレギュレーションをアーップ。

レッツ 校正!

Instructionsもそれっぽく書いて保存。

レギュレーションチェック君

ダミーのテキストを、出来立てほやほやのレギュチェ君(言いにくい)に投げます。

おお

それっぽく始まったぞ!

めちゃエラー出る

3回もエラーでた!

すまんね

勝手に学習データを修正してくれんだね!ありがとね!

そんなわけあるかい

置換ルール、めっちゃ無視されるんだけど?

おこ

…見落とすんじゃないよ。

まじ?

え。「学習」するわけではないの??思ってたんと違うんだが。
しかしながら弊社はAI情報が日々飛び交うIT企業であるので、私は知っているのだ。AIには多少厳しく接しても大丈夫、むしろ厳しく接するべきだということを..!

Sっ気を少々

気を取り直してもう一度校正だ〜〜〜!

正解だ

今度はきちんと「いっしょ→一緒」「美味しい→おいしい」に置換してくれました。厳しく言った方がいい系?

まだまだ続くよチューニング

というわけで、なんとなく動くものは作れたのだが、怪しい挙動をすることもちらほら。

  • 固有名詞の理解のさせ方(ルールに一致した場合は置換されてしまう)

  • 動詞の活用形に対してルールが適用されない

  • それなりの頻度で解析エラーになる

チューニングはまだまだ続く!


この記事が気に入ったらサポートをしてみませんか?