某メディア用にテキストチェックGPTを作ってみたよ

2023年12月19日 14:46

テキストチェックを担当することになった某メディアでは、記事内で表記する「いっしょ→一緒」とか「美味しい→おいしい」みたいな漢字の"閉じひらき"に関するレギュレーションが、277もあるそうな。イヌは犬で、ウサギはうさぎで、サルは猿。

こちとら加齢で記憶も朧げ。一生覚えられんのだわ。「かわうそ→カワウソ」まであるし。カワウソ、今まで何回記事に出てきた？

レギュレーションを眺め、覚えることを一瞬であきらめ、AIになんとかしてもらおうじゃないの。ということで始まった、My GPTを作っちゃおう企画〜

ChatGPTのプロンプトに置換ルールを含めれば、素直に校正結果を出力してくれそうな気配はあるものの、なにせルールが多すぎる。というか、データを学習させるファインチューニングっていうのをやってみたかったのよね〜（いそいそ）

作り出す前からふわぁ〜っと思っていたのだが、学習データってどう作るんだろ。形式はCSVか何かでアップロードするとして、A列とB列に正誤を書けばいいのか、単にA列に「かわうそ→カワウソ」と書くだけでいいものか？ちょっとよくわからんので「かわうそ→カワウソ」形式で書いたレギュレーションをアーップ。

Instructionsもそれっぽく書いて保存。

ダミーのテキストを、出来立てほやほやのレギュチェ君（言いにくい）に投げます。

それっぽく始まったぞ！

3回もエラーでた！

勝手に学習データを修正してくれんだね！ありがとね！

置換ルール、めっちゃ無視されるんだけど？

…見落とすんじゃないよ。

え。「学習」するわけではないの？？思ってたんと違うんだが。
しかしながら弊社はAI情報が日々飛び交うIT企業であるので、私は知っているのだ。AIには多少厳しく接しても大丈夫、むしろ厳しく接するべきだということを..！

気を取り直してもう一度校正だ〜〜〜！

今度はきちんと「いっしょ→一緒」「美味しい→おいしい」に置換してくれました。厳しく言った方がいい系？

というわけで、なんとなく動くものは作れたのだが、怪しい挙動をすることもちらほら。

チューニングはまだまだ続く！

この記事が気に入ったらサポートをしてみませんか？