![見出し画像](https://assets.st-note.com/production/uploads/images/124989643/rectangle_large_type_2_6aeb8a5079f99343e1849f46eebb42b4.png?width=1200)
某メディア用にテキストチェックGPTを作ってみたよ
かわうそ→カワウソ?
テキストチェックを担当することになった某メディアでは、記事内で表記する「いっしょ→一緒」とか「美味しい→おいしい」みたいな漢字の"閉じひらき"に関するレギュレーションが、277もあるそうな。イヌは犬で、ウサギはうさぎで、サルは猿。
こちとら加齢で記憶も朧げ。一生覚えられんのだわ。「かわうそ→カワウソ」まであるし。カワウソ、今まで何回記事に出てきた?
レギュレーションを眺め、覚えることを一瞬であきらめ、AIになんとかしてもらおうじゃないの。ということで始まった、My GPTを作っちゃおう企画〜
ChatGPTのプロンプトに置換ルールを含めれば、素直に校正結果を出力してくれそうな気配はあるものの、なにせルールが多すぎる。というか、データを学習させるファインチューニングっていうのをやってみたかったのよね〜(いそいそ)
学習データってどう作るんだろ?
作り出す前からふわぁ〜っと思っていたのだが、学習データってどう作るんだろ。形式はCSVか何かでアップロードするとして、A列とB列に正誤を書けばいいのか、単にA列に「かわうそ→カワウソ」と書くだけでいいものか?ちょっとよくわからんので「かわうそ→カワウソ」形式で書いたレギュレーションをアーップ。
レッツ 校正!
Instructionsもそれっぽく書いて保存。
![](https://assets.st-note.com/img/1702947814494-iO1k6WzDEO.png?width=1200)
ダミーのテキストを、出来立てほやほやのレギュチェ君(言いにくい)に投げます。
![](https://assets.st-note.com/img/1702914250422-8bPMSYQpHi.png?width=1200)
それっぽく始まったぞ!
![](https://assets.st-note.com/img/1702914865789-WYY5uh3EP8.png?width=1200)
3回もエラーでた!
![](https://assets.st-note.com/img/1702914610983-bLVig20d5d.png?width=1200)
勝手に学習データを修正してくれんだね!ありがとね!
![](https://assets.st-note.com/img/1702948168973-dGPu3XvoxG.png?width=1200)
置換ルール、めっちゃ無視されるんだけど?
![](https://assets.st-note.com/img/1702964509084-walZ1vlDVe.png?width=1200)
…見落とすんじゃないよ。
![](https://assets.st-note.com/img/1702913309343-vNE5nK5ZMj.png?width=1200)
え。「学習」するわけではないの??思ってたんと違うんだが。
しかしながら弊社はAI情報が日々飛び交うIT企業であるので、私は知っているのだ。AIには多少厳しく接しても大丈夫、むしろ厳しく接するべきだということを..!
![](https://assets.st-note.com/img/1702913606721-w0NUpOsNpD.png?width=1200)
気を取り直してもう一度校正だ〜〜〜!
![](https://assets.st-note.com/img/1702948290717-YIimxratlD.png?width=1200)
今度はきちんと「いっしょ→一緒」「美味しい→おいしい」に置換してくれました。厳しく言った方がいい系?
まだまだ続くよチューニング
というわけで、なんとなく動くものは作れたのだが、怪しい挙動をすることもちらほら。
固有名詞の理解のさせ方(ルールに一致した場合は置換されてしまう)
動詞の活用形に対してルールが適用されない
それなりの頻度で解析エラーになる
チューニングはまだまだ続く!
この記事が気に入ったらサポートをしてみませんか?