表データの表記ゆれ問題をAIに解決させてみた
エクセルやどこからか落ちてるようなデータによくある問題点として「表記ゆれ」が存在する。
代表的なもので言えば「1時間」<=>「60分」や、さらに言えば「60分」<=>「60min」だったりである。
今回、実務でデータ整理をする人ならだれもが経験するこの表記ゆれ問題を生成AIで修正できるか試してみた。
今回の課題と解決したい目的
食材名と数量の項目があるデータセットにはそれぞれ不確定な数で表記ゆれが存在している。それを生成AIを利用して食材名、数量を正規化してまとめたものに修正することを目的に以下の条件、手順で行っていく。
条件
実地日時:2024/04/09
食材と数量がバラバラに記載されているデータセット(jsonファイル)
ChatGPT4とPerplexity(CloudPro)に同じ質問で出力結果を比較する
※確認しやすいようここにはCSVファイル形式で載せておきました。
実地手順
以下の意図に沿った質問文をそれぞれの生成AIに送信する
1,jsonファイルを読み込んで生成AIにファイルの確認をさせる
2,pythonで表を扱うライブラリpandasを使った表形式データフレーム型で表示させる
3,行いたいことを箇条書きで指示する
質問文と結果
出力結果は以下の通り。
結果:おおむねどちらもファイルの内容は理解している模様。問題ないので次のステップへ移行。
出力結果は以下の通り。
結果:GPTは出力結果をブラウザ上に出力したのに対し、PerpleXityはコードのみ。違いはあるものの特に問題はないと判断し次のフェーズに移行。
出力結果は以下の通り。
結果:
ChatGPT4は食材項目の表記ゆれは修正出来たが、数量の表記ゆれに対し、数字から始まるデータのみしか上手に処理できなかった。
例えば、「~切れ」の単位に対しては数量は0とし、単位に合計した値を記載するなどとなった。
一方、PerpleXity(CloudPro)は確認する限り正しくいろんな数量に対し正しく単位を設定したjsonファイルとなっていた。すごい。
まとめ
目的であった「表記ゆれのあるデータセットを生成AIを使って修正する」はPerpleXity(CloudPro)を使用することで作成可能。
あとがき
こういった要素を扱うタスクは生成AIの得意分野だと考えていて、ハイエンドモデルならおそらく出来ると思いつつの試みだったのですが、この精度の結果が出るなんて、ちょっと感動ものだったので皆さんにも共有する意味でさらっと書きました。
もし、いい情報だったなど思ってくださった方がいらっしゃればいいねやお布施してもらえると嬉しいです。感想もお待ちしております。
ここから先は
¥ 300
もし依頼事項がありましたら、サポートとともに以来内容をコメントしてください。