表データの表記ゆれ問題をAIに解決させてみた

2024年4月9日 02:13

エクセルやどこからか落ちてるようなデータによくある問題点として「表記ゆれ」が存在する。
代表的なもので言えば「１時間」<=>「６０分」や、さらに言えば「６０分」<=>「６０min」だったりである。
今回、実務でデータ整理をする人ならだれもが経験するこの表記ゆれ問題を生成AIで修正できるか試してみた。

今回の課題と解決したい目的

食材名と数量の項目があるデータセットにはそれぞれ不確定な数で表記ゆれが存在している。それを生成AIを利用して食材名、数量を正規化してまとめたものに修正することを目的に以下の条件、手順で行っていく。

条件

実地日時：2024/04/09
食材と数量がバラバラに記載されているデータセット(jsonファイル)
ChatGPT4とPerplexity(CloudPro)に同じ質問で出力結果を比較する

※確認しやすいようここにはCSVファイル形式で載せておきました。

実地手順

以下の意図に沿った質問文をそれぞれの生成AIに送信する

１，jsonファイルを読み込んで生成AIにファイルの確認をさせる
２，pythonで表を扱うライブラリpandasを使った表形式データフレーム型で表示させる
３，行いたいことを箇条書きで指示する

質問文と結果

質問文①
添付したjsonデータがどんなデータをまとめた表かまず確認して下さい

※jsonファイルを添付しておく

出力結果は以下の通り。

結果：おおむねどちらもファイルの内容は理解している模様。問題ないので次のステップへ移行。

質問文②
このjsonデータをdf形式の表にまとめてください

出力結果は以下の通り。

結果：GPTは出力結果をブラウザ上に出力したのに対し、PerpleXityはコードのみ。違いはあるものの特に問題はないと判断し次のフェーズに移行。

質問文③
添付したjsonデータに以下の修正を加えたjsonデータを出力してください。

１，食材の種類には表記ゆれが存在しています。それを適切な食材名に直してください。
２，数量は食材の種類ごとに合計し、複数あった重複する食材名と数量を１つの行に修正してまとめてください。
３，１つの行ごとに数量の単位を新しい列に記載してください

出力結果は以下の通り。

結果：
ChatGPT４は食材項目の表記ゆれは修正出来たが、数量の表記ゆれに対し、数字から始まるデータのみしか上手に処理できなかった。
例えば、「～切れ」の単位に対しては数量は0とし、単位に合計した値を記載するなどとなった。
一方、PerpleXity(CloudPro)は確認する限り正しくいろんな数量に対し正しく単位を設定したjsonファイルとなっていた。すごい。

まとめ

目的であった「表記ゆれのあるデータセットを生成AIを使って修正する」はPerpleXity(CloudPro)を使用することで作成可能。

あとがき

こういった要素を扱うタスクは生成AIの得意分野だと考えていて、ハイエンドモデルならおそらく出来ると思いつつの試みだったのですが、この精度の結果が出るなんて、ちょっと感動ものだったので皆さんにも共有する意味でさらっと書きました。
もし、いい情報だったなど思ってくださった方がいらっしゃればいいねやお布施してもらえると嬉しいです。感想もお待ちしております。

ここから先は

72字

¥ 300

ログイン

もし依頼事項がありましたら、サポートとともに以来内容をコメントしてください。