見出し画像

ChatGPTに任せればデータ加工は楽になるのか

AIはどんどん賢くなり、もはやデータ加工なんて簡単にできそうですよね。そう思ったのですが…


監査法人で30年強、うち17年をパートナーとして勤めた「てりたま」です。
このnoteを開いていただき、ありがとうございます。

ChatGPTでもGeminiでもよいですが、AI、使ってますよね?
ChatGPTだけ見ていても、プログラムを作ってくれたり、それを走らせて結果を教えてくれたり、絵を描いたり、ずいぶん多才になってきました。

私は、noteを書くためにも使っています。
文章を書いてもらってるんじゃないですよ。「○○するのに大切なこと」といったテーマで3つ思いついたとして、重要なものが漏れていないか聞いたりしています。

言いたいことにぴったりの言葉が見つからないときも使っています。
日本語は苦手かと思ったら、「そうそう、それを探してた!」という回答をくれることも結構あります。

今回、データ加工で使ってみました。



なぜデータ加工に使おうと思ったか

2024年3月に、有料のnote記事を3本投稿しました。

たくさんの方々に購入いただき、たいへん感謝しています。
どうもありがとうございました🙇‍♂️

noteにはダッシュボードという画面があり、そこに「販売履歴」というメニューがあります。
※以下、グレーで消しているのは、購入者のアカウント名が入っている情報です。

購入日時もあるので、どのタイミングで購入いただいた方が多かったのかなど、分析できそうです。

ところが、私の知る限り、この情報をデータには落とせないんです。
そこで、画面上で選択し…

エクセルにコピペしてみました。

このように、データが一列にすべて入ってしまっています。
これは3本をセットにした「マガジン」のデータを貼り付けたシートですが、これとは別に「記事購入」シートに個別記事の販売履歴をコピペしました。データのフォーマットは同じです。

これを分析できるように加工するのはちょっと面倒になりそう…
そこで、ChatGPTにお願いしてみようと思い立ちました。


ChatGPTとの会話 First Round

プロンプト

先ほどのエクセルをアップロードし、こんなプロンプトで指示しました。
日本語で質問しているのに、しれっと英語で回答してくることがあるので、最後に「会話はすべて日本語で」と依頼しています。

ChatGPTの回答

ChatGPTの回答はこんな感じ。
全部読まなくていいですよ。

途中でエラーが発生して苦労しているようです。
"Error analyzing"を展開してみると…

何やらプログラミング言語Pythonでコーディングして実行してくれています。
中身はさっぱり分かりませんが、データの中の「返信する」は不要だから削除する、と指示もしていないのに的確に判断してくれていることにちょっと感動。

さっきの回答の最後に「これでエクセルデータがデータベースとして使える形になりました。他に何か手伝えることはありますか?」と聞いてくれているので、エクセルデータに出力してもらいました。

ChatGPTとの会話 Second Round

ダウンロードしたnote_sales_data_combined.xlsxの冒頭部分がこれ。

ちゃんと表になってますね!

惜しいことに、購入日時と金額は文字列になっていて、このままでは分析をするのに不便。
エクセル上ですぐに変換できますが、せっかくなのでChatGPTにやってもらいましょう。

またエラーを出しながらも、投げ出すことなく対応してくれました。

ChatGPTとの会話 Third Round

note_sales_data_converted.xlsxをダウンロードすると…

これでは分かりづらいですが、購入日時は日付と時間のデータ(シリアル値)に、金額も数値にちゃんと変換されていました!
金額の3桁の区切りがないのは会計人としては気になりますが、後回しにしましょう。

ところが、スクロールすると、途中で変なことになっています。

そうそう、noteには購入者にメッセージを送る機能があり、このデータにはメッセージも入っていたんでした。
「検査受け方講座」を投稿したあとで記事を修正することがあり、それまでに購入いただいた方々に個別にお知らせするためにメッセージ機能を使いました。
それがこんなところで面倒なことになるとは……

メッセージ部分は分析には不要なので、削除してもらいましょう。

今回もエラーを出しつつ、対応してもらえました。


ChatGPTとの会話 Fourth Round以降

いちいち画像を貼り付けていると、スマホでご覧になっている多くの方には果てしなくスクロールいただくことになるので、以下は経過のみご説明します。

  • Fourth Round
    347行目以降、アカウント名と購入日時が削除され、金額は文字列のままになっていた

  • Fifth Round
    金額がブランクの行があり、同じ行の記事タイトルには別の人のアカウント名が入っていた

何度もやり取りしていると、プログラミングに詳しい部下と話しているような気分になってきます。
部下なら「しつこいんだよ」とキレられても不思議じゃないですが、AIは我慢強いのがよいところ。

苦労のかいあり、見た目では問題なさそうなデータができました。


ChatGPTとの会話 データのチェック

ここまでたどり着くのに苦労しただけに、データの正確性と網羅性は気になります。
チェックも自分でやってもらいましょう。

最初にアップロードしたエクセルと、ChatGPTが加工した最後のエクセルとでデータ件数と金額合計の一致を確かめてもらいました。
(出てきた数字は生々しいので消しています😊)

案の定、一致せず。
調査もしてくれとプロンプトに書いたのに、原因究明のヒントを提案するにとどまっています。


おわりに

「え、終わり!?」
そうなんです。不一致の原因を調査している間に時間切れになってしまいました。

今回は自分でやった方が早かったように思いますが、細かい作業をミスしないようにやり続けるのとは違い、疲労の度合いはずいぶん少なくなります。

データの不一致はもう少し時間をかければ解決できると思います。
しかし、それで信用できるようになるのだろうか。どこまでチェックすればよいのか、が不安なところです。

たぶん、もっと効率のよい使い方があると思うんです。
気づいた方がいらっしゃったら、教えていただけると助かります。


最後までお読みいただき、ありがとうございます。
この投稿へのご意見を下のコメント欄またはX/Twitter(@teritamadozo)でいただけると幸いです。
これからもおつきあいのほど、よろしくお願いいたします。

てりたま

この記事が参加している募集

AIとやってみた

仕事のコツ

with 日本経済新聞

この記事が気に入ったらサポートをしてみませんか?