Excelではお手上げだった「PDFからのデータ抽出」が、AIで一発で解決できたリアル事例 - Claudeや、Google Gemini
Excelではお手上げだった「PDFからのデータ抽出」。AIを使えば一発で解決できるってご存知でしたか? 実際に私が試した事例をもとに、その驚くべき方法をご紹介します。行政データなど、PDF形式で提供されるデータの活用にお悩みの方必見です。
Excelの「パワークエリ」でも対応できなかった複雑なPDFデータを、AIツールの「Claude」や「Gemini」を使って解決できた実例を詳しく解説していきます。
【要点】
・市の人口統計データがPDFしか無かった
・PDFから表をコピーすると崩壊…
・「Claude」を使って一発で解決した事例
・無料でAIを使い倒せる「Google AI Studio」
Excelでも「お手上げ」なPDFからのデータ抽出を、AIで一発で解決できた事例
PDFファイルから表形式のデータを抽出しようとして、何度も挫折しかけた経験はないでしょうか。私自身、これまでも各種資料やレポートをExcelで加工する必要があるたびに、PDFしか提供されていないという事態に何度も直面しました。特に行政や役所のウェブサイトから取得した統計資料などはPDF形式だけということが多く、仕方なくコピペで取り込んではレイアウトがズレる、文字化けする、セルの結合がおかしくなるといった問題に悩まされてきました。
この手の問題は、Excelに搭載されている「Power Query Editor」を使えば割と簡単に解決できるといわれるケースもあります。実際、単純にきれいな表が1ページに収まっているようなPDFであれば、Power Queryがちゃんと列や行を認識してくれて、あまり苦労せずにExcel形式へ落とし込むことができます。ところが、複雑なレイアウトだったり、複数の表がページ内に段組みされていたりすると、読み込み結果がめちゃくちゃになってしまうのです。まるで崩壊したかのようにデータが一列にベタッと貼り付いただけになったり、斜めに並んでしまったりして、もはや手作業で修正するしかなくなるのです。
私も多くのデータを扱う作業を日々行っていますが、PDFから読み込んだ情報を手作業で修正する工程ほど手間のかかるものはありません。しかも、一回だけでなく定期的に同じ資料を更新しようとすると、また同じ作業を繰り返さなくてはいけなくなる。これこそまさに「システム化できない地獄」に陥ってしまう瞬間です。「もうPDFで来る資料はお手上げだなあ」と何度ため息をついたか分かりません。
Claudeで一発逆転した「ビジュアルPDF機能」の衝撃
そんな私がPDFのデータ抽出において希望の光を見いだしたのは、2024年の年末頃のことでした。とある知人から「ClaudeっていうAIツールがPDF解析に強いらしいよ」という話を聞き、すぐに試してみることにしたのです。Claudeは会話AIとして知られていますが、「Visual PDF機能」という、PDFを画像ごと読み込んで解析してくれる仕組みがあると教えてもらいました。この機能を使えば、たとえPDFが画像ベースでもAIがその文字や表を解析して、整然とした形で抽出してくれるというのです。
私は早速、藤沢市が提供している人口統計資料のPDFを投げ込んでみました。そのPDFは14ページにもわたり、14地区それぞれの年代別人口や男女別人数などが細かく表で載っているものです。通常のコピペではまったく歯が立たず、Power Query Editorも残念な状態にデータを変換してしまった、いわくつきのファイルでした。それをClaudeに読み込ませてみると、驚くべきことに「テーブルデータが取り込めました」という返答が得られました。半信半疑でデータを確認してみると、本当に行と列がきちんと揃った表形式のデータがずらりと並んでいるのです。
私にとっては衝撃そのものでした。ここまで崩壊していたレイアウトが、たった1回のプロンプト操作だけで元通りになるなんて、まさに「AIの時代が来た」と思わずにはいられません。もちろん、有料プランであるため月額料金はかかりますが、それでも手作業でレイアウトを整えていた膨大な時間を考えれば、コストパフォーマンスとしては非常に優れているように感じました。大量のページをまとめて処理する場合は無料プランでは不可能ですし、文字数制限もシビアなので、やはり仕事で使うなら有料プランが安心だと実感したのです。
リアル事例: 市の年代別人口統計データ
藤沢市の人口統計資料を選んだ理由は、私自身が横浜から湘南エリアに引っ越したことが大きかったです。新しく住む地域の情報を細かく調べたいと思って市役所のホームページを探ったところ、確かにあるにはあるのですが、Excel形式でダウンロードできるデータが見当たらず、PDFしか提供されていない現状にぶつかったのです。
しかし、先ほどもお話ししたようにPower QueryでPDFを開いてみても全然だめで、表どころか文章の断片が大量に繋がっただけのテキストが吐き出される始末でした。マクロを組むにも、どのセルとどの数字が対応しているのか、調べる段階で時間を取られそうだし、正月休みをフルに潰してしまうレベルの労力がかかると覚悟していました。そんな中で出会ったClaudeの有料プランは、まさに救世主だったのです。見事に14地区のデータをページごとに分けて、各年代の男女別人口を表の形で抽出してくれました。
無料で使い倒せるGoogle AI Studio
とはいえ、毎月費用がかかるとなると、すぐに導入を決められない人もいるかもしれません。そんな私も、もっと気軽に試せる無料のAIツールはないのかと探していたところ、行き着いた先が「Google AI Studio」です。2025年に入ってから、Googleが開発者向けに提供しているこのサービスがさらに拡充されたという噂を耳にし、実際にアクセスしてみたのです。URLは https://aistudio.google.com で、黒背景の画面がややギークっぽい雰囲気を醸し出しています。初心者には少し抵抗があるかもしれませんが、Googleアカウントさえ持っていれば無料で使えるという太っ腹な設計になっています。
そして、なんと「Gemini 2.0 Flash Experimental」という最先端のAIモデルが搭載されていて、PDFをアップロードするだけでClaudeと同等の機能が使えるらしいという情報を見つけたのです。実際に藤沢市の人口統計資料(14ページ)をアップロードし、「表を抽出してほしい」と入力してみたところ、なんと無料なのにClaudeに迫る精度でExcel形式のデータを再現してくれました。これには思わず口があんぐりしてしまいました。あまりにもスムーズに行くものだから、「え、ホントに無料で大丈夫なの?」と半信半疑になってしまったほどです。
実際、ページ数がもっと多い大容量のPDFでも対応可能なケースがあり、その理由はGoogle AI Studioが扱えるトークン数が非常に大きいからだと推測しています。トークンというのは、AIがテキストやデータを読み込む際の単位みたいなものですが、ChatGPTなどの他のツールに比べても桁違いに多いトークンを処理できるそうです。だからこそ、複数年分の膨大なPDFファイルを一度に読み取らせても、止まることなく出力が得られるのではないか、と個人的には思っています。しかもコストゼロというのは本当に破格で、これは試さない手はないと感じました。
ChatGPTでは歯が立たなかったPDF解析
同じPDFデータをChatGPTに読み込ませてもらおうと思った時期もありました。しかし、試してみたところ、なかなかうまくいきません。単純なテキストベースのPDFならある程度の要約はしてくれますが、表が入っているPDFの解析となると、途端に精度が落ちてしまいます。あたかも存在しない数値や列名を作り出すケースも多く、「何だこのデータは」と突っ込みたくなるほどデタラメな出力が返ってくることが珍しくありませんでした。
これはChatGPTが文章生成に特化したモデルであり、画像や表といったレイアウトを視覚的に捉える能力が相対的に低いためと考えられます。もちろん、将来的にOpenAIもAIモデルをさらに強化していくでしょうから、いずれはPDFの細かい表データも正確に抽出できる日が来るのではないかと思います。ただ、2025年1月現在の段階では、ClaudeやGoogle AI StudioのようにPDFを画像レベルで解析できるツールに大きなアドバンテージがあるというのが私の正直な感想です。
PDF抽出の悩みから解放される未来へ
こうして振り返ってみると、PDFのデータ抽出は長らく多くの人を苦しめてきた「デジタルの落とし穴」だったように思います。役所などがPDF形式でしかデータを配布しない現状も相まって、Excelへ取り込みたいのに何時間もレイアウトの修正をしなければならない。そんな不毛な作業から解放される日が来ることを夢見て、多くの人が頑張ってきたのではないでしょうか。私もExcelの機能を駆使しようとしたり、いろいろなデータ変換ソフトを試してみたりしましたが、どうにも改善されず、一時は諦めかけていた時期がありました。
しかし、AIツールの進化が私たちの常識を塗り替えつつあります。ClaudeのビジュアルPDF機能(有料プラン)なら、複雑なレイアウトの資料でも一気にテーブル化してしまいますし、無料で使えるGoogle AI StudioのGemini 2.0 Flash Experimentalなら、「ほとんど同じことができてしまう」というのだから驚きです。もちろん、今後はChatGPTにも類似の機能が備わる可能性も十分にあります。技術の進歩が目まぐるしい時代ですから、どのツールが最適かは随時アップデートしていく必要があります。いずれにせよ、「PDFからのデータ抽出」という長年の悩みを、AIが驚くほどシンプルに解決してくれたという事実は大きいと思います。
この場を借りて、リスナーの皆さんにもご提案したいことがあります。もし行政資料や企業のレポートなど、PDFデータでしか手に入らない表をExcel化するのに苦労した経験があれば、ぜひAIツールの活用を検討してみてください。試してみる価値は大いにありますし、「こんなにラクになったんだ」という実感を味わえると思います。もしすでに同じような悩みを抱えてきた方がいらっしゃれば、ぜひ番組宛に体験談をお寄せいただきたいです。うまくPDFを扱えず四苦八苦している人は、きっと日本全国に数え切れないほどいるのではないかと私は感じています。