【Tableau】PDFの表を読み取る

こんにちは、Data Saberに挑戦中の者です。

今日はTableauでPDFの表を読み取って、データソースとして使用する方法をご紹介します。

今回扱うデータについて

交通事故統計情報のオープンデータ(2021)を使っていきます。

交通事故統計情報のオープンデータ

このデータの本体はCSV形式で、都道府県・警察所名等がコードで記載されています。
PDF形式の各種コード表と照らし合わせることによりデータの中身が理解できるようになります。
今回はこのPDF形式の各種コード表をTableauに取り込んでCSVデータと結合していきます。

各種コード表(PDF)

PDFファイルに接続

接続の追加 PDFファイル
ファイルを開く

接続の追加でPDFファイルをクリックし、ファイルを選択します。

PDFファイルを選択すると、PDFのどのページをスキャンするか入力する画面が出てきます。すべてにすると時間がかかるので、必要なページを指定するのがよさそうです。

PDFがスキャンされ、各ページのテーブルが表示されました。
データを表示してみると、不要な部分が含まれているテーブルも一部ありましたが、問題なく使えそうです。

表の名前やフィールド名を変更したり、
データソースフィルターで不要な部分を除外することにより、PDFから取り込んだ都道府県のコード表をCSVのデータと綺麗に関連付けすることができました。

データインタープリターの使用もできるようです。PDFの様式によっては活躍しそうです。

ユニオンの新規作成

テーブルが複数ページに跨っている場合は、ユニオン機能を使うことで1つのテーブルとして取り込むことができます。
ユニオンの新規作成をクリックして、該当のテーブルをすべて入れます。

今回のPDFでは警察署のコード表が3~20ページにまたがっていましたが、ユニオンですぐに取り込むことができました。 

最後に

PDF上の表は扱いにくいイメージがありましたが、Tableauでは短時間で簡単に取り込むことができました。
データの準備作業時間が削減でき、とても便利な機能だと思います。


この記事が気に入ったらサポートをしてみませんか?