見出し画像

Google PinpointでスキャンPDFの文章を読み込む

PDFは文書を扱う際によく使われるファイル形式ですが、現実には印刷された文書をスキャンした「画像」としてPDFを扱うことも少なくありません。FAX、郵送、またはメールに添付されたPDFが何故か画像だったり……。こうしたPDFは「画像」として扱われるため文字や数字をコピーすることはできません。便宜上ここではスキャンPDFと呼びます。

スキャンPDFの読み込みに便利なGoogle Pinpointというツールがあります。一言で表現すれば大量のドキュメントを探索・分析するためのツールです。PDF、Word文書、画像、メールアーカイブなど、様々な形式のファイルをひとつのフォルダ(コレクションと呼ばれます)にアップロードすることで、横断的に検索したり登場する単語を集計することが可能になります。Google Journalist Studioと呼ばれる、主に報道分野の記者を対象としたツール群のひとつです(ツール自体は報道目的でなくとも使用できます)。

今回は、仕事で目にする機会も多いスキャンPDFの文章をGoogle Pinpointで読み込む方法を解説します。


初期設定:アクセス権のリクエスト

まずPinpointにアクセスして登録を行います。

ページ中央または右上の「Get Started」(開始する)をクリックすると、自分のワークスペースに移ります。

左側の青いボタン「+ 非公開コレクションを新規作成」を押すと、初回であれば「フルアクセス権をリクエストしてください」というメッセージが表示されます。

青い「フルアクセス権をリクエスト」ボタンを押すと、メールアドレスなど自分の情報を入力する画面に移るので入力して申請を完了させてください。申請して即座に承認される場合もあれば、承認までに数日かかる場合もあるようです。


サンプルデータをダウンロードする

今回はサンプルとして日本銀行の金融政策決定会合議事録を使います。日本銀行では会合から10年経った時点で議事録をウェブサイトから公開しています。ただし2008年以前の議事録はスキャンPDFとなっています(おそらくWordか何かで作成したものを一度印刷し、再びスキャンしたと思われる)。

今回使うのは2008年12月19日の議事録です。サンプルなので10ページだけ抜粋しています。

https://drive.google.com/file/d/1QdIJuBN7ys2kLQQ3hJlWC3zsgbff6MhH/view

リンクを開いて右上のダウンロードボタンからダウンロードしてください。


ファイルをPinpointにアップロードする

Google Pinpointに戻り、ワークスペースから左側の青いボタン「+ 非公開コレクションを新規作成」を押してコレクションの名前を入力します。コレクションとは各種のファイルを格納する場所、要するにフォルダです。ただしフォルダと違って階層構造を作ったりはできません。コレクションの名前は後からでも変更できるので適当で構いません。

「作成」ボタンを押すと空のコレクションページに移ります。ここに先ほどのファイルをアップロードします。左上「+ ドキュメントを追加」→「パソコン」→「デバイスのファイルを選択」で先ほどのファイル「girk081219a_10p.pdf」を選択します。

アップロードが完了すると、ページの下の方に「処理しています…」というメッセージが表示されるので待ちます。10ページだけなので20〜30秒ほどで完了し、「すべてのドキュメントを正常に処理しました」と表示されるはずです。

完了したらコレクション内に表示された「girk081219a_10p.pdf」をクリックします。ファイルの1ページ目が表示されますが、この時点で文字の読み込みが完了しているので、Wordファイルなどと同じように選択、コピー、ハイライトなどが可能になっています。

ハイライトと同時に「リンクを取得」することも可能です。取得したリンクはドキュメントの該当部分にダイレクトに遷移できるので、たとえば特定部分を誰かにチェックしてほしい際に直接リンクで指示することができます。

Ctrl + Fを押すと検索ウインドウが表示されるので、検索語を入力することでウェブページと同様に単語検索もできます。

ページ左上の「←」矢印をクリックすると、再びファイル一覧に戻ります。


単語や日付でファイルを絞り込む

次はファイルの絞り込み機能や横断検索などの機能を解説しますが、最初に多くのファイルがないと絞り込み機能の有用性がわからないので、私が作成したコレクションを共有します。

以下のリンクをクリックしてください。「日本銀行・金融政策決定会合議事録2006〜2008年」と題されたコレクションが表示されるはずです。これは私が以前作成した、金融政策決定会合議事録のコレクションです。2006年から2008年まで、132件のファイルをすでにアップロードしてあります。

共有されたファイルも、自分がアップロードしたファイルと同様にテキストのコピーなどが可能です。ただしハイライトはコレクションのオーナー(=この場合は私)が優先されます。

コレクションページの右側に単語の集計が表示されています。これは人、組織、位置情報(=場所)の一覧と該当する文書の数です。たとえば「組織」を見ると「日本銀行」という単語は(当然ですが)132件中132件に、「欧州中央銀行」という単語は87件に登場していることがわかります(単語そのものの登場回数ではなく、ドキュメント数=ファイル数であることに注意)。

「欧州中央銀行」をクリックすると、コレクションから見られるファイルの一覧が該当する87件に絞られます。右側フィルタ条件のファイル数も、それぞれ該当する件数に更新されます。

これらの条件を複数クリックすると、フィルタ条件がコレクションの上部に表示されます。「×」をクリックすることで条件を解除できます。

この状態で特定のファイルをクリックすると、そのファイル内で検索に合致する部分がハイライトされています。

画面右上に「(数字) / (数字)件のメンション」と表示されていますが、右側の上/下ボタンをクリックすれば、前/次の合致部分に移動します。

ちなみに単語の絞り込みは完全一致ではなく、ある程度なら略称や英文名もひっかけてくれるようです。今回の例だと都市銀行=都銀、欧州中央銀行=ECB、ラテンアメリカ=ラ米などが検索されています。

ただ日本語の人名にはやや弱いようで、「金融」「平均」といった単語が人名扱いされています。このあたりは参考程度に見ておくのがよさそうです。

絞り込みはページ上部の検索窓でも行うことができます。たとえば「アメリカ」と検索すると、その単語または類似語が登場するファイルに絞り込むことができます。この場合も「アメリカ」だけでなく「米国」といった単語もヒットします。なお「欧州中央銀行」など複数単語で構成される語を検索する場合、「中央」「銀行」など自動的に語句が分割されて検索される場合があります。略称などをひっかけたくない=完全一致にしたい場合は通常のGoogle検索と同様にダブルコーテーション「""」で単語を括ります。

ファイル内に記載されている日付で検索することも可能です。たとえば右側メニューの上「記載日順」にそれぞれ「2008/09/01」「2008/12/31」を入力します。カレンダーから選択してもよいですし、日付をYYYY/MM/DDで直接入力しても構いません。右下「フィルタ」をボタンを押すと、該当範囲の日付が掲載されているファイルが表示されます。

たとえば下の文書だと「2008年10月1日」「平成20年10月1日」がハイライトされています。他にも「08/9/10日」など、日付の形式や西暦/和暦くらいなら自動で汲み取って検索できます。ただし「10月16日」のように年(または月)が不明な場合はヒットしません。


コレクションを共有・公開する

コレクションは初期設定では非公開=自分以外の人には見られない状態です。特定の個人とコレクションを共有したい場合、ファイル一覧ページ右上「共有」の青いボタンを押すと、Googleドライブと同じ要領で共有する相手を選ぶことができます。

今回私がやったように、全世界の誰にでもコレクションが見られるようにするには「共有」の隣にある「公開」ボタンをクリックします。

そのままの状態だと個人として=自分のGoogleアカウントの名前が付された状態でコレクションが公開されます。それで問題ない場合は「次へ」を押します。自分ではなく所属組織の名前で公開したい場合、最初に表示されるウインドウから「アカウントの関連付けをリクエスト」をクリックして、自分と組織との紐付けを申請します。

「次へ」に進むとコレクションのタイトルや説明を入力する画面に移ります。問題なければ「コレクションを公開」から公開します。

公開されたコレクションは「探す」から検索が可能です。

サンプルとして扱った日本銀行の金融政策決定会合議事録は、「銀行」などの単語で検索するとヒットします。

他にも世界の報道機関から様々な言語でコレクションが公開されています。中にはドキュメント数が1万件を超えるものもあります。現時点で公開されている日本語のコレクションは(今回のサンプルを除いて)ないようです。


海外での活用例

海外で実際にPinpointを活用した事例としては、たとえばノーベル平和賞を受賞したフィリピンのジャーナリストであるマリア・レッサが率いるRapplerの例があります。Rapplerは、フェルディナンド・マルコス元大統領(1965年から86年までの20年以上フィリピンで政権を維持した)に関するCIAの資料1.3万件をPinpointで解析し、その資金洗浄や汚職に関する記事を書いています。

他にもいくつかの事例がこちらの記事で紹介されています。


Google News Labでは他にも報道に役立つデジタル技術のワークショップやレクチャーを無償で行っています。オンラインで誰でも参加できる形や、報道機関や大学に訪問して開催する形があります。興味のある方はX(旧Twitter)FacebookLinkedInなどからご連絡ください。


この記事が気に入ったらサポートをしてみませんか?