荻原 和樹 / Kazuki OGIWARA

データ可視化とデータ報道の仕事をしています。Google News Lab ← スマー…

荻原 和樹 / Kazuki OGIWARA

データ可視化とデータ報道の仕事をしています。Google News Lab ← スマートニュース メディア研究所 ← 東洋経済新報社。データ報道コンテンツの制作でグッドデザイン賞など受賞。著書に『データ思考入門』(講談社現代新書)など。

最近の記事

  • 固定された記事

スマートニュースを退職してGoogleに移ります

スマートニュースを退職して、10月からGoogle News LabのTeaching Fellowとして仕事をします。ここでは自己紹介を兼ねてスマートニュースでの仕事を振り返りつつ、今後の仕事について書きます。 自己紹介データ可視化やデータ報道の分野で仕事をしています。新卒で東洋経済新報社に入り、最初はデータベースの開発などをしていました。その後イギリスの大学院でデジタルデザインを勉強し、帰国してからは編集部でデータ可視化を活用した報道コンテンツの制作をしました。夏の気温

    • 新聞で重用される混合2軸グラフの難点とその解決策

      先日、日経新聞のこのような2軸グラフが批判されていました。 出所はこちらの記事。グラフのタイトル通り、日米で家計の資産所得(利子・配当収入)には大きな差があるという話の補足として示されたグラフです。 こうした混合2軸グラフ(これは私の命名。通常の2軸グラフとも少し作法が異なるので便宜的にこう呼んで区別します)が批判されがちな理由はいくつかあります。 まず最大の難点が、軸のスケールが不明瞭であること。左軸では日本の資産所得が5〜30兆円のスケールとされています。他方で右軸

      • デジタル報道の事例集「デジタル報道カタログ」を公開しました

        日本におけるデジタル報道の事例集「デジタル報道カタログ」を公開しました。使用している技術やビジュアライズ手法ごとにタグを付与し、検索・絞り込みができます。 背景 仕事柄、デジタル報道の手法や技術を紹介することが多いのですが、事例について聞かれることが多く、自分用にメモをまとめていました。 デジタル報道はその特性上、自然言語で検索することが簡単ではありません。そこで今回のページでは日本国内の主なデジタル報道事例を会社横断的に一覧できるようにしました。手法や技術ごとにタグを

        • Mapshaperを使ってGeoJSONファイルの加工を行う

          データ可視化で多く使われる手法のひとつが色分け地図(Choropleth map)です。都道府県、市区町村、選挙区といった区域を色で塗り分けて統計データや選挙結果などの地理的なデータを表現します。 色分け地図を作るためには、区域ごとの統計データ(たとえば「神奈川県横浜市は200」など)とあわせて、区域の境界線を示すデータが必要です。Google マップやTableauなど、各種のウェブサービスやBIツールにおいては、ツール側で区域データを持っている場合があります。たとえばG

        • 固定された記事

        スマートニュースを退職してGoogleに移ります

          Google PinpointでスキャンPDFの「表」をCSVに変換する

          前回の記事ではGoogle Pinpointを使ってスキャンPDFの文章を読み込み、単語や日付で絞り込む方法を解説しました。 Google Pinpointでは文章だけでなく、表や箇条書きなど何らかの構造を持つ文書を表形式で取得する「構造化データの抽出(Extract Structured Data)」と呼ばれる機能があります。この記事では、前回と同じく日本銀行のスキャンPDF資料から表をCSV形式で抽出する方法を解説します。 サンプルデータの読み込み まずサンプルデー

          Google PinpointでスキャンPDFの「表」をCSVに変換する

          Google PinpointでスキャンPDFの文章を読み込む

          PDFは文書を扱う際によく使われるファイル形式ですが、現実には印刷された文書をスキャンした「画像」としてPDFを扱うことも少なくありません。FAX、郵送、またはメールに添付されたPDFが何故か画像だったり……。こうしたPDFは「画像」として扱われるため文字や数字をコピーすることはできません。便宜上ここではスキャンPDFと呼びます。 スキャンPDFの読み込みに便利なGoogle Pinpointというツールがあります。一言で表現すれば大量のドキュメントを探索・分析するためのツ

          Google PinpointでスキャンPDFの文章を読み込む

          「エモい記事」批判とジャーナリズムの意義

          このところ報道メディア関連のタイムラインで「エモい記事は是か否か」的な議論?が起こっている。 たとえばこちらの論考。 この論考では「実例を挙げるのははばかられるので控える」としつつ「データや根拠を前面に出すことなく、なにかを明確に批判するのでも賛同するわけでもない、(中略)ナラティブ重視の記事」を「エモい記事」と定義し、「すこぶるタチが悪い」と批判している。 Twitter(現X)での反応を見る限り、他の業界関係者(と見られるアカウント)もおおむね「エモい記事」には批判

          「エモい記事」批判とジャーナリズムの意義

          現代的データ報道の最大の特徴と、それを取り巻くさらに大きな流れ

          現代のデータ報道が普及した要因や、Immersive Contents / Visual Investigationといった似た概念との関連をX(Twitter)に連投しました。ここでは改めて流れを整理して書いています。 そもそも、データ報道はPCやスマートフォンが普及する前から存在していました。世界で最初の事例を断定するのは難しいですが、一般的には1821年に英国マンチェスター・ガーディアン(現在のガーディアン)が掲載した子どもの貧困に関する記事だとされています。 同様

          現代的データ報道の最大の特徴と、それを取り巻くさらに大きな流れ

          Flourishでヒートマップを作る方法

          ヒートマップ(Heatmap)とは ヒートマップ(Heatmap)とは、データの値を色の濃淡や異なる色で表現するデータ可視化手法の一種です。地図上に人口密度を色で重ねたり、ウェブサイトでよくクリックされている領域を色で示すものがよく使われます。 より汎用的なデータの可視化手法として、画面上を二次元(縦と横)のセルに分け、各セルを塗り分けることによって縦×横×色(値)と三次元のデータを表現することができます。今回は例として、夏の気温のヒートマップの作り方を解説します。 元

          Flourishでヒートマップを作る方法

          Flourishでバーチャート・レースを作る方法

          バーチャート・レース(Bar chart race)とは バーチャート・レースとはデータの変化を時間経過とともに動的に示すデータ可視化(Data visualization)手法のひとつです。棒グラフが一定の時間ごとに更新され、バーの長さが変化するとともにランキングが上下します。 通常、棒グラフでランキングの結果を単年度のみ示すことができますが、アニメーションにすることで時系列の変化を表現することが可能です。 なおFlourishの基本的な使い方は以下の記事で解説してい

          Flourishでバーチャート・レースを作る方法

          Flourishの基本的な使い方:棒グラフを作る

          Flourishとは Flourishとは、インタラクティブな=ボタンやスイッチで動くデータ可視化(Data visualization)を作るためのツールです。作成したプロジェクトは個別のURLを発行して公開でき、ウェブサイトへの埋め込みも可能です。ソフトウェアのダウンロードは必要なく、ウェブブラウザ(Google Chromeなど)で動作します。 データ可視化を作るツールは複数ありますが、日本ではメディアの記者・編集者が自分でビジュアルを作成する際に使われることが多い

          Flourishの基本的な使い方:棒グラフを作る

          順序で配色を分けてみる - データ可視化ミニ講座(9)

          地図やグラフなど、データを可視化する際は数値の大小を色に変換することが頻繁に行われます。一見して数値の大小が視覚的にわかりやすくなり、地図ならば地理的な傾向もわかるため、よく使われるテクニックのひとつです。 ただ「数値の大小を色に変換」といっても、その方法はひとつではありません。一般的によく使われるのは、最小値と最大値から計算して均等に色を分ける方法です。たとえば10刻みに10・20・30・40・……・90という9つの値からなるデータを色分けしたいとします。最小値は10、最

          順序で配色を分けてみる - データ可視化ミニ講座(9)

          移動平均を使ってデータの傾向を見やすくする - データ可視化ミニ講座(8)

          ランダムな変動や周期的な傾向があるデータの場合、実数だけでなく移動平均を同時に可視化することによってデータの中長期的な傾向を見やすくすることができます。 移動平均とは、時系列データにおいて一定期間におけるデータを平均し、時点が動くごとに古い時点を外して新しい時点を含めて、……という計算を繰り返し、数値の変動を平滑化するものです(厳密に言うと時系列でなくとも使われる場合があります)。 言葉だとわかりにくいので具体例を出します。たとえば、新型コロナの感染者数(検査陽性者数)は

          移動平均を使ってデータの傾向を見やすくする - データ可視化ミニ講座(8)

          気温には棒グラフを使わない - データ可視化ミニ講座(7)

          棒グラフと折れ線グラフは似た表現方法です。しばしば交換可能なものとして使われる両者ですが、使うべきポイントには違いもあります。 代表的な例が気温です。気温は棒グラフではなく、折れ線グラフで表現するのが正しいです。 そもそも棒グラフは、棒の長さ(≒ 棒部分の面積)の比率と数値の比率を対応させることで視覚的に数値を比較するものです。したがって、数値が2倍なら棒グラフの長さも2倍になります。棒グラフにおいて、縦軸を省略してはいけないのはそのためです。 しかし、気温において「X

          気温には棒グラフを使わない - データ可視化ミニ講座(7)

          データ可視化・データ報道の最新情報を入手する方法

          先月末の報道実務家フォーラムにて登壇した際、「データ可視化やデータ報道に関する情報収集はどうしているか」という質問がありました。その場でもお答えしましたが、改めて考えると色々や手段があるなと思ったので目的や形態別に分けて整理したいと思います。 Data Visualization Society 会場でも答えたのがData Visualization Societyというデータ可視化のコミュニティです。非営利団体が運営しており、Slack channelや各種の調査などを

          データ可視化・データ報道の最新情報を入手する方法

          表の数字は等幅フォントになっているか - データ可視化ミニ講座(6)

          データを表形式で表すときは、数字のフォントがモノスペース(等幅)になっているか確認するとよいでしょう。 モノスペースとは、数字や英字の幅が文字によらず一定である種類のフォントを指します。たとえば細長い「1」でも比較的幅の広い「8」でも同じ字幅となるのがモノスペースフォントです。表の数字をモノスペースで表すことによって、上下の行と桁数を比較するときに「桁数」と「見た目の幅」が視覚的に一致します。 逆に、文字によって幅が異なるフォントをプロポーショナルフォントといいます。可変

          表の数字は等幅フォントになっているか - データ可視化ミニ講座(6)