見出し画像

ITパスポート試験勉強ノート No.8 業務分析・データ利活用 (2)-2 図表,グラフによるデータ可視化

◾️はじめに

ITパスポート という国家試験の勉強を始めました。

「試験勉強ノート」を作るつもりで、自分が新たに知ったことを書き留めていきます。

この試験、内容は大きく分けて次の3つです。
①ストラテジ(経営戦略)系
②マネジメント(管理)系
③テクノロジ(IT技術)系

シラバスの順に従って、今回は、
① ストラテジ(経営戦略)系
> 2. 業務分析・データ利活用  
> (2)-2 図表,グラフによるデータ可視化
の勉強ノートです。

少し「情報」らしい内容です。

今回の内容は「データの可視化」なので、できるだけわかりやすい図表を探して示すように心がけました。

日常生活では馴染みのない名前が多いですが、一度理解しておけば、一目瞭然、画像を見ただけで作り方や用途を思い出せると考えたからです。


項目中の★印は、現時点での最新版(2024年10月試験)で導入されたことを表します。(今回の範囲には新たに追加された項目はありません。)
シラバス掲載ページはこちら↓

https://www3.jitec.ipa.go.jp/JitesCbt/html/about/range.html



◾️今回の解説項目

今回の項目のシラバスの内容は次の通りです。
用語例としてあげられたものに解説をつけていきます。

・ 業務分析・データ利活用

(2)-2 図表,グラフによるデータ可視化
・目的に応じた適切な可視化手法の選択による,他者へのデータの説明
・不適切に作成されたグラフにだまされないこと,及びそのようなグラフを作成しないこと
・データを分析して問題解決や効率化を図るための,ツール(ソフトウェアパッケージ)の活用
【用語例】
棒グラフ <省略>
折れ線グラフ <省略>
散布図
マトリックス図
箱ひげ図
ヒートマップ
レーダーチャート
ヒストグラム
モザイク図
クロス集計表
分割表
相関係数行列
散布図行列
複合グラフ
2 軸グラフ
ロジックツリー
コンセプトマ ップ
CSV(Comma Separated Value)
シェープファイル
共起キーワード
チャートジャンク
【活用例】
データの図表表現(チャート化)
図表やグラフによるデータ分析
利用目的に応じたツールの選択
データの整理・検索・分析・加工・表現のためのツールの利用,
優れた可視化の事例(多次元の可視化,関係性の可視化,挙動・軌跡の可視化,リアルタイム可視化,テキストデータの可視化など)


散布図

どんな時に使う?
散布図は2つのデータの関係を示すのに適したグラフです。<略>1つ目の要素を横軸、2つ目の要素を縦軸にしてデータをグラフ上にプロットしていき、点のばらつきをみることで2つのデータの関係を見て取れます。…製造現場などで、「比重と強度」、「温度と収量」といった2つのデータにおいて、改善につながる関係性を見つけるときなどに使われています。
散布図が表現する「相関」の見かた
散布図を描いてみて「一方の値が変化しているとき、もう一方の値も変化している」という2つの値の関連性のことを「相関」といいます。下図のように、相関が強いほど散布図の点が直線状になっていきます。なお、相関の度合いは、「相関係数」によって数値で表現することができます。
気を付けること
・データ項目の数

データ項目であるポイント数が多い方がデータの傾向がつかみやすくなります。どんなに少なくても10点以上はあった方がよいでしょう。
・相関関係と因果関係の違い
「相関関係」と「因果関係」の違いをはっきり理解していないと、データが示す意味を正しく理解できなくなるので注意が必要です。
<以下略>

LightStone
https://www.lightstone.co.jp/study/graphing_scatter.html
同上

マトリックス図

…そもそも「マトリクス」とは、「基盤」や「鋳型」という意味の英単語で、特に数学においては「行列」のことを指します。
これが転じて、複数の要素が格子状に規則正しく並んだ構造や図、表のことをビジネス用語でマトリクスと呼ぶようになりました。

縦横に広がる行列に要素を配置していくマトリクス図のフォーマットは、物事を整理するのに非常に便利なため、多くの図解やビジネスフレームに採用されています。
<略>
マトリクス図の事例
マトリクス図のフォーマットが採用されているビジネスフレームワークを、いくつかご紹介します。
・SWOT分析
SWOT分析は、企業の内発的な強みや弱み、外部環境の変化に伴うチャンスやリスクを整理できる、戦略立案のためのフレームワークです。
L型マトリクスが採用されます。

Strap Magazine
https://product.strap.app/magazine/post/knowhow_matrics
SWOT分析の例
上記ページより

・重要度・緊急度マトリクス
重要度・緊急度マトリクスは、複数のプロジェクトやタスクの重要度・緊急度を相対的に評価し、何に取り組むべきかを判断できるフレームワークです。
4象限マトリクスが採用されることが多いです。

同上
重要度・緊急度マトリクスの例
同上

・PPM(Product Portfolio Management)分析
PPM分析は、複数の事業を手がける企業が、どの事業に経営資源を投資すべきかを判断できる、経営戦略立案のためのフレームワークです。
定量指標である「マーケットシェア」や「市場成長率」を用いるため、マッピングマトリクスが適しています。

同上
PPM分析の例
同上

箱ひげ図

箱ひげ図はボックスチャートとも呼ばれ、その名の通りデータの分布を「箱」と「ひげ」を使って表したグラフです。散布図、ヒストグラムとともに「統計3大グラフ」とも呼ばれています。見かたを知らないと「なんだこれ?」というグラフですが、データがどのように散らばっているか、あるいは、どのあたりに集中しているかなど、多くの情報が盛り込めるとても便利なグラフです。
箱ひげ図の見かた
箱ひげ図の見かたを説明する前に、どんな統計量を表すことができるかを見てみましょう。
範囲(はんい):データがどこからどこまで分布しているかを示す。データの最大値~最小値までの範囲。
中央値(ちゅうおうち):データを大きさ順に並べ替えたときにちょうど真ん中にくる値
四分位範囲(しぶんいはんい):データの中央の50%部分。四分位範囲が大きいほどデータがばらついている。

では実際に箱ひげ図を見てみます。下の図のように長方形の「箱」と「ひげ」と呼ばれる線で構成され、箱の中に引かれた線はデータ全体の真ん中の値である、中央値を示しています。

図の左側にあるA~Dのように区分できます。この4つの区間のなかに、それぞれ同じ個数のデータが入っていますが、その区間の長さの違いからデータのばらつき具合を確認できます。

例えば、下の3つの箱ひげ図はすべて中央値は3ですが、データのばらつき方が違うことがすぐにわかります。
<以下略>

LightStone
https://www.lightstone.co.jp/study/graphing_boxchart.html
箱ひげ図の基本
上記ページより
ばらつきの違うデータを箱ひげ図で表したイメージ
同上

ヒートマップ

ヒートマップ(heat map)とは、データの可視化手法の一つで、映像を被写体の表面温度で色分けするサーモグラフィのように、表や画像を各点や領域の値の高低に応じて連続的な色調の変化で塗り分けたもの。

一般的なデータ解析で用いる場合、値を2次元の表(行列)などに並べ、各領域を値に応じた色(単色の濃淡や明暗で表す場合もある)で着色する。色は最上位20%は赤、次の20%は橙、次の20%は黄…といった具合に閾値を定めて段階的に決めておく。

単に数字が並んだ表に比べ、各色の領域の分布や変化、繋がり具合が視覚的に表現されるため、全体の傾向を素早く把握することができる数字だけでは気が付かなかった法則性などを発見できる場合もある。地理情報システムなどでは、地図や建物の間取り図などを各領域の統計量や測定値などで色分けしたヒートマップが用いられることもある。

IT用語辞典e-Words
https://e-words.jp/w/ヒートマップ.html
ヒートマップの例:地域ごとの人口の経時的な変化を示すヒートマップ
https://www.jmp.com/ja_jp/statistics-knowledge-portal/exploratory-data-analysis/heatmap.htmlより

  次の説明は、Webページのヒートマップ。

ヒートマップとは、ユーザーがWebページ上でとった行動や反応を確認できるツールです。ページのどこが見られているのか、ページ上のどこでクリックやタップをしているのかが色や図形で表示されます。また、ユーザーのスクロール状況、離脱ポイントの可視化も可能です。

例えば、ページ上でよく見られている部分が赤色に、見られていない部分が青色に表示されたり、ユーザーがクリック・タップしている場所が色や形の違うドットで表示されたりします。

これにより、
現在のファーストビューが本当にユーザーにとって興味のある内容になっているのか
CTAボタンは本当にクリックされているのか
ユーザーの離脱のきっかけとなっている要素は何か
など、直感的にページの良い部分・悪い部分を認識できます。

なお、他のアクセス解析ツールと同様に、分析を行いたいページにヒートマップのタグを設置することで、ユーザー行動を計測できるようになります。

例えば、「ほとんどのユーザーがページの最上部で離脱している」ということがヒートマップ分析によって分かったのであれば、最上部のコンテンツや画像などを変更することで、離脱率を下げられる(結果CVRや獲得数を向上できる)可能性があります。

つまり、感覚ではなく実際のユーザーの動きや数値を元に現在のページの問題点を洗い出し、ピンポイントで改善を加えられる点がメリットです。

KAIZEN PLATFORM
https://kaizenplatform.com/contents/heat-map#:~:text=可視化するツール-,ヒートマップとは、ユーザーがWebページ上で,の可視化も可能です%E3%80%82


熟読エリア表示の例
上記ページより
終了エリア表示の例
同上
クリックエリア表示の例
同上

レーダーチャート

下図では、棒グラフ、折れ線グラフ、そしてレーダーチャートが使用されています。

左下のグラフでは棒グラフと折れ線グラフを組み合わせることで、満足度とその他の指標(サンプルでは売上など)と比較しています。
右側のグラフでは各指標に対する店舗ごとの評価と、それぞれの所属するエリアなどの比較です。
このように、レーダーチャートは複数の指標を1グラフで比較する際に効果を発揮します。

Knowledge Data Service
https://kdsv.jp/news/archives/658
棒グラフ、折れ線グラフ、そしてレーダーチャートの例
上記ページより

ヒストグラム

ヒストグラムとは、ある特定のデータを区間ごとに区切り、各区間の個数や数値のばらつきを棒グラフに似た形の図で表現するグラフです。ヒストグラムを作成することで、数値で集めた度数分布表を視覚的に分かりやすく表現できます。

ヒストグラムは、製造現場などで数値解析に使用される「QC七つ道具」の一つとされています。別名「度数分布図」「柱状グラフ」などとも呼ばれる、度数分布を図で表すグラフのことです。

(下記出所ページには、「ヒストグラムの形状のタイプとその意味・見方」についての解説あり。)

backlog
https://backlog.com/ja/blog/what-is-a-histogram/


ヒストグラムの例
上記ページより

モザイク図

モザイク図とは?
モザイク図は、グループ内のデータの割合を示す特殊なタイプの積み重ね棒グラフです。モザイク図は分割表をグラフ表示したものです。

モザイク図の使用方法
モザイク図は、関係を示し、グループ間の視覚的な比較を行うために使用されます。
<略>
…(下に示す例)では、米国で中型車よりもコンパクトカーがより多く製造されていることがわかります。並び替えられた図は、すべての大型車が米国製であることも強調しています。

Statistics Knowledge Portal
https://www.jmp.com/ja_jp/statistics-knowledge-portal/exploratory-data-analysis/mosaic-plot.html
モザイク図の例:米国メーカーの割合で並び替えられた、車のカテゴリごとの製造地の分布を示したモザイク図
上記ページから

クロス集計表

クロス集計とは、2つ以上の質問項目の回答内容をかけ合わせ、回答者属性ごとの反応の違いを見るようなときに用いる集計方法です。

集計したデータを細分化して把握できるため、あらゆる統計的調査で使用されます。
<略>
クロス集計は、質問項目と何をかけ合わせるかによって大きく2種類に分けられます。
・属性クロス集計
属性クロス集計は、回答者の属性ごとに回答の傾向を比較する方法です。
「女性はどういう傾向にあるのか?」「役職によりどんな違いがあるのか?」といった違いを見たい場合に使われます。
・設問間クロス集計
設問間クロス集計は、属性以外の2つ以上の質問項目をかけ合わせて比較する方法です。
「このように考えている人は、どういう傾向にあるのか?」「ある習慣がある人にはどのような違いがあるのか?」といったやや複雑な問いを調査したいときに使われますが、属性クロス集計よりも調査設計が込み入ったものになりやすいです。

GMO RESEARCH&AI
https://gmo-research.ai/research-column/cross-tally
属性クロス集計の例
上記ページより

分割表

・分割表とは、2つのカテゴリカル変数の関係を示したもの。
・検定としては、カイ二乗検定とフィッシャーの直接確率検定が用いられる。
・使い分けは、データ数が5以下のセルがあれば、フィッシャーの直接確率検定を使う。
・それ以外は、どちらを使ってもいい。

(カテゴリによる差があるのかないのかの判断には、上記検定を行うことになる)

株式会社データシードいちばんやさしい、医療統計
https://best-biostatistics.com/contingency/contingency-kiso.html
2×2分割表の例
上記ページより

相関係数行列

相関行列とは、異なる変数の相関係数(2つの変数の間の関係を-1~1の間で数値化した値)が行と列に並んでいることです。 2つ以上の変数が互いにどのように関連しているか、または依存しているかを判断するのに役立ちます。

表(ひょう)で示されることが多く、要素同士の相関関係が視覚的にも分かりやすく、また、パターンを見つけて今後の予測に活用することもできます。

Freeasy
https://freeasy24.research-plus.net/blog/w316
相関係数行列の例
上記ページより

散布図行列

散布図行列とは、複数のデータがある場合2変数同士の組み合わせで散布図を作成して行列にまとめたグラフで、どのデータとどのデータに相関があるのか視覚的に確認しやすいグラフです。また、複数のグループがあるデータの場合、下図のように層別(グループ分け・下図なら灰色・青・赤に)して表現することもあります。

LightStone
https://www.lightstone.co.jp/origin/whats_origin/scatter_matrix.html
散布図行列の例
上記ページより

複合グラフ

Q:下の表は、東京都区部の気温と降水量の関係をまとめたデータです。ともなって変わる二つの数量の関係を知りたいときはどうすればよいでしょうか。

気温も降水量も、月ごと、つまり時間によって変化します。しかし、どちらも折れ線グラフにしてしまうと、一つの縦の軸だけでは、うまく表現することができません

A: 気温は折れ線グラフ、降水量は棒グラフにしてみよう。

単位や種類が違う量を一つのグラフに表したものを、複合グラフといいます。複合グラフを使うと、二つの数字の相互関係をみることができます

東京都 中学生のための統計学習「まなぼう統計」
https://www.toukei.metro.tokyo.lg.jp/manabou/tyuu/sirou2/tokutyou2/ma1206t248.htm
複合グラフの例
上記ページより

2 軸グラフ

Excelの2軸グラフとは、2つの異なるY軸があるグラフのことです。2つの内容について1つのグラフで表現できるため、異なる種類やスケールのデータをまとめて比較できます。データをより高度に活用できて便利なため、使用機会も多くあるでしょう。

なお、Excelの2軸グラフは、複合グラフとよばれる場合もあります。

ISA PC SCHOOL
https://www.isa-school.net/blog/office-excel21/

ロジックツリー

ロジックツリーとは、分析対象の要素や、問題点、解決策を論理的に分解して分析するためのフレームワークです。分析課題を木の幹とすると、これを論理的に分解した要素が枝となり、さらに分解した要素が葉となるという意味で、ロジックツリーと名付けられています。

ロジックツリーを作成すると、複雑な分析対象を整理できるようになります。

LINEヤフー for Business
https://www.lycbiz.com/jp/column/yahoo-ads/marketing/what-is-logic-tree/


ロジックツリーの例
上記ページより

コンセプトマ ップ

コンセプトマップ(Concept Map)とは、日本語で「概念地図」と言い、概念と概念の関係を示す図のことです。
つまり、関連性の強い言葉をいくつか並べ、それぞれを線で結ぶことで言葉の関係性を示すための図です。 コンセプトマップで言葉の関係を図にすることで、知識の関係性を視覚的に理解することができます。

コンセプトマップの例
上記ページから
コンセプトマップの例
同上

CSV(Comma Separated Value)

CSVファイルとは、正式には「comma separated values」といい、CSVはその略称を指します。その名の通り、値や項目をカンマ(,)で区切って書いたテキストファイル・データのことをいいます。

CSVファイルのメリット・特徴としては、「余計な情報が入っていない分、データの容量が軽いこと」や前述したように「テキストデータのためCSVファイルはさまざまなソフトで開くことができること」があげられ、データのやり取りを行う際に非常に便利なファイルです。

よむよむCOLOR ME
https://shop-pro.jp/yomyom-colorme/66698
表データ(上)をCSVとして書き出したデータ(下)
著者作成

シェープファイル

Shapefileとは、GIS(地理情報システム)データのフォーマットのひとつで、GISソフトで扱えるベクター形式のデータです。特定の建物を点で示す「ポイント」、河川や道路を線で表す「ライン」、湖沼や森林などを面で表す「ポリゴン」などの形で地図上の空間要素を示します。

また、Shapefileは上述した図形情報のほか、属性情報も併せ持っているため、例えば高速道路と一般道、国道と県道などの形で地図上に表示させることも可能です。

なお、GISとは、Geographic Information Systemの略称で日本語では「地理情報システム」と訳されます。コンピューター上で地図上に空中写真や地形データ、都市計画・土地利用図、道路・河川の台帳などのデータを重ね合わせて表示させるためのシステムです。地理情報の可視化や、複数の情報の相関性を把握するのに役立つため、まちづくり・都市防災計画、商圏分析などで幅広く活用されています。

ゼンリン
https://www.zenrin.co.jp/product/article/Shapefile-benefits/index.html

共起キーワード

共起語は「きょうきご」と読み、特定の物事を説明する際に使われやすい言葉や単語を指します。

例えば、「大学受験」を説明する場合には「科目」や「偏差値」、「センター試験(大学入学共通テスト)」などの単語が頻繁に使われることが予想されます。

共起語とサジェストキーワードの違い
サジェストキーワードとは、検索エンジン上でユーザーが特定のキーワードを検索する際に、セットで検索されやすい組み合わせワードのことです。なお、Googleでは「オートコンプリート」が正式名称です。

例えば、Googleの検索窓に「タクシー」と入力すると、検索候補に「タクシー 料金」や「タクシー 呼ぶ」などの掛け合わせキーワードが表示されます。

ミエルカ
https://mieru-ca.com/blog/co-occurrence/

チャートジャンク

チャートジャンク(chartjunk)とは、グラフを構成する視覚的な要素のうち、情報の理解には不要な要素。過度な装飾などによって情報の正しい理解が妨げられるとして批判される。

数値で表される定量的な情報を図示する手法としてグラフ(chart)がよく用いられるが、点や線、軸、数値、項目名など本来の構成要素の他に(あるいは、そのような要素に対して)デザイン上の要請から装飾や編集が施されることがある。

このような視覚的な編集内容のうち、グラフが伝達すべき情報を歪め、正しい解釈を妨げるとされるのがチャートジャンクで、1983年に米統計学者エドワード・タフティ(Edward Tufte)氏によって提唱された。

過度な装飾の具体的な例としては、目立ちすぎなグリッド線、装飾された軸線や枠線、不要な文字情報、不必要に装飾的なフォント、描画領域内の背景画像やアイコン、必然性のない陰影付けや立体化(3Dグラフ化)などがある。

また、グラフの形状自体を歪めたり、誤解を招くような描画方法もチャートジャンクとされる。例えば、縮尺が異なる複数の項目を同じ作図法で並べたグラフ、低い値の省略箇所を波線などで断絶させず視覚上は連続してしまっているグラフ、視点の位置や奥行きのせいで表示上の長さや広さと数値の大きさが対応していない3Dグラフなどである。

IT用語辞典 e-Words
https://e-words.jp/w/チャートジャンク.html

⬜︎ 終わりに

いかがだったでしょうか。

私は、「箱ひげ図」が何を意味するのかずっと気になっていたのですが、これまできちんと調べることをしてきませんでした。今回、その謎が解け(大袈裟!)、スッキリしました。

また、最後に出てきた「チャートジャンク」は初めてであった言葉でしたが、「確かに〜」と思いました。<無意味な>装飾と<機能を追求した結果である>デザインは違う、という、Apple好きの私にはとても「大事にしたいなぁ」と思う教訓でした。

次回は、
①「ストラテジ(経営戦略)系」
>「2. 業務分析・データ利活用 」
>(3) データ利活用

>-1 データの種類及び前処理
についての予定です。

この記事が気に入ったらサポートをしてみませんか?