見出し画像

ITパスポート試験勉強ノート No.9 業務分析・データ利活用 (3) データ利活用 -1 データの種類及び前処理

◾️はじめに

ITパスポート という国家試験の勉強を始めました。

「試験勉強ノート」を作るつもりで、自分が新たに知ったことを書き留めていきます。

この試験、内容は大きく分けて次の3つです。
①ストラテジ(経営戦略)系
②マネジメント(管理)系
③テクノロジ(IT技術)系

シラバスの順に従って、今回は、
① ストラテジ(経営戦略)系
> 2. 業務分析・データ利活用  
> (3) データ利活用
 
 -1 データの種類及び前処理
の勉強ノートです。


項目中の★印は、現時点での最新版(2024年10月試験)で導入されたことを表します。
シラバス掲載ページはこちら↓

https://www3.jitec.ipa.go.jp/JitesCbt/html/about/range.html



◾️今回の解説項目

今回の項目のシラバスの内容は次の通りです。
説明不要と判断したいくつかを除き用語例・活用例としてあげられた概念に解説をつけていきます。

(3) データ利活用
・データを分析して利活用することによる,業務改善や問題解決
① データの種類及び前処理
・データを集める目的,集めるデータの種類及び特徴
・データ利活用のための簡単な前処理
★機械判読可能なデータの作成,表記方法

[用語例]
調査データ・実験データ
人の行動ログデータ・機械の稼働ログデータ
GIS デ ータ
量的データ・質的データ
1 次データ・2 次データ
メタデータ
構造化デ ータ・非構造化データ
時系列データ
クロスセクションデータ

[活用例]
データのサンプリング
データの名寄せ
データの外れ値・異常値・欠損値の処理
アノテーション
データの季節調整・移動平均
自然言語処理
画像処理


(3) データ利活用
・データを分析して利活用することによる,業務改善や問題解決
-1 データの種類及び前処理
・データを集める目的,集めるデータの種類及び特徴

・データ利活用のための簡単な*前処理

*データの前処理とは、集計や分析に用いる生データを整えて加工すること全般のこと。具体的には用語例に出てくる「欠損値処理」、「外れ値処理」など。

オオニシ

★機械判読可能なデータの作成,表記方法

2020年12月に、総務省から「機械判読可能なデータの表記方法の統一ルール」(※参照 | 総務省 統計表における機械判読可能なデータの表記方法の統一ルールの策定)という、Excelのデータ入力の方法を統一するための規定が公開されました。
これはもともと政府統計の総合窓口(e-Stat)というポータルサイトで活用するためのルールでしたが、一般のユーザーにとっても効率的なデータ活用(=編集や加工、分析などの二次利用)に有効な入力規則として注目が集まっています。

…Excelにデータ入力時のルールを10個厳選して解説します。
・セルに複数のデータを入れない
・数値データに文字列を含めない
・セルを結合しない
・スペースや改行等で体裁を整えない
・項目名を省略しない
・一つの表を空白の列、空白の行で分断しない
・オブジェクトを使用しない
・データの単位を記載する
・機種依存文字を使用しない
・1シートに複数の表を掲載しない

COCOO 「《Excelデータの作り方》総務省の「機械判読可能なデータの表記方法の統一ルール」から抜粋!」より抜粋。図入りのわかりやすい解説が次のページに
https://exceljoshi.cocoo.co.jp/media/excel-date-entry-rule

[用語例]

調査データ・実験データ <省略>

人の行動ログデータ

人の行動ログデータは、移動や滞在などの行動履歴を数値化・可視化するもので、マーケティングや街づくり、イベントの危険防止対策などに活用されます。

データはGPS機能やWi-Fi接続、防犯カメラ、スマートフォンの基地局情報から取得します。

たとえば、小売店では広告配信やレイアウト改善、交通分野ではタクシーやバスの運行最適化、オフィスでは照明や空調の調整に役立ちます。

こうしたデータの活用で、効率的な運営やサービス提供が可能です。

https://firstreport.work/literacy-hr/1938/

機械の稼働ログデータ

機械の稼働ログデータは、オートメーション化と生産性向上に重要です。

IoT技術により、機械をインターネットで接続し、リアルタイムで稼働データを取得、分析できます。これにより、稼働率の比較やメンテナンスコストの削減が可能です。

ログデータを監視し、稼働率低下の原因や故障の兆候を特定し、予防対策を講じることで、稼働率の維持と向上が図れます。

また、複数の工場を遠隔で監視し、メンテナンススタッフの派遣を減らすこともできます。

https://firstreport.work/literacy-hr/1941/

GIS デ ータ

GIS(Geographic Information System:地理情報システム)は、その名前が示すとおり地理情報を扱うシステムです。では地理情報とは何でしょうか? 地理には「地球上の山川・海陸・気候・人口・集落・産業・交通などの状態」[出典 1]という意味があります。つまり、地球上に存在するあらゆる地物や事象の状態をあらわす情報が地理情報と言えます。ちなみに「地理情報」に似た言葉で「地理空間情報」という言葉がありますが、ほぼ同じ意味で使用されています。

地物や事象の「状態」をあらわすための情報(= 地理情報)を大別すると 2 つの要素から構成されます。1つめは地球上での位置や形状などであらわされる「空間的な情報」、2つめはそれらに付随する情報で 、GIS の世界では「属性情報」と呼んでいます。

たとえば、地震の状態をあらわす空間的な情報は震源の位置を示す緯度と経度の座標で、属性情報は地震のマグニチュード、発生日時などの情報です。空間的な情報があることで GIS 上で震源の位置を点として示すことができ、属性情報(例:マグニチュード)があることで値によって点の大きさや色を変えて表現することができます。

https://www.esrij.com/gis-guide/gis-datamodel/gis-datamodel/

量的データ・質的データ

データの種類は主に「量的データ」と「質的データ」の2つに分けられます。

量的データは数量として意味を持ち、足し算や引き算といった演算が可能です。売上額や利益額などの数量情報や、年齢や身長などの数値によって表されるデータが該当します。

一方で、質的データは分類や種類を区別するためのデータであり、数量としての意味は持ちません。好きなスポーツや血液型などのカテゴリや順位、学年などが該当します。

データの種類の理解は、データの解釈や分析において重要な基盤となります。

https://qiqumo.jp/contents/dictionary/3221/


同上

1 次データ・2 次データ

1次データとは、調査者自身が、その調査目的のために固有の方法で採取したデータ。典型的には、アンケートやインタビュー、実験などが該当する。現場へ出て観察することも、1次データに分類される。

1次データのメリットには、欲しいデータを欲しい形で入手できることがある。2次データでは、データの対象や取得方法、分類方法などが必ずしも調査者の必要とするものと合わない場合があるのに対し、1次データはそうした齟齬が生じない。また、個々の対象について、より詳細かつ多面的な調査が容易であることもメリットである。

一方、デメリットとしては、収集にコストや時間がかかることが挙げられる。現実には、幅広い対象のデータを収集しにくいということもある。

https://mba.globis.ac.jp/about_mba/glossary/detail-11604.html

2次データとは、その調査目的のために固有の方法で採取したものではない、既に採取されていたデータ。典型的には、官公庁による統計、研究機関のレポートなどが該当する。また、営業実績やオペレーションのデータなど自社の業務データも、2次データに分類される。

2次データのメリットは、収集のためのコストや時間が節約できることである。昨今は、情報開示の進展やインターネット、データベース・ソフトの普及で、データの検索が以前より格段に容易になっている。

一方、デメリットには、必ずしも調査者の知りたい形でデータが揃っているわけではないということがある。

従って、2次データを調査・分析に活用する際には、データの時期、調査主体、調査場所、対象やデータ取得方法を確認し、活用可能かどうかを検討する必要がある。

https://mba.globis.ac.jp/about_mba/glossary/detail-11601.html

メタデータ

メタデータの「メタ」とは、ギリシャ語の「μετά(メタ)」から派生した接頭辞で、その意味は「後ろに」「超えて」などです。メタデータは、データに関する情報を記述するデータのことを指します。

つまり、メタデータは他のデータを説明・定義・制御するための情報であり、データ自体の属性や特性、構造、意味、関係性などを表現します。メタデータはデータの「データ」とも言える存在であり、データの管理や解釈を支援する役割を果たします。

例えば、写真ファイルのメタデータには、画像の解像度、作成日時、カメラのメーカーやモデル、露出設定などが含まれます。また、ウェブページのメタデータには、ページのタイトル、説明、キーワード、言語などが含まれます。このように、メタデータはデータをより詳細に説明し、分類・検索・整理・利用するための情報を提供しています。

https://data-viz-lab.com/metadata
同上

構造化デ ータ・非構造化データ

1 | 構造化データとは
構造化データとは、ExcelやCSVファイルに代表される、「列」と「行」の概念をもつデータのことです。文字通り「構造化」されているため検索、集計や比較などが行いやすく、データの解析や分析に最も適したデータ構造です。ERP、CRMなどの業務システムでデータを効率よく管理するRDB(リレーショナル・データベース)でも用いられます。

例)CSV、固定長、Excel(リレーショナルデータベース形式)

2 | 非構造化データとは
非構造化データとは、その名の通り構造定義されていないデータのことを指します。データベース化ができないため、検索や集計、解析に不向きなデータです。eメール、提案書・企画書、見積書・発注書、契約書などのOffice文章、デザインデータ、CADデータ、画像、動画、音声、センサーログなど、日常の業務で生成されるさまざまなデータが含まれます。データ単体で意味を持ち、用途も異なるうえに量が多く、発生する頻度も高いのが特徴です。

*データ内に規則性に関する区切りはあるものの、データの一部を見ただけでは二次元の表形式(Excel形式)への変換可能性、変換方法が分からないXML、jsonなどの「半構造化データ」も含まれます。

例)規則性に関する区切りのないテキスト、PDF、音声、画像、動画

非構造化データの活用はなぜ重要?難しい理由は?
→下記ページを参照

https://solution.toppan.co.jp/bx/contents/cdp_contents07_0831.html
<構造化・非構造化データの違い>
同上

時系列データ

時系列データとは、時間の経過とともに連続的または定期的に観測されるデータ系列です。たとえば、日々の気温、月々の企業売上、年々の国のGDPなどが代表例です。時間の流れとともに変動するデータ点が続く構造を持っており、これらのデータ点間には時間的な依存関係が存在という特徴があります。

時系列データには、トレンド季節性周期性ノイズなど、さまざまな成分や要因が影響します。背後に隠された要因を正確に理解することで、過去のデータ傾向やパターン解明、そして未来予測が可能になるのです。

とくにビジネスの現場や研究分野では、時系列データの分析は欠かせないスキルです。また、過去のデータをもとに未来を推測する時系列解析は、多岐にわたる領域での活用が期待されています。

トレンド:データの上昇または下降の動き
不規則性:時系列データにおけるランダムな変動のことです。不規則性は、外部の突発的な要因や予測できない事象によって引き起こされるもので、通常のトレンドや季節性、周期性とは異なる性質を持ちます。

https://blog.trocco.io/glossary/timeseries-data

クロスセクションデータ

横断面データ(クロスセクション・データ)
 ある時点における場所・グループ別などに記録した複数の項目を集めたデータのことです。同一時点での複数項目間の分析ができます。
例1:平成22年1月時点のA県の世帯数、人口、事業所数(図1の*2)
例2:河田計さんの英語、数学、国語の期末試験の点数

https://www.stat.go.jp/naruhodo/4_graph/data.html
同上

[活用例]

データのサンプリング

1 サンプリングとは
サンプリングとは統計調査の用語で、調べたい対象である母集団から、実際に調査を行う標本(サンプル)を抽出することをいいます。

 例えば、住民に意識調査をしたいと思ったとき、全員にアンケートをとると相当な手間がかかります。または、ある地域の健康状態を調べようとしたときに、全員を調査するのは実質的に不可能でしょう。

 そこで、母集団(調査の対象となる集団全体)を代表するような小規模のサンプルを抽出して、その人たちに調査を行うことで、母集団について推察をする方法がとられています。このように、対象となる集団の一部を調査することで全体を推定する調査方法を、標本調査といいます。サンプリングは、この標本調査で行われる工程のひとつです。

★以下の項目について、出典に詳しい説明あり
1-1 標本調査と全数調査との違い
1-2 サンプリングの目的
1-3 サンプリングの重要性
2 サンプリングの種類
2-1 無作為抽出法(確率標本抽出法)
①単純無作為抽出法
②系統抽出法
③層別抽出法
④二相抽出法
⑤クラスター抽出法(集落抽出法)
2-2 有意抽出法
3 サンプリングのやり方

https://smbiz.asahi.com/article/14997859

データの名寄せ

名寄せとは、データベースに存在しているデータを名前、住所、電話番号等の情報から読み取り、同一人物や同一企業等の重複しているデータをひとつにまとめる作業のことです。

間違えて個人の情報を複数登録してしまったり、電話番号や住所が変更になったりして、管理表に登録しているデータが古いことや、重複していることがあります。

このようなときに名寄せを行い、データを整理することが大切です。

同一人物、同一企業、同一世帯に対してIDを付与しておけば、名前や住所、電話番号等の同じ属性のデータを簡単に判断できるようになります。

★以下の項目について、出典に詳しい説明あり
名寄せの必要性とは?
企業が名寄せを必要とする場面は?
名寄せの実施方法

https://www.zenrin-datacom.net/solution/blog/name-identification

データの外れ値・異常値・欠損値の処理

欠損値、表記揺れ、異常値などは、データ分析を行う過程で課題となることが多いため、データクレンジングしたい代表的な項目である。
1.欠損値
欠損値は、そもそもそのデータが存在しない、又は存在するが観測できなかった(例えば、データ収集過程で問題が発生したなど)場合に生じる。

・欠損値の取り扱い方
①削除する
ひとえに「削除する」といっても、場合に応じて仕方が異なる
例)
データの分布を確認する場合 
→ 欠損データを削除(無視)して集計
クラスタリング等で他の項目との関連性も考慮して機械学習アルゴリズムを動かす
→ レコードごと削除
ほとんどが欠損の項目 
→ その項目自体を削除、等
②代表値(平均値、中央値、最頻値など)で穴埋めする

欠損値の取り扱い方には画一的な正解はなく、データの種類や性質、プロジェクトの目的等によっても変わってくる。

2.表記揺れ
表記揺れとは、ある単語について、同じ意味にも関わらず、2通り以上の書き方をされることにより、表記に揺れが生じることを指す。
例)株式会社と(株)、Googleとグーグル、1000円と\1,000、等

・表記揺れの主な対応方法
①大文字/小文字や全角/半角の統一といった逐次的なもの
②送り仮名の表記ゆれ(例:「行う」と「行なう」)や文字種による表記揺れ(例:「猫」と「ねこ」と「ネコ」)等に対するヨミによる統一(形態素解析)
③正しい名称と表記揺れの名称の対応表による統一

また、例えば解熱鎮痛剤の成分であるアスピリンはアセチルサリチル酸と同じ意味であるが、この例のように分析対象となるデータの業界知識がなければ表記揺れかどうか判断のつかないものもあるため、外部顧客を含んだ、プロジェクト内での十分なコミュニケーションが求められることもあるだろう。

3.異常値
異常値は外れ値の一種であり、外れ値とは他の値から大きく外れた値のことを指す。
外れ値には「本当の外れ値」と「測定ミス、誤記入、誤入力等により生じた外れ値」があり、後者を異常値と呼ぶ
例えば、何らかのアンケートで年齢欄に130歳などと書かれていたら、これは明らかに誤記入等による異常値であろう。
このように明確に測定ミス、誤記入、誤入力とわかるデータであれば、欠損値の場合と同様に削除又は穴埋めすればよいが、実際には外れ値と異常値の区別のつかないデータも多い。

・代表的な外れ値検知手法 <省略>

https://bodais.com/info/glossary/id0900000272

アノテーション

アノテーション(Annotation)とは、日本語に訳すと「注釈」という意味になります。AI分野におけるアノテーションとは、AIに学習させたいデータに対して、タグ付けを行う作業のことを指します。

このタグ付けがされたデータは「教師データ」と呼ばれます。

つまり、アノテーションとはAIが学習するための「教師データ」を作る作業とも言えます。

私たちは、人間なので人生経験からこのイラストを見て「これは犬だ!」と即座に判断できますよね。

ですが、何もないデータをAIに学習させても「犬」を判別できません。

そこで、「教師データ」を作ることが必要になります。

「これは犬だよ」とタグを付けてあげた「教師データ」をもとに、AIが学習を行うと、AIは「犬」のパターンやルールを見つけて、タグがないデータを見ても「犬だ!」と分かるようになるのです。

一般的なAIシステム開発は、
データ収集→アノテーション→学習とモデル構築→評価→運用
という順番で行われます。データを収集して、タグを付けるアノテーションの作業がとても重要な役割を担っていることが分りますね。

ちなみに、今回は「画像」を例にして説明しましたが、「音声」や「テキスト」についても同じようにアノテーションの作業をします。

今までの流れで、なんとなくアノテーションの必要性を分かっていただけたでしょうか。

人間と同じで、AIも学習をすればするほど色々なことが分かるようになります。

例えば、「犬」だけではなく、「柴犬」、「ゴールデンレトリバー」、「チワワ」など犬種別にタグを付けて学習させれば、さらに細かい種別を判別できるようになります。

他にも「猫」「犬」が一緒に写ったデータを沢山学習させたら、「猫」「犬」を判別できるようになり、精度が高まりますよね。

つまり、精度が高い沢山の「教師データ」を学習することで、AIの精度が高くなるのです。

https://wwg.co.jp/blog/41216
同上
同上

データの季節調整・移動平均

季節的な動きを除去

 社会経済や経済の動向等を把握する際は、官公庁や民間などから発表される経済統計データが用いられています。

 このような経済指標や時系列データ(※1)のうち、月や四半期のデータの動きをみると、一年を通して決まった動き(一年を周期とした変動)がみられます。このような動きは、季節変動と呼ばれています。季節変動が含まれるデータを分析する際には、季節変動を取り除くことが必要になる場合があります。このとき、何も手を加えない元のデータ(原数値)から季節変動を取り除く季節調整という統計的な手法が使われています。

 それでは、季節変動はなぜみられるのかというと、世の中のモノの動きには天候や社会習慣等に起因する以下のような季節的な要因(季節要因)が含まれているためです。

《季節要因》
 1.自然条件
天候や気温などの自然条件は、経済活動に直接影響を与えます。例えば、清涼飲料水などは、夏に消費が増加するため、これに対応して生産量や売上高なども変動します。

 2.暦の要因
月による日数や休日の違いによる影響です。例えば、年末年始、ゴールデンウィーク、お盆などの休日が続く月や2月などは他の月に比べて工場の稼動日数が少なく生産が減少したりします。

 3.制度・習慣からの影響
7月、12月には、中元、歳暮の習慣があるほか、これらの月にはボーナスの支給も重なるため、消費が急増する傾向にあります。そして、これに対応して商品やサービスの生産・売上も増加します。

 図1は、年次別に1世帯当たりの家計の消費支出(※2)から1か月の日数や物価水準の変動の影響を取り除いて計算した指数(消費水準指数)の月別の動きを示したものです。この指数が高い場合、家計での支出が多いことを表しています。
 これをみると、消費水準指数はボーナスが支給される時期に重なる12月が最も高く、他にも3月や4月が高くなっています。一方で、5月や6月は低くなっているなど、1年を通じて一定の変動パターン(季節変動)があることが分かります。
 例えば、一年の中で消費支出が低くなる5月や6月と最も高くなる12月の支出金額を単純に比較しても、5月や6月よりも12月の方が家計の消費が活発であったと判断することはできません。これは、支出金額は5月や6月が少なく、12月が多いことは季節的に当然であるためです。

 このような季節要因により、経済指標や時系列データを分析する際は、単純にデータの推移をみて動向を判断しても、分析の目的によっては有効な結論を得ることができない場合があります(※3)
 そこで必要となるのが、原数値から季節要因による変動を除く「季節調整」と呼ばれる手法です(原数値から季節変動を除いた値を季節調整値といいます。)。
 季節調整にはいくつかの方法がありますが、日本では移動平均(※4)の考え方を使った統計的な手法(センサス局法(※5))が広く使われています。季節調整値は、季節要因による変動が除かれているため、当月と前月や前々月などとの比較が可能となり、直近の動向を確認することができることなど、精度の高い比較・分析が可能となります(図2)。

 ここまでを読むと、原数値よりも季節調整値の方が有用で、原数値はあまり使われないかと思ってしまう人もいるかもしれませんが、必ずしもそうではありません。例えば、企業では、消費の需要に季節性がある場合、季節性を含んだデータを基に商品の生産量を決めたりします。また、行政機関では、失業者(職を探している人)に対する失業対策を考えるときは、実際にどの程度の失業者が存在しているのかを把握したり、失業者が増加する時期を踏まえて対策を講じるためです。

https://www.stat.go.jp/naruhodo/15_episode/toukeigaku/kisetu.html
同上

移動平均(いどうへいきん)
時間的に連続するデータ(時系列データ)の季節変動などを取り除くために、前後いくつかの平均をとること。

https://www.stat.go.jp/naruhodo/13_yougo/a-gyo.html#idouheikin
同上

自然言語処理

自然言語処理とは、人が日常的に使っている言語(自然言語)をコンピュータで処理・分析する技術のことです。NLP (Natural Language Processing)とも呼ばれ、コンピュータに言葉を教える自然言語技術の一つに分類されます。

自然言語技術分野には自然言語処理に加え、自然言語生成自然言語理解自然言語クエリなどがあり、これらはAIや機械学習と組み合わせて活用されている技術です。

自然言語は日常的に人が使用する言葉であり、曖昧さを含んでいます。同じ言葉でも、話す人物や文脈によって違う意味を示すことも珍しくありません。そのため、コンピュータで機械的に分析するには高度な技術が求められます。

★以下の項目について、出典に詳しい説明あり
自然言語処理の流れ
 機械可読目録とコーパスを用いて準備→「形態素解析」→「文章構造の解析」→「文章の意味を分析」→「文脈を理解したうえでの情報抽出」
自然言語処理に用いられる手法
 共起語解析・トピックモデル・感情分析
自然言語処理でできること
自然言語処理の活用事例

https://it-trend.jp/textmining/article/124-00272

画像処理

画像処理とは、画像に対して電子工学的(情報工学的)に行う処理のことで、画像変換や変形、特徴量などの情報抽出を行う、画像データに関わる処理全般を指します。主にコンピュータ上で行われる処理で、様々なデジタル画像を対象に目的に応じたアルゴリズムと実施するためのプログラミングが必要となります。

画像処理を中心とした一連のシステム構成を画像処理システム(または、マシンビジョン)と称し、対象ワークの良否判定を行う外観検査をはじめ、画像モデル、文字、バーコードによる識別認証、近年ではステレオ画像などの3次元情報を基にしたロボット制御など様々な分野で活用されています。

https://www.canon-its.co.jp/solution/keyword/detail/image/
画像処理システム構築に必要な素材の例
同上

⬜︎ 終わりに

いかがだったでしょうか。

私は、外れ値や欠損値に重要な意味があることがある、という点が勉強になりました。

また、最後に出てきた「アノテーション」は初めて出会った言葉でした。そして、このタグづけされたデータのことを「教師データ」と呼ぶことも初めて知りました。機械学習にとっては不可欠ななので、そういう概念があることはわかっていましたが、ネーミングを知らないとテストで答えられません

概念はわかっていても名前がわからないというと、海外から日本に移住してきた学生、いわゆる渡日生のみなさんが理科や家庭科の勉強に苦労していたことと重なります。Nのことを知っていても、それを窒素と呼ぶことを知っていないとテストで答えられないのです。

中国語では窒素をなんと言うか、ChatGPTに尋ねてみました。
その答えは…

窒素は中国語で「氮」(dàn)と言います。


次回は、
①「ストラテジ(経営戦略)系」
>「2. 業務分析・データ利活用 」
>(3) データ利活用

>-2 データ分析における統計情報の活用
についての予定です。

この記事が気に入ったらサポートをしてみませんか?