見出し画像

【JKI】007_Women_in_ Government_01_情報収集

【JKI_007】課題を確認

Just KNIME It! (JKI)

今回の挑戦はこちら

私はChromeでGoogle翻訳してサイト閲覧しているので下記の内容が表示されます。

課題7:政府の女性
レベル:中
説明:
このチャレンジでは、1つ以上の視覚化を作成して、国連開発計画:人間開発報告書で報告されているように、地方自治体の女性が保有する議席の割合を調査します。この報告書の目的は、「政治的、経済的、公的生活におけるあらゆるレベルの意思決定において、女性の完全かつ効果的な参加とリーダーシップの機会均等を確保すること」です。これは実際のデータセットであるため、欠落している値があり、独自の創造性によってデータを拡張することを期待しています。特に、国別のデータだけでなく、大陸のデータも報告していただきたいと思います。ここでの真の課題は、この不完全なデータセットを1つ以上の視覚化に変換する方法と、この課題に適していると思われる視覚化です。チャレンジの概要は次のとおりです。
1.データセットをダウンロードして、KNIMEに取り込む最も効率的な方法を決定します
2.最も効率的と思われる方法を使用して大陸列を追加します
3.データを視覚化します(KNIMEソリューションは国と大陸の両方に関連するデータを視覚化します)

報告書の目的として
「政治的、経済的、公的生活におけるあらゆるレベルの意思決定において、女性の完全かつ効果的な参加とリーダーシップの機会均等を確保すること」とあり、一社会人としてのみならず、娘二人の親としてもとても興味があります。
今回のJust KNIME It!は真剣に取り組むべき課題と認識しました。

【課題の理解を深めるために】

紹介されていた「国連開発計画:人間開発報告書」のサイトを確認しました。

後ほど述べますが、Data Centerから重要な追加データが入手できます。
“Standard country or area codes for statistical use (M49)”

5地域に世界を分類し国名との対照表が公開されています。Excel形式でダウンロードして使います。

また、例えば下記の通り今回のデモデータのソースと考えられるデータもダウンロード可能です。

また、人間開発報告書に関しては下記の通り。

人間開発報告書(にんげんかいはつほうこくしょ、英語:Human Development Report, HDR)は国際連合開発計画が1990年から毎年発行している報告書。10数カ国語に翻訳され、120カ国以上の国々で発行されている。この中で人間開発指数、ジェンダー開発指数、ジェンダー・エンパワーメント指数、人間貧困指数などが発表される。また、毎年テーマが決められておりそれについての提言も行っている。

ジェンダー不平等指数(GII)

という指標もあるのですね。

【課題1:データ取り込み】

1. データセットをダウンロードして、KNIMEに取り込む最も効率的な方法を決定します

からダウンロードしたCSVファイルの構成をExcelで確認しました。

(中略)

【課題1の解答案】

CSVファイルをいつものようにWFフォルダ内のdataフォルダに格納し読み込みます。
「効率的な方法」とは範囲や文字コードなどの適切な指定で足ると考えました。

設定:

以下、データテーブル部分のみを選択的に取り込む設定としています。

また、カラム名に「-」が入っていると処理しにくいので改名しています。

さらに、文字コードをデフォルトから変えることで正しく「コート・ダジュール」を読み込んでいます。

結果:190ヶ国のデータテーブルを得ることができます。

技術的な点はまっきーさんのブログを参照のこと。

【課題2:大陸列の追加】

2. 最も効率的と思われる方法を使用して大陸列を追加します

大陸と国の対照表はあります。

しかしながら課題に沿わないで、大陸を地域と読み替えて以後データ処理させていただきます。島国に住む方々を想えば地域別分類の方が馴染むように考えたためです。

そこで別の情報源をあたりました。上述の“Standard country or area codes for statistical use (M49)”からExcelを入手し読み込みました。

ところが今回提供されたデモデータと国名表記が一部一致しません。そこで下記の通り名寄せのためのデータテーブルは作成して名前を変換することとしました。

【課題2の解答案】

WF詳細は省きますが以下の通り。

結果:
国名だけではなくて世界標準の略号データなども得ることができるので、そのデータも結合しておきました。

Continentカラムの代わりにRegion_Nameというカラムがあり、

Africa, Americas, Asia, Europe, Oceania

の5地域に分類されています。


【空白値を埋めないという選択】

実際のデータセットであるため、欠落している値があり、独自の創造性によってデータを拡張することを期待しています。特に、国別のデータだけでなく、大陸のデータも報告していただきたいと思います。

とのことで、大陸列(の代替)までは対応したので、視覚化の前にデータ拡張が必要です。

正解というのはおそらくなくて、各自での工夫が求められたのが空白値の扱いです。

空白値もしくは欠損値とも言いますが、統計処理上の問題の一つです。

1. 欠損値の除去
2. 欠損値を予測値で補完する方法 (imputation)
3. 不完全データとして尤度を記述する方法

などあるそうですね。

KNIMEでもMissing Valueノードについてまっきーさんが詳しく解説して下さっています。

あるいはPythonでの多種多様な手法も丁寧に記事にして下さっている方がいます。

ところが今回は元のカラムの空白値を埋めないという選択をしました。

平均値や予測値で埋めて国家間の比較をしてしまっていいものかと考えたからです。

そこで参考となる別種のデータを探してきました。

地方自治体のデータがなくても、多くの国では国会のデータは公開してくれているのです。

このデータを並べて表示すると、閲覧者は

政治的、経済的、公的生活におけるあらゆるレベルの意思決定において、女性の完全かつ効果的な参加とリーダーシップの機会均等を確保すること

が各国でできそうかを推測できるかもしれないと考えました。

今回はお示ししませんが、

ジェンダー指標の最小セットは、51の定量的指標と11の定性的指標のコレクション

があるとのことで、より多くの情報から多面的に女性の権利について統計データを得ることも可能です。

上述の地域分類データを統合した手法に準じてデータを加えました。さらにいくつかデータ整形をしてTable Viewで閲覧し、その後の解析に用いるデータの絞り込みも可能にしました。

本日の報告はここまでとし、後半は視覚化まで説明します。先にKNIME HubにはWFを公開しております。


おまけ:

前回実装できなかった視覚化手法のStacked Bar ChartやSunburst Chartは今回の課題では適切に使いにくいと判断し利用はさらに後日といたします。

今回の課題の難易度は高いと感じています。まだ「中」なのですね。


記事を読んでいただきありがとうございます。 先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。 もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。