【JKI】007_Women_in_ Government_01_情報収集
【JKI_007】課題を確認
Just KNIME It! (JKI)
今回の挑戦はこちら
私はChromeでGoogle翻訳してサイト閲覧しているので下記の内容が表示されます。
報告書の目的として
「政治的、経済的、公的生活におけるあらゆるレベルの意思決定において、女性の完全かつ効果的な参加とリーダーシップの機会均等を確保すること」とあり、一社会人としてのみならず、娘二人の親としてもとても興味があります。
今回のJust KNIME It!は真剣に取り組むべき課題と認識しました。
【課題の理解を深めるために】
紹介されていた「国連開発計画:人間開発報告書」のサイトを確認しました。
後ほど述べますが、Data Centerから重要な追加データが入手できます。
“Standard country or area codes for statistical use (M49)”
5地域に世界を分類し国名との対照表が公開されています。Excel形式でダウンロードして使います。
また、例えば下記の通り今回のデモデータのソースと考えられるデータもダウンロード可能です。
また、人間開発報告書に関しては下記の通り。
ジェンダー不平等指数(GII)
という指標もあるのですね。
【課題1:データ取り込み】
からダウンロードしたCSVファイルの構成をExcelで確認しました。
(中略)
【課題1の解答案】
CSVファイルをいつものようにWFフォルダ内のdataフォルダに格納し読み込みます。
「効率的な方法」とは範囲や文字コードなどの適切な指定で足ると考えました。
設定:
以下、データテーブル部分のみを選択的に取り込む設定としています。
また、カラム名に「-」が入っていると処理しにくいので改名しています。
さらに、文字コードをデフォルトから変えることで正しく「コート・ダジュール」を読み込んでいます。
結果:190ヶ国のデータテーブルを得ることができます。
技術的な点はまっきーさんのブログを参照のこと。
【課題2:大陸列の追加】
大陸と国の対照表はあります。
しかしながら課題に沿わないで、大陸を地域と読み替えて以後データ処理させていただきます。島国に住む方々を想えば地域別分類の方が馴染むように考えたためです。
そこで別の情報源をあたりました。上述の“Standard country or area codes for statistical use (M49)”からExcelを入手し読み込みました。
ところが今回提供されたデモデータと国名表記が一部一致しません。そこで下記の通り名寄せのためのデータテーブルは作成して名前を変換することとしました。
【課題2の解答案】
WF詳細は省きますが以下の通り。
結果:
国名だけではなくて世界標準の略号データなども得ることができるので、そのデータも結合しておきました。
Continentカラムの代わりにRegion_Nameというカラムがあり、
Africa, Americas, Asia, Europe, Oceania
の5地域に分類されています。
【空白値を埋めないという選択】
とのことで、大陸列(の代替)までは対応したので、視覚化の前にデータ拡張が必要です。
正解というのはおそらくなくて、各自での工夫が求められたのが空白値の扱いです。
空白値もしくは欠損値とも言いますが、統計処理上の問題の一つです。
などあるそうですね。
KNIMEでもMissing Valueノードについてまっきーさんが詳しく解説して下さっています。
あるいはPythonでの多種多様な手法も丁寧に記事にして下さっている方がいます。
ところが今回は元のカラムの空白値を埋めないという選択をしました。
平均値や予測値で埋めて国家間の比較をしてしまっていいものかと考えたからです。
そこで参考となる別種のデータを探してきました。
地方自治体のデータがなくても、多くの国では国会のデータは公開してくれているのです。
このデータを並べて表示すると、閲覧者は
が各国でできそうかを推測できるかもしれないと考えました。
今回はお示ししませんが、
があるとのことで、より多くの情報から多面的に女性の権利について統計データを得ることも可能です。
上述の地域分類データを統合した手法に準じてデータを加えました。さらにいくつかデータ整形をしてTable Viewで閲覧し、その後の解析に用いるデータの絞り込みも可能にしました。
本日の報告はここまでとし、後半は視覚化まで説明します。先にKNIME HubにはWFを公開しております。
おまけ:
前回実装できなかった視覚化手法のStacked Bar ChartやSunburst Chartは今回の課題では適切に使いにくいと判断し利用はさらに後日といたします。
今回の課題の難易度は高いと感じています。まだ「中」なのですね。
記事を読んでいただきありがとうございます。 先人の智慧をお借りしつつ、みなさんに役立つ情報が届けられたらと願っています。 もしサポートいただけるなら、そのお金はKNIMEの無料勉強会の開催資金に充てようと思います。