見出し画像

[情報Ⅰ] とどらんのデータ取得ツール

情報Ⅰの授業ではデータ分析が大きなテーマになっています。

今回、とどらんを用いた授業展開の補助となるデータ取得ツールを作成しましたので紹介します。

とどらんとは?

とどらんは都道府県別の統計データを集めたサイトです。

例えば、「東京のコンビニの数」や「甲子園優勝した高校の数」など様々なデータをランキング形式で見ることができます。

授業の具体的な実践は以下のHPを参考にしました。
アサンプション国際中学校高等学校 岡本弘之先生の実践例です。データ分析についてとてもわかりやすくまとまっており、授業展開する上でもとても役に立ちました。

私もデータ分析の授業実践を行ったのですが、パソコン操作に慣れていない高校生を対象に授業を展開していくと以下の不便な点が見つかりました。

・HPからCSV等のデータでのダウンロードができない
・そのため、表をエクセルにコピー&貼り付けをする必要がある
・コピー&貼り付け時に書式情報をカットするためプレーンテキストのみでのコピーについての説明が必要となる
・単位に文字が含まれているため、それを置換する作業も必要になる

単位数の少ない情報Ⅰ(標準単位数2単位)では致命的なロスとなりました。

解決策として、BingAIなど生成系AIで抽出することもできますが、
処理時間が遅くなってしまう点単位に含まれる文字列を除去できない
状況です。今後の仕様変更等で変わってくるかとは思いますが。

また、生成系AIによる出力なので必ずしも正確な値とは限らない点に気をつけなくてはなりません。

BingAIの回答。出力に概ね1分程度。一応データは取得できる。
値のみを抽出しようとしたところ、不可能でした

そこで、BingAIやChatGPTの補助を受けつつWebスクレイピングライブラリ(BeautifulSoup)を用いたPythonプログラムを作成しました。

とどらんの表データ抽出プログラム

このプログラムは実行後、入力フォームにURLを入力するだけで表データを出力することができます。

GoogleColabで動作させることができます。動作画面は以下の通りです。

プログラムの使い方
データ抽出を行いたいページのURLを入力。
ここでは人口のデータ(https://todo-ran.com/t/kiji/13392)を入力しました。
実行するとデータが表示されます
左ペインの「ファイル」→右クリック→「更新」をクリックすると出力されたCSVファイルが表示されます
CSVファイルをダブルクリックするとプレビュー画面が表示されます
コピーボタンを押すことでデータをコピーしExcel等に貼り付けることができます

このプログラムでは文字列を数値に変える処理や単位の文字を除去するような処理が行われています。

最後に

あくまでもデータ取得の補助ツールとして使用してください。
とどらんのページ仕様が変更された場合は表データをロードできない可能性がありますので、利用する際はご注意ください。

この記事が気に入ったらサポートをしてみませんか?