ビジネスデータ処理について学んだ(その1)
デジタルブートキャンプで新たな単元、ビジネスデータ処理という物々しいセクションに入った。
この講座でできるようになることは、「エクセルを利用した大量データの扱い」、「ピボットテーブルを使ったエクセルでのデータ集計処理」、「エクセルのグラフ機能を使い、データ分析(データの可視化)」「Pythonを活用した、エクセルの操作」「Pythonを利用した処理の自動化」
うーん、何か凄そう。
データの定義と形式
データのうち、利用者に意味があるデータを情報と言う。
情報学の定義では、データの種類を拡張子で表現する。
・文字データ: .txt
・画像データ:.jpg
・動画・音楽:.mp3 などなどなど。
⇒ なるほど。拡張子を見れば(知ってる人は)どんな種類のデータか分かる。
文字データについて
.txtであらわされる文字データは半角の英数字記号であるASCIIで表現される。一方日本語はASCIIを組み合わせた文字コードで表現される。組み合わせ方はいろいろあって、不一致が起きると文字化けが起きる(おーなるほど)
日本語で利用される文字コードには以下のようなものがある。いずれも聞いたことはあるなあ。
・JISコード
・Shift-JISコード(アップルやマイクロソフトやIBMが自社の規格に合わせて修正を入れたJISコード)
・EUC(インターネットでよく使われているUNIXから拡張させたもの)
・UTF-8(いくつも有ったら大変だから統一させましょうという動きから作られたもの)
テキストデータの形式
文字データには列のデータを表現するために様々な形式がある。
・固定長データ:例えば10文字で次の列ですよと決めておく。
・タブ区切りデータ、カンマ区切りデータ:タブやカンマを打ったら次の列ですよと決めておく。拡張子が、tsvとかcsvになったりすることもある。
カンマ区切りはよく使われるが、データの中にカンマが有ったりすると困ったことになってしまう。
よく官公庁のデータをダウンロードするときに、csv形式でダウンロードするというコマンドが出てくるが、やっと何を言っているか分かった。
その他、JASON形式とか、XML形式もある。拡張子も.jasonとか.xmlになる
テキストエディタについて
テキストファイル専門に処理を行うアプリケーション。Windowsではメモ帳がテキストエディタになる。データの確認、保存だけではなくプログラミングもできるらしい。エディタという言葉は時々聞いたことが有ったがワープロとの違いが分かっていなかった。
ワープロはA4の紙に打ち出すために、様々な修飾機能がついており、テキストエディタとは異なる。
ここまで習ってから授業でVisual Studio Codeをインストールし、CSV編集用のプラグインである、Rainbow CSVとEdit CSVもインストールした。
オープンデータ
オープンデータとは政府や官公庁が持っているデータを公表しているもの。近年整備が進んでいる。特に日本では東日本大震災を契機として公開が進んだ。
政府のオープンデータは www.data.go.jp/, 都のオープンデータはporta.data.metoro.tokyo.lg.jp/で公開されている。
今回は都のオープンデータサイトからデータをダウンロードして、Visual Studio Codeで開いてみた。Rainbow CSVでカンマごとに色が変わる機能を確認できたが、Edit Dataではエラーが出てしまった。
また、二回目以降Rainbow CSVも動作しなくなってしまった(泣)
キャンプで「大体のことはググれば答えが出る」と教わったことを思い出し、「Visual studio code, プラグイン、作動しない」をキーワードに検索し、一番最初に出てきたページ(下)の通りに操作したらすぐに解決。https://edunity.hatenablog.com/entry/20211202/1638432693
かなりのことは何とかなるという実感がわいた。
この記事が気に入ったらサポートをしてみませんか?