見出し画像

【雑感】絶対覚えて!エクセル・データの取り扱いのお作法

どうも、バックオフィスからIT職にチャレンジ中、ガツオです。

気が付けばもう2023年が始まって1週間が経ってしまいました。
一列の合計は関数でやる、ということで正月早々とても有益なExcelのnoteを書いて業務改善を支援することから今年をスタートすることにしましょう。

もう仕事もはじまって、まとまった時間とれなくなってきますから、ブルシットなジョブはしないほうが良いですからね。
せっかくなのでオマージュもとの外資系うさぎのちょこさんを見習い、何かアウトプットしてみるとよいんじゃないでしょうか。

今回のnoteは「ちょこさんの新年早々のnote」読み応え尋常じゃないなってビビった一ファンによる完全なオマージュです。
文体や進め方も完全に寄せ捲くってます(怒られたらChatGPT)に直してもらいます。
大本のちょこさんのnote「【雑感】絶対覚えて!案件アサイン前情報収集の鉄板のやり方!」は有益すぎるので絶対読んでほしいです。
私のnoteでも有益だなって思っていただいたら、ちょこさんにカンパしてください🐰

出戻りガツオ🐟より

そういえば、これはExcel使う人ならどんな人でも覚えておいて損はない、寧ろ水準にしないと、そろそろデータベース警察に逮捕されるのでぜひこのやり方を身に着けてください。

データに関わるビジネスパーソン各位、データの整理の仕方、集計方法の選択、データ活用はもはや息をするように出来るようにならないとダメなので心して読むことをお勧めします。
ガツオはこういったことを一切言ったことありません。

ちょこさんが言っている型を覚えるってやつです。

では、本編をどうぞ。

■データの蓄積方法は必ず機械判読可能なデータにして蓄積していくのが基本

ここで一度、普段のデータの入力について振り返ってみましょう。
どんなデータに限らず、「機械判読可能なデータ」で記録していくという原則を守れているか覚えていますか?

自分が見やすい形で好きなように整える?
学校の授業でやっていることではないので、なんとなく自分の好きなようになんかの本で読んだ気がする我流のデータ作成を貫いていることが多いんじゃないでしょうか。

そもそも、世間一般でデータの入力方法なんて統一されてるの?って疑問を持たれるかと思いますよね。
ググってもフリースタイルデータがウヨウヨするシーンに多く出会うと思うので、雰囲気で都合よく最適化されたデータを身に着けるって厳しいと思います。

でも実際はルールあります。
お箸の持ち方みたいなもので、教わらないことなのですが、統一されていない現状。
これはとても良くないことです。

最初のステップとして、総務省 統計局、令和2年12月18日の報道資料「統計表における機械判読可能なデータの表記方法の統一ルールの策定」で公表されているルールを必ず守ることが鉄則です。

抜粋すると

  1. 1セル1データとなっているか

  2. 数値データは数値属性とし、⽂字列を含まないこと

  3. セルの結合をしていないか

  4. スペースや改⾏等で体裁を整えていないか

  5. 項⽬名等を省略していないか

  6. 数式を使⽤している場合は、数値データに修正しているか

  7. オブジェクトを使⽤していないか

  8. データの単位を記載しているか

  9. 機種依存⽂字を使⽤していないか

  10. ⻄暦表記⼜は和暦に⻄暦の併記がされているか

  11. 地域コード⼜は地域名称が表記されているか

  12. データが分断されていないか

  13. 1シートに複数の表が掲載されていないか

  14. データが縦軸で作成されているか(追記)


これは本当に大切なことなので絶対守ってください。

なぜ、これが絶対に守られなければならないのか、実際に運用されているデータなどを見て調べていきましょう。

細かい話に入る前に(ちょこさんを見習って作った)サマリスライドを貼っておくので読んでおいてください。

■なぜ機械判読可能なデータ蓄積ルールが大切なのか

 - Point1:そもそもデータはこのルールに則って作られることになっている

まずはそもそもデータのルールとは何か、を考えてみることにしましょう。
「データベース」「テーブル」という考えからみていきます。

このページがわかりやすかったので、概念を引用します。

1. リレーショナルデータベースとは
1件のデータ(レコード)を複数の項目(フィールド)の集合として表現し、データの集合をテーブルと呼ばれる表で表す方式で、 ID番号や名前などのキーとなるデータを利用して、データの結合や抽出を容易に行なうことができるのが特徴です。

2. テーブルの概念
列(フィールド)が集まって行(レコード)を形成し、これが集まってテーブルとなります。
「bookinfo」を参考にすると、「isbn」「title」「price」がそれぞれフィールドを表し、これが集まって1件のレコードとなり、さらにレコードの集まりがテーブル「bookinfo」となります。

リレーショナルデータベースの基本概念 - 参考ホームページより

横文字で並んでいてややこしいですが、
1. どんなデータが格納されるのか定義され
2. 縦軸に蓄積されていく
これがテーブルの考え方
になります。

え、データの専門家だけのルールじゃないの?
一旦その考えは置いておきましょう。今の時代、誰でも仕事にデータは密接にかかわっています。
これから一生データの蓄積はこの方法で統一されるものと認識してください。

さて、皆様がいったん話を聞いていただけるところを信じて、この概念を順守することがなぜ大切なのか、ざっと説明させていただきます。

・各行に"同じ形式"でデータが蓄積されていく
どの行を参照した時にも、「何列目に何のデータが格納されているか」明確に定義されます。
データベースはシステムの定義によって蓄積ルールが決まっているため、フリーダムな蓄積はされ難い構造になっています。

・各列に"同じデータ型"のデータが格納される
データ型が統一されている場合、例えば「数字」であれば計算処理を適用することが可能
です。また条件によって一定の範囲内の数字を抽出するなどの機能が使えます。

・システムのデータベースもこのルールに準拠している
ERP(統合基幹業務システム)をはじめとして、仕事で使うシステムのデータベースはこのルールに準拠されています。
つまり何らかしらでデータ連携をする場合、機械判読可能なデータでストックされていれば、横断的に、かつスムーズにデータ連携が可能になります。

と、ここまでなんとなくシステムに関連してそうなことをざっと理解してきましたね。

でも、この情報ってどうして誰もが理解する必要があるんだろうと思われると思います。
なんで機械判読可能なデータを理解する必要があるのか、それは世の中一般で使われているMicrosoft ExcelやGoogle スプレッドシートを正しく、効率的に使うために非常に大切な考え方になるためです。
というわけで次のステップです。


- Point2:Excelでこのルールに則って運用した場合のメリットを理解する

さて、もはや誰もが使っている表計算ソフト、Excelでこのルールに準拠することの大切さについて触れてみたいと思います。

そもそも何故この形式でデータを蓄積する必要があるのか、ということについては触れてきましたが、ヒトやビジネスシーンで欲しい表の形式は多様です

ヒトによってデータの見方の好みは異なります。
総務省 統計局のデータ一つとってもこんな形の集計表になっているので、なぜこのようなルールを発表するのか疑問に持たれるのではないでしょうか。

総務省 統計局 1.高齢者の人口

一見「セルの結合をしていないか」に反しているように見えますね。
ちなみに政府統計の総合窓口「e-Stat」では日本の様々なデータが掲載されていますので、データサイエンスやBI(ビジネスインテリジェンス)の練習用のデータを探している方はコチラに公開されているデータも練習用としていいと思います。

さて、本題に戻ると画像のデータだと「ルールに準拠していないではないか」という疑問が生まれます。
これついて言及すると

これは、閲覧用のデータだからです。
蓄積用の元データは別にあります。

これは本当にものすごく有益な情報です。

閲覧用データの元データには数字が縦軸で別に蓄積されています。

参考に政府統計の総合窓口「e-Stat」を見てみましょう。

e-Stat - 人口推計

データセットが記載されていますが、EXCELでも「EXCEL」と「EXCEL 閲覧用」に区別して表示されています。
少し中身を覗いてみましょう。

ダウンロードした「EXCEL」
ダウンロードした「EXCEL 閲覧用」

筆者はこのデータの作者ではないので推論の域を出ないことになりますが、
大本のデータは「機械判読可能なデータ」に則ってデータを蓄積し、
閲覧用のデータは「関数やExcelの機能」を使って作成していると思われます。

くり返しになりますが、蓄積するためのデータ閲覧用のデータは全く別物です。

こういうの、誰からも教えてもらえないですよね
私はAccessの練習をしているときに、この形式でデータとビューを分ければ業務効率化ができるなって思って徹底しています。

ちなみに「閲覧用のデータの作成」については、元データの指定をすれば一発で終える効率化を仕込んでいるはずです。
「閲覧用データ」の作成は一撃で作れる機能がExcelという表計算ソフトでも沢山あります。

このnoteを読んでいる各位は、ぜひ"機械判読可能なデータ"のルールを覚えて、今から徹底してみてください。
このルールを覚えない場合、Excelだけではなく、ローコード/ノーコードアプリの作成、BI(ビジネスインテリジェンス)の活用といった話題のDXも一切貢献できません

ちなみにこういったデータのルールや考え方はMicrosoftのlearnを中心に世の中に沢山出回っています。

ビジネスパーソンたるもの、わからないことは専門家に任せればいいという他人行儀な考え方はやめていきたいものですね…。

内容としては、
・機械判読可能なデータの概要
・このルールが必要なルール
少しご理解いただけたと思います。

「e-Stat」も明確に"元データ"と"閲覧用データ"に区分けしていることを知ることができたので普通に楽しかったです。
満足しました。

このルールに則るとどのようなメリットがあるか知りたい各位、先ほどダウンロードした「EXCELデータのセルA4:I100」を選択して、リボンの [ 挿入 ] > [ ピボットテーブル ]をクリックしてみてください。

それらしい集計表が数秒で出来ます。

筆者が3分くらいで作った集計表

ちなみにこのルールの価値が発揮されるのは、ExcelしかりExcelをソースにしたBIを使ってみたりやローコード/ノーコードアプリの作成をしてみると重要性がよくわかります
この形式でデータが揃っていないと機能が使えないためです。

機能が使える・使えないでは業務効率・自身のストレスに影響してきますのでぜひ守ってくださいね。

■実際に徹底するコツ

ないです。縦軸に同じルールに沿って入力するに過ぎません。
強いて上げるのであれば「データの入力規則」を使うと自分だけの作業でも、共同作業でもバラつきが少なくなるのではないでしょうか。

そもそもデータ収集も自動化する仕組みづくりが大切な時代ですからね。
興味のある方は自動化に関する本やテクニックをぜひUdemyやYouTube、Twitterのご親切なアカウント、勉強会コミュニティ、Kindle Unlimitedでゴロゴロ転がっている本を読んで、実践していけばいいと思います。

Prime Readingの範囲内でも有益な本はありますし、図書館に行けば参考書もタダで借りれます。実践ベースで技術書は読み進めるものですので、大切なことは勉強時間を毎日30分ずつでもとって実践してみることです。

慣れてくると、BI(ビジネスインテリジェンス)やローコード/ノーコードアプリ開発にも役立ち、市民開発者として新たなキャリアを開拓できますので、騙されたと思ってやってみてください。

そういう自己学習、大切な時代ですからね、令和って。

というわけで、大尊敬しているちょこさん構文を大幅にトレースしたデータとの付き合い方解説noteでした!
やろうと思えば誰でもできる再現性の高いやり方です。
とりあえずまずは徹底しましょう。


■オススメの本

なぜデータ活用がこれから大切なのか、企業のケーススタディ

"機械判読可能なデータ"ルールをガッツリ守れば使える強力なExcelの機能


ではまた次回!
※ちょこさん構文オマージュは今回限りで!

カンパはちょこさんにしてくださる方はしてください。
それ以上にオマージュもとのちょこさんのnoteの有益性が高すぎるのでぜひ!

この記事が気に入ったらサポートをしてみませんか?