見出し画像

[Exlcel]実際のデータをどう集計するか② 茨城県データの残念なところ

集計サンプルとして取り上げた茨城県のデータですが、集計に入る前に、このデータ自体に問題がないか、見てみます。

サンプルデータは、
茨城県ホームページ 「旅館業」 ページの下の方の「7.旅館業法に基づく許可施設一覧」にある 旅館業法に基づく許可施設 です。
以下のファイルは同じものです。


おそらく、このデータは「旅館業法システム」といったものからダウンロード(エクスポート)されたものが元になっていると思われます。
ダウンロードデータを加工してはいるものの、ちょっと残念なところがあります。



1 表頭(ヘッダー)・表側が固定されていない。

スクロールすると、表頭も表側(左側)も消えてしまいます

初期状態では、スクロールすると、表頭(ヘッダー)・表側が消えてしまいます。
「表あるある」です。
すぐに直せます(Alt → W → F→ F )。
業務でもよく見かけますが、「センスないな」って思われちゃうので、設定しておきたいものです。

2 法人の表記が統一されていない

株式会社、全角の(株)、半角の(㈱)が混在しています

これも「あるある」です。
中小企業庁から来るデータでさえ、こんな感じ(これよりもっと、いや、かなりひどい。詳細はいつか。)
具体的には
・「株式会社」と「(株)」と「㈱」など(最後は環境依存文字)
・空欄がある(例:「株式会社あいう」と「株式会社 あいう」)
など。
マエ株とアト株はしょうがないとして、表記のばらつきは誤集計の原因になりえます。
ここら辺は、入力時の問題といえます。
マエ株アト株問題含め、入力時の配慮で対応できる部分があります。
これもいずれ。

総定員数・部屋数・日付が文字列

セルの左上に緑三角が出ていれば、警告です

数値であるべき「総客室数」や「総定員」が文字列になっています。
幸い、頭に「’」(アポストロフィ)はついていません(これがあると、ちょっと面倒)。
なので、修正は簡単です(詳細は後日)。
ちなみに、「申請年月日」「許可年月日」も文字列になっています。
これ、「セルの書式設定」を「日付」にしても直らないんですよね。
ちょっと手間が必要です(詳細は後日)。
これらは、システムからのダウンロード(エクスポート)による問題かもしれません。

住所に「茨城県」があるものとないものがある

頭に「茨城県」が付いていたり、なかったり

これも「あるある」。
入力時のフォーマットで統一すべきところです。
対応は、そんなに面倒ではありません。
県名の有無より問題なのが、次です。

市町村名が括り出されていない

この手のデータの住所(所在地)は、大体、市町村名が括り出されていません(別セルになっていない。)。
市町村名が括り出されていれば、市町村別の集計はチョー簡単です。
逆にいうと、そうでなければ、結構面倒です。
対応策は、いずれお示しします。

他にも・・・

  • 名称等に半角のカタカナがある(全角と半角の混在)。

  • 住所の番地が半角と全角が混在。(コンマ入りもある!)

  • 電話番号が空白のところがある(業務上どうかと…)

など。
細かくいえば色々ありますが、でも、私の感覚からすると、
「悪くはない」。
もっとひどいもの、たくさん見ているますから。

そもそも、こういうデータをきちんとWEBに掲載している、ってところが、まず一番です。

また、データ的には

  • A列に連番が入っている

  • セルの結合がない(多分)

  • 游ゴシック(見づらい)を使っていない

など、基本的なところはクリアしています。

ということで、次回から具体的な集計に入りたいと思います。

次の記事はこちらです。
[Excel]データ集計をどう行うか? 実際の自治体データをもとに考える③ 下準備

この記事が気に入ったらサポートをしてみませんか?