見出し画像

日本に来る観光客で一番多い国はどこ?!/文系卒のデータサイエンス「超」基礎練習<その1>

まず初めに、私がデータサイエンスを体験して基礎を知るために、著書に出てくるグラフを真似して作成し、その流れを公開するということにご快諾をいただいた、データサイエンス「超」入門の著者である松本健太郎さん、本当にありがとうございます。まだまだ始めたばかりですが、おかげさまですでに多くの気づきを得ることができています。本当に感謝しています。

ど文系ど素人の拙い練習ですが、ご一読いただく皆さんも温かい目で見守っていただければ幸いです。

それでは、データサイエンス「超」入門より、

1 本日の練習タイトル

01「世界から愛される国、日本」に外国人はどれくらい訪れているのか。

2 練習タイトルの要旨

書店には”日本賛美”本が溢れていて、訪日外国人の数も急激に伸びています。書店には、「ハーバードで一番人気の国・日本」や、「日本はなぜ世界でいちばん人気があるのか」などのタイトルが並んでいます。世界から愛される日本だから観光客数が増加しているのか、その関連性の実態に迫った章です。

3 世界から愛される日本だから観光客数が増加している、の実態とは

本の中では、まずは肌感覚で観光客数の多い国と言えば韓国ということで、韓国人から見た日本に対するイメージを調べています。実際に韓国人の訪日は増えています(後段でお見せします。)ので、韓国人の多くが日本を好印象に捉えていれば、世界から愛されている日本だから観光客数が増加している、のファーストステップはひとまずクリアできそうです。
そこで、特定非営利活動法人言論NPO及び東アジア研究院による、第1回~第5回の日韓共同世論調査、日韓世論比較分析調査を見ていくことになっています。
web上に、pdfで公開されています。
www.genron-npo.net/pdf/forum_1305.pdf

画像3

画像4

出典:特定非営利活動法人言論NPO及び東アジア研究院(調査結果の表紙及び8項の一部を抜粋しています。)

当たり前と言えば当たり前なのですが、元データはこのように調査回(または調査年)ごとにまとめられているので、つど該当回(または年)の資料を開いて数字を拾っていくしかありません。
例えば、上記の第1回世論調査(2013年)でいうと、韓国人の日本に対する印象(右側の円グラフ)の割合は、良い印象(AとBの合計)12%、どちらとも言えない(EとFの合計)11%、良くない印象(CとDの合計)77%、と言った感じです。
これらの割合を第5回(2017年)まで拾い、エクセルに落として下図のように100%の積み上げ棒グラフで表します。余談ですが、この100%の積み上げ棒グラフは項目(ここでは、良くない印象・どちらともいえない・良い印象)ごとの構成比を表すときにもってこいのグラフだそうです。←「世界のトップを10秒で納得させる資料の法則」著者である三木雄信さんの教えです。

できたグラフはこんな感じです。(本の中では日本世論もグラフ化されていますが、ここでは話の文脈上、韓国世論のみにしています。)

0101グラフ

韓国人から見た日本は年を追うごとに徐々に良い印象を持つ割合が少しずつ増えていっているようです。

ちなみに、作成動画も作ってみました。わたしと同じくデータサイエンス初心者の方には、こんな作業をしてるんだ、へぇ~。くらいでご覧いただければと思います。

(作成動画その1)

話を戻して、韓国人から見た日本の印象は徐々にですが良い印象が増えてきています。では、これだけで「世界から愛される日本だから訪日外国人観光客が増えた!」と言えるでしょうか。この結論づけはまだ早そうです。なぜなら、他の国をまだ調べていないからです。なので、韓国人以外の外国人がどれだけ日本に押し寄せているのか、ということを調べています。そこで、次のデータです。出典は、「日本政府観光客(JNTO)」による「国籍別訪日外客数」です。https://www.jnto.go.jp/jpn/statistics/since2003_visitor_arrivals.pdf

0102データ

出典:日本政府観光客(JNTO)「国籍/月別 訪日外客数(2003年~2020年)」の2003年の一部を抜粋しています。

このような表が見れますので、2003年〜2017年までの大陸ごとの訪日外客数の総数を拾っていきます。これは私見ですが、対象が多い場合はより大きな分類から徐々に小さな分類へ絞って行った方がいいようです。今回の場合は、大陸→地域→国の順です。ですので、この表では切れていますが、アジア計、ヨーロッパ計、アフリカ計、北アメリカ計、・・・無国籍・その他計という括りで年間の総数を拾い集めます。できたグラフがこちらです。ちなみに、こちらのグラフはよく見る、一般的な積み上げ棒グラフだと思います。

0102グラフ

無国籍・その他、南アメリカ、そしてアフリカは人数が他と比べて少なかったのでまとめて「黒」に統一して色分けしました。
グラフを見ると、アジアからの訪日外国人が圧倒的に多いことがわかります。世界から愛される日本だから観光客数が増えているというのが正ならば、ヨーロッパやアメリカからの観光客数も増えていて良いはずなのに、そうはなっていないのはどういうことでしょうか。ここで、もしかしたらその仮説は誤っているかもしれないと、ということが少しわかってきました。

(作成動画その2)

本の中では、急増しているアジアからの訪日外国人の内訳を見ています。出典は、前述と同じく「日本政府観光客(JNTO)」による「国籍別訪日外客数」です。2003年のデータでは、アジア圏は13ヶ国に分かれているので、グラフを見やすくするために、「上位4ヶ国」と「その他」の5つに分けてあります。
グラフの見やすさを考えるのも重要なようです。・・・となると、「その他」は13-4=9ヶ国分の合計数となるから自分で15年分計算しないといけません。。。エクセルに計算してもらいながら、できたグラフが下記です。

0103グラフ

グラフを見ていただくとわかるように、アジアの中で旅行者数が増えているのは、韓国と中国と台湾のようです。韓国は先ほどのとおり世論的には日本への良い印象は増えているとは言っても割合は多くはなかったですし、中国も(こちらも先ほど登場した言論NPOさんの日中共同世論調査結果を見ても)日本に対して良い印象を持っている方の割合は2017年時点で約30%でした。このことからも、「世界から愛される日本だから訪日外国人観光客数が増加している」とは言えず、他の理由に起因してそうだ。と結論づけることができます。


(作成動画その3)

4 学んだこと

・まずは肌感覚で感じることから調べてみても良い。
 →外国から来る旅行者で多そうなのは韓国だな、韓国から調べてみよう、みたいな。

・データサイエンスは華々しく思えるが地味な作業が多くて根気がいる。
 →データサイエンティストの方に「調べといて!」なんて軽々しく言っちゃダメですね。膨大な資料からの数字の拾い上げや、グラフの見やすさへすごく気の遣う仕事、そんな気がしました。

・一方で、データサイエンスにはまりそうです。
 →本当に地道に数字を拾い上げたりしないといけないのですが、グラフ化して可視化したものを客観的に見て新たな発見があったりすると、視界が一気にパーッと拓ける感じを覚えます。

・今のところ実感できたデータサイエンスの流れは以下です。
①ネット上に、あまたあるオープンデータの中で最適なものを探す。なければ書物から見つける。
②中には膨大に項数のある資料から必要な数字を探し出す。
③数字を抜き出して最適なグラフで表現する。
④客観視して解釈する。
わたしはいま①と②の作業は、本から出典をカンニングしている状態なので一瞬で分かりますが、これを1からやろうと思ったら大変です。
③と④の練習をやりながら、世の中にどんなオープンデータがあるのかを知りつつ、①と②の作業にも慣れていきたいと思っています。
本当は、①の前にあるはずの「疑問を持つ」という練習もいると思いますが、ここは日常的に意識して訓練していく必要がありそうです。

5 次回の練習は?

次回は、「世界でいちばん人気のある国日本」は、観光客到着数でいうと世界で何番目なのか、や、世界の国別の観光客数やその内訳を見ていきたいと思います。
グラフも徐々に難しくなっていきそうです。

これからもよろしくお願いします。

では、またー。


この記事が気に入ったらサポートをしてみませんか?