アイキャッチ編集

2019-01-31 データサイエンティスト アップデートレクチャー #9 ネットワーク構造と情報拡散

2019/01/31 に開催された データサイエンティスト アップデートレクチャー #9 ネットワーク構造と情報拡散 のイベントレポートです。

●イベントのテーマ
 データサイエンティストの仕事をアップデート。Data Shipが提供するアップデート・レクチャー。今回は、東京大学の臼井翔平さんをおまねきして、「ネットワーク構造と情報拡散」をテーマに議論。

 今回はタイトルをどうするか迷いました。複雑ネットワーク、ネットワーク構造、スケールフリー、ノード、次数、マルチエージェントシミュレーション、さらには、ゲーム理論、エージェント、協調行動、空間的囚人のジレンマというキーワードにピンと来た方はお越しください。

 蛍の明滅やコオロギの鳴き声の同調など昆虫の集団で起きていた現象に端を発して、インターネットや生物の神経系、さまざまな領域の研究が行われてきました。我々の卑近なところでは、SNSによるマーケティングで人脈というネットワークが効果的に働いていることは知られたところです。インフルエンサー・マーケティングという言葉もあります。

 今回、ネットワーク構造を分析する方法を紹介していただきながら、社会性に関わるトピック(協調性やデマの拡散など)を分析した研究を紹介します!

■情報拡散と協調行動

東京大学 先端科学技術研究センター特任助教
臼井翔平さん

●先端研って知ってますか?
 東大駒場キャンパスではなく、脇にある東大駒場リサーチキャンパス。
 千里眼の近くですw

●複雑ネットワークってなに?
・若手だと数人しかやってない
・複雑ネットワークの定義は少し広い
  ノードとノード間の相互作用があれば定義できる
・交差点をノードと見れば、リンクは道路
  道路をノードと見ると全く別物
  目的に合わせて、どう捉えるかで半分くらい終わる
・よくある課題
  重要ノードは何か?道路で考えると、どの道が重要か?

●身近な複雑ネットワーク
・友人関係、ソーシャルメディア、インターネット上のネットワークなど
  website、amazonの商品とか

●複雑ネットワークってどの様に表す?
・隣接行列で表せる
・どう次元を減らして、見る化できるかを考える

●ネットワーク構造って?
・歴史
  complete graph
  lattice graph
  regular graph
  ER graph
  BA graph
  -> どんどん複雑になっている。

●ネットワークの比較
・2つのネットワークは似ていますか?
  どっちのネットワークが情報拡散しやすそう?
  などを考えたい

●ネットワーク構造を定義
・構造を表す特徴は沢山
  平均経路長、クラスタ係数、字数相関
  べき分布決定係数、モジュラリティー
・ネットワークを一意に表すセットはまだわかっていない
  最近は、NetSimile[1]が多い
・可視化は、とりあえずspring layoutでやるが 1,000ノード でぐちゃぐちゃ
  100オーダーくらいに抑える
  -> 必要ではないノードを間引いたりする
  -> タスクに対する見せ方が研究されている

●分析対象ネットワーク
・実世界
  twitter : MAU 3億人、 300億リンク
  facebook : MAU 20億人、2000億リンク
  Instagram: MAU 8億人、 800億リンク
  -> 大きすぎ

●ネットワークを縮小する
・ネットワークサンプリング
  構造が類似する部分をサンプリング
・ネットワーク生成モデル
  似た構造を持つネットワークを生成

●ネットワークサンプリング
・ランダムベースのサンプリング
  ランダムなら性質が保存できる
  でも、ランダムにサンプリングってできる?
  全体が見えない状態から、一様確率でサンプリングはできない

●一般的なクローリング手法
・幅優先探索
  取ってきたら、その左を取り続ける
・深さ優先探索

●サンプリングによる困難さ
・元ネットワークの性質を保存したネットワークは非常にむずかしい
・実ネットワークを利用した分析ではサンプリングバイアスがかかる

●ネットワークモデルってなに?
・ネットワークを作る手法
  BAモデル、WSモデル、CNNモデル
・現象をネットワークモデルの上で「解析的に」分析
  計算して作っているから解析できる

●BA Model
・優先的選択がかかる
  リンク数が多いところに優先的につないでいく
  -> これは8:2の法則とかも同じ。次数分布

●6次の隔たり
・世界中の人間は、「知り合いの知り合い」といった関係をたどっていくと
  5人の仲介者を経て、6人目でつながるという考え。
・エルデシュ・ベーコン数
  ステータスだったはずが、だいたい4パスで届いちゃうw
・facebookでも 4.8とかと言われている

●ネットワーク上で生じる現象
・情報の伝播、情報の拡散 など
  -> これって、構造の違いがどう影響する?
・独立カスケードモデル
  平均経路長、拡散率をグラフにすると
  経路長が伸びるほど拡散率は下がる
  が、構造によって癖が出る

●協調行動って知ってますか?
・囚人のジレンマ
  2人の犯罪者が、お互いに情報が得られない状態で取り調べ
  全員が自白したほうが特になる
  利己的エージェント -> ナッシュ均衡
・実際はそうならない:ネットワーク互恵
  ノード間にネットワークがあると(偏りをつくる)と協調が達成される

●Information polarization
・ネットワークがあるから起こること
・情報の分断現象
  異なる意見でグループが分かれると、敵対する側の情報が伝わらない
・ミクダス仮説
  自分が正しいと信じるのは
  相手が、自分の持っている情報を知らない
  と思い込んでいるから
・批判的な意見ばかり聞いていると正確な判断ができなくなる
  極端な意見に流されやすくなる
  民主主義の前提が崩れている

●分断はなぜ起きる?
・情報の選択的接触
・過剰な推薦システム
  みんなフィルターバブルに覆われて暮らしている
・エコーチェンバー
  自分と同じ意見の人とだけつながっている
  SNSは人類には早かった って言っている人もいる

●主張の分類
・tweetを分類してみる
  主張がはっきり言語化されていない
  皮肉の入っている
  -> むずかしい。ネットワークの力を借りよう

・二部グラフ
  ・Node Embedding
    ネットワークの構造から、ノードを特徴づける
  ・Deep walk
    時系列の動きをword2vecに
  ・LINE(Large-scale Information Network Embedding)
    隣接と1hop先で特徴をとる
  ・LINE(2nd)
    1hop先だけ見る。
    似たような人にretweetされているなら、近い。
    -> 商品同士の関係の近さとかも出せる!

・自然言語もクラスタリングできる
  選挙のクラスタ間で、療法を見れている人は殆どいない
  -> 断絶に巻き込まれてしまう

●分極が発生すると、反対側の意見に接触することはない
・分極化やエコーチェンバーの中にいないと言い切れるか?
  韓国の話とかもね。
  あなたは偏った見方になっていませんか?

●宣伝
・パワーオブネットワーク
・私のブックマーク の 複雑ネットワーク
・複雑ネットワーク 基礎から応用まで

※マルチプレックスネットワークのはなし
・人間は多層になっている
・物理, facebook, twitter, slack, LINE の複合
  データが取れないから、3年くらいで衰退してしまった
・企業の中の関係でも
  飲みに行く、行かない、オフィシャル、カジュアルなど多層

■感想

データ 面白いですね!非対称な洞察の錯覚 や 群衆の英知もしくは狂気 の根拠が聞けた気がしました。

現実にはマルチプレックスネットワークで関係がつくられているでしょうから、どこの業界でもプラットフォーマーをまたがってデータを見れないことは研究が進むに連れて、問題になりそうですね。

早くそんな問題は乗り越えて、セキュアに、全てのデータがつながった世界を見たい、としみじみ感じました。

面白い気づきを、たくさんいただけた時間でした。ありがとうございました!

この記事が参加している募集

いつも応援していただいている皆さん支えられています。