スクリーンショット_2019-02-03_7

議事録アナロジー

さて、18歳になった息子に、分かりやすく選挙を伝える手段をプログラムしたいとかきましたが、もともと作りたいと思っていたものがあります。
それは、各議員の当落と予算の関係をシミュレーションできるようにすることです。誰が当選したらどんな政策に賛成して、そんな政策がなくなって結果として何にいくらぐらい使われるようになるのかということがわかりやすく提示できるようにしたいんですね。(他にもいろいろ選挙を伝える手段はあると思いますが私はプログラマですし、個人の時間でやることなので自分がやりたいことをまずやってみたいと思います。)

シミューレーションするために何のデータがひつようでしょうか?ぱっと思いつくのが予算の内容を案件ごとにブレークダウンしてその属性、性格を数値化して 各議員の属性、性格との類似性を評価すればよいような気がします。予算、決算、議事録などは公表の義務があるので過去の実績、数値は手に入りそうです。問題は属性、性格を数値化するところです。人の手、頭でエイヤできめる方法、ソーシャルでみんなに格付けしてもらう方法なども有効だと思いますが、最初のうちは網羅性、判断のユレが問題になりそうです。予算や議事録のデータ自身から属性、性格を集められらないでしょうか、、。

唐突ですがわたしは仕事で深層学習という技術にかかわっており、その技術を適用するとデータの中の隠れた特徴、構造というのを抽出することが可能です。仕事では画像やセンサデータを中心にあつかっていますが議事録のような自然言語処理も2013年ごろから飛躍的に研究が進んでいるという状況はきいていたのでいい機会なので深層学習自然言語処理で属性、性格を数値化してみたいとおもいます。

まずは議事録データだけから、特別なラベルがなくても学習を進めることができる教師なし学習から下記のWordEmbedding, DependencyParcing等をためしていきたとおもいます。

深層学習自然言語処理 概要理解

上記を参考に最近の深層学習を自然言語処理に適用することでできることを簡単に整理します。

Word Embedding : 文章中の前後の単語から、単語をVector表現にする(教師無し)。似ている単語の抽出や単語の意味の 足し算、引き算が可能になる

Language Modeling : 文章中の単語の系列から、n番目のトークンの条件付き確率を学習する(教師無し)。文章の生成や、予測につかえる

Machine Translation : 機械翻訳 言語間の変換(教師あり)

Text Classification : 文章や単語とクラスラベルの関連度を学習する(教師あり)。Webの記事の分類や、文章の分類につかえる

Sentiment Analysis : 文章映画のランク付き評価や、5段階評価と自由コメントのアンケートなどから文章とランクの関連度を学習(教師あり)。文章から好き嫌い、賛成、反対度合い、感情を数値化できる。

Dependency Parsing : 文章の単語の依存関連、動詞、主語、形容詞がどれにかかっているかなどを学習する(教師なし)。いろいろなタスクの事前学習としてつかえる。文章から動詞の抜き出しや、特定の動詞に何の名刺の関連が深いかの分析など。

Natural Language Inference:前提と仮説の文書のペアが、正しい、矛盾、どちらともいえないというラベルがついていて文書間の関係を学習する(教師あり)



この記事が気に入ったらサポートをしてみませんか?