国会会議録kagemitsu

国会会議録探索アプリ公開中 https://diet-kagemitsu-0506-5…

国会会議録kagemitsu

国会会議録探索アプリ公開中 https://diet-kagemitsu-0506-56a8a561a89f.herokuapp.com/

最近の記事

Diet GPT 202403 リリースしてみた

国会会議録のテキストデータをもとにカスタムGPTを作成してみた。ChatGPT-4oの性能やいかに。 https://chatgpt.com/g/g-85xwE4935-japan-diet-gpt-202403/c/cfaa2b93-5cc3-4062-95e6-3468c8add055 手順 1.テキストデータを用意する。会議録apiで取得したものをcolaboratoryで加工する。3月のデータで約15MBあり、これを8等分する。カスタムGPTに入力するデータにはお

    • 英国議会情報 Hansard

      英国議会の情報取得を試みる。 https://hansard.parliament.uk/ 1.Hansard使用感調査 アプリのクオリティは日本の検索システムと比べるとはるかに高い。アイディアは私のものと大差ないが大規模検索はうらやましい。日本語で単語検索を効率的に実行する場合事前に検索結果を集計しておくのがいいか。形態素解析で抽出した単語に対して発言IDのリストを取得する。発言IDには日にち、委員会、号、回次の情報があるのでこれらによるソートは容易。発言者の情報は発

      • 国会カレンダー ジャポニカ米

        会議録情報 : 213 参議院 農林水産委員会 第3号 2024-03-22 米の輸出産業において長粒種米の開発を進めていただきたい、という松野明美氏の指摘でした。インディカ米の価格競争は厳しく、日本が米の輸出するとなると冷めてもおいしいジャポニカ米がよかろうという農産局長の回答。

        • 国会会議録アプリ 更新 v3

          こんにちは、kagemitsuです。以下のことを更新しました。 1.日にち単位データの追加 2.キー操作の追加 3.ネットワーク図でエッジ(単語をつなぐ線)が多すぎるものをフィルター 4.その他 ウェブアプリurl : https://diet-kagemitsu-0506-56a8a561a89f.herokuapp.com/ 1.カレンダーの日にちを選択すると、その日の会議録全体を入力データとした単語表、ネットワーク図を表示する。キー操作の追加と合わせて内容をより一覧

        Diet GPT 202403 リリースしてみた

          国会会議録アプリ 更新 v2

          こんにちは、kagemitsuです。 作成中の国会アプリの更新ノートです。 1.レイアウトの変更 2.ネットワーク図の実装 3.その他 1.ページスクロールしなくていいように工夫しました。カレンダーと委員会リストを左にグリッド3つ分、単語表を右にグリッド9つ分にし、単語表とネットワーク図はボタンでスイッチできるようにしました。 会議録表示ページは、グリッド6で半々にしてみました。 2.ネットワーク図の質をある程度保ちつつ量産できるようになったので、単語表と合わせて表示す

          国会会議録アプリ 更新 v2

          国会会議録 アプリ使ってみた 一年前の今日について

          こんにちは、kagemitsuです。 作成中のFlaskアプリが充実してきたので、試しに使ってみました。テーマは一年前の今日ということで、2023年5月10日の国会の様子を見てみます。 上から順に。 外務委員会ではまずコーヒーが目についたので、単語表、ネットワーク図の単語をクリックし、会議録を覗いてみます。 他政党の委員もこの後質問していました。 クロマグロも気になる。 厚生労働委員会 新型コロナの話題が中心ですが、コロナ以外の医療もテーマに上がっていたもよう。 他

          国会会議録 アプリ使ってみた 一年前の今日について

          国会会議録 共起単語ネットワーク図の実装

          ネットワーク図の課題を解決した 共起単語ネットワーク図の課題として、テキストサイズとノードサイズの調整、ノード(表示される単語)の重複があった。 前者は以下の画像のように、min_edge_frequencyを降順に試し、ノードサイズが126を超えた場合テキストサイズを5%ずつ削っていくことで解決しました。ノードサイズは関数の戻り値として与えられないので、contextlibというライブラリを使って出力された値を取得。 後者は、共起の範囲を、センテンス単位から発言単位にする

          国会会議録 共起単語ネットワーク図の実装

          国会会議録 共起ネットワーク図 レイアウト調整

          nlplotのgithubドキュメントを参照する。 nlplot.pyを除くとこのようになっていた。node_sizeは'adjacency_frequency', 'betweeness_centrality', 'clustering_coefficient'の3種、レイアウトはnetworkxで指定できるらしい。それぞれ試してみた。 # ネットワーク図の描画# select of node_df -> ['adjacency_frequency', 'between

          国会会議録 共起ネットワーク図 レイアウト調整

          国会会議録 進捗メモ

          1.Flaskウェブアプリの作成と、Herokuへのデプロイ 完了 2.Flaskアプリへのデータ補充 GCSにあるデータをColaboratoryで加工し、Driveに保存する。保存したデータをローカルや、Herokuにアップロードする。Driveに保存するとき、ファイル数が多すぎることが原因のエラーが発生する。これはエラー分岐すればいい。Herokuへのアップロードはファイルサイズ上限にかかりそうだが、有料のデータベースも使いたくないので悩ましい。 3.アプリのモバイ

          国会会議録 進捗メモ

          国会会議録 ダブルクリックによる同一単語ハイライト機能の実装

          先日、単語表をクリックすると会議録内の同単語がハイライトされる機能を実装しました。これは、会議録をより見やすくするための機能です。同様の目的で、ダブルクリックによりテキストを選択した時、同発言内の選択したテキストすべてがハイライトされる機能を実装しました。 この画像では、左の単語表から”能登”を選択し、右の会議録において”能登”が緑にハイライトされています。さらに、”地震”をダブルクリックしたことで、後藤茂之氏の発言内の”地震”すべてが紫にハイライトされています。 どこま

          国会会議録 ダブルクリックによる同一単語ハイライト機能の実装

          国会会議録 国会議員の顔写真の取得とウェブアプリでの表示

          国会議員の名前と政党カラーの間に顔写真を設置したい。 手順 1.スクレイピングで国会議員の顔写真を取得する。衆議院、参議院のホームぺージに一覧があるので、imgタグを指定してがんばって取得した 衆議院 : https://www.shugiin.go.jp/internet/itdb_annai.nsf/html/statics/syu/1giin.htm 参議院 : https://www.sangiin.go.jp/japanese/joho1/kousei/giin/

          国会会議録 国会議員の顔写真の取得とウェブアプリでの表示

          国会会議録 ウェブアプリの試作

          最近作成した単語表を使うと会議録の探索がより平易になると思い、実装してみました。 カレンダーページ 1.カレンダーを表示する。発言文字数の多寡を赤色の濃淡で表現する 2.カレンダー内のラベルをクリックすると、該当日の委員会リストが右側に列挙される 3.委員会リストの委員会をクリックすると、下方にカテゴリー別単語表が表示される 4.単語表の単語をクリックすると、その単語を保持して会議録表示ページに遷移する 会議録表示ページ 1.保持した単語をハイライトし、最初のハイライトに

          国会会議録 ウェブアプリの試作

          国会会議録 単語表をplotlyで出力する

          成果物がこちら。 今までcolaboratory上で出力したものをスクショしnoteに貼っていたが、単語表を画像として出力できるとその作業が楽になる。また、ウェブアプリなどで表示する場合にもきっと便利。 直面した課題 1.セル、文字、出力のサイズ 2.セルの色付け 3.画像の保存 kaleido 4.保存した画像で日本語を表示する 以下詳細。 top_words_ent_dfをいつも通り作成する。 1.セル、文字、出力のサイズ はじめにセルと文字のサイズを決め、カラムと

          国会会議録 単語表をplotlyで出力する

          国会会議録 2024-03-12 まとめ

          今まで作成したグラフをまとめてみた。 内容だと、花粉、ジビエ、ライフサイエンスなどの単語が気になりました。 委員会別 1.法務委員会 2.文教科学委員会 3.内閣委員会 4.総務委員会 5.財政金融委員会 6.国土交通委員会 7.厚生労働委員会 8.経済産業委員会 9.農林水産委員会 10.環境委員会 11.安全保障委員会 共起単語ネットワークとツリー構造の要約があればもっとわかる。 ウェブアプリ上で表示できるようにしたい。 おわり

          国会会議録 2024-03-12 まとめ

          国会会議録 マトリックス表示用の変数選定

          この画像のように、ある変数を2つ選ぶか作成し、主に国会議員をマトリックス表示したい。 マトリックス描画で大事なこと 1.二つの変数が独立している(マトリックスにしたい) 2.良い感じに分布している 3.変数の意味がわかる(直感的に理解したい) 以下が変数の候補。 1.依存関係タグ(dep) 2.品詞タグ(pos) 3.Entity Type(ent_type) 4.依存関係の長さ、深さ(token_index, head_index) 5.情報量(エントロピー)、TTR(語

          国会会議録 マトリックス表示用の変数選定

          Entity Typeの選定と集約 1

          ent_typeはトークンのカテゴリーのようなものらしい。 単語検索だけでなくカテゴリー検索ができるようになったり、発言者がどのようなカテゴリーの発言が多いかを可視化できるかもしれない。可能性を感じる。 今回は、ent_typeを選定か集約し、より単語表を見やすくしたい。 選定、集約は目検討で行う。 categoryDict = { # 土地 'Land': [ 'Province', 'Country', 'City

          Entity Typeの選定と集約 1