見出し画像

ChatGPT + Embeddings + Google Custom Search APIで特定テーマをキュレーション「蒲蒲線」 - 検索エンジン作成編

先日作った ChatGPT + Embeddings の派生形です。

この時は自分が管理している、かつ更新されることがないデータベースを取り扱いましたが、今回は市中のデータを元にすることを考えてみます。

ネット上のデータ収集にはやっぱりグーグル検索が強力です。
今回は以下の手順でデータ収集してみます。

  1. 「プログラム可能な検索エンジン」で検索エンジンを作成

  2. Custom Search API で作成した検索エンジンを使って特定キーワードの検索結果を取得

  3. 検索結果のURLをスクレイピングしてデータ収集

  4. 収集したデータをembeddingしてデータベースに格納(ここ以後、先日と同じ処理)

蒲蒲線とは

いま僕の中で話題の「蒲蒲線(かまかません)」についてデータ収集をしてChatGPTに食べさせてみたいと思います。

語感がおいしそうですが食べ物ではありません。先にデータ収集の成果をお見せしましょう。

Q: 蒲蒲線とはなんですか?詳しく教えてください。

A:蒲蒲線は、東京都大田区を東西に横断する鉄道構想で、約800m離れている東急・JR蒲田駅と京急蒲田駅をつなぐとともに、東急多摩川線と京急空港線の連絡を図り、東急線方面から羽田空港へのアクセス改善を図る計画です。最近は「新空港線」とも呼ばれています。

構想が浮上したのは1987年頃で、2000年1月27日には、運輸大臣の諮問機関・運輸政策審議会がまとめた東京圏の鉄道整備基本計画(運政審18号答申)において、蒲田~京急蒲田~大鳥居間が「目標年次(2015年)までに整備着手することが適当である路線」と位置づけられました。

しかし、2015年までに着手することはできず、大田区は蒲蒲線の実現に向け、引き続き活発な運動を展開しています。新しい答申が、まもなく国土交通大臣の諮問機関・交通政策審議会(交政審)から出されるため、この新答申に蒲蒲線が盛り込まれるかどうかが、目下の焦点の一つになっています。

また、蒲田~京急蒲田~羽田空港間を結ぶ鉄道が考えられたのは、蒲蒲線が初めてではなく、戦前にも「羽田航空電鉄」と呼ばれる鉄道、というよりモノレールが計画されたことがあります。

参照:
戦前にも練られていた「蒲蒲線」構想の全貌 モノレールで蒲田と羽田を結ぼうとしていた | 都会に眠る幻の鉄路 | 東洋経済オンライン https://toyokeizai.net/articles/-/104361?display=b
戦前にも練られていた「蒲蒲線」構想の全貌 モノレールで蒲田と羽田を結ぼうとしていた | 都会に眠る幻の鉄路 | 東洋経済オンライン https://toyokeizai.net/articles/-/104361
昔あった「蒲蒲線」!? 廃止された短絡線5選 実はつながっていた私鉄と国鉄&私鉄どうし | 乗りものニュース- (3) https://trafficnews.jp/post/113298/3

ChatGPT4

なかなか良くできています。モノレールの計画が戦前にあったとは初めて知りました。

「プログラム可能な検索エンジン」設定のポイント

今回はグーグルの「プログラム可能な検索エンジン」を利用して情報収集します。

設定のポイントは「検索するサイト」です。

「蒲蒲線」は大田区と東急による事業です。検索するサイトとして東急と大田区のオフィシャルサイト、くわえて鉄道に関するニュースサイトを選びました。

ここで情報源を決めることになりますので、一番目利きが必要なところです。

プログラム可能な検索エンジンのサイト設定

今回は「除外するサイト」は使っていませんが、とても有効に使える場合があります。以下のようなカテゴリごとのアーカイブページを除外すると検索結果にはコンテンツのあるページのみにできます。

以下のように * を使って「除外するサイト」に設定するとすべてのカテゴリページを除外することができます。

*trafficnews.jp/category/*

アーカイブページはキーワードが豊富に含まれSEOには有効。検索結果にしばしば出てきますが、コンテンツは含まれないので除外したいところです。

設定が終わったら「公開URL」から動作確認します。OKならば検索エンジンIDを控えておきます。のちほどAPIの設定に使用します。

プログラム可能な検索エンジンの「概要」

次回はこの検索エンジンを使ってデータ収集していきます。

今回の成果をもう一つ。東急がどれぐらい「蒲蒲線」に本気なのか?

Q: 東急は蒲蒲線に対してどう考えていますか?具体的な発言を教えてください。参考記事のURLも併記してください。

A: 東急電鉄の髙橋和夫社長は、「将来の羽田のキャパシティを考えるとJRさんだけでは足りず、複数の交通手段を存在させる必要がある」と発言し、蒲蒲線の重要性を強調しています。また、「今のところは、いったん乗り換えていただく」と述べており、東急と京急の直通には軌間(線路の幅)が異なるなどの課題があることを認識しています。参考記事:https://toyokeizai.net/articles/-/234008?page=4

参照:
都心から羽田直結の「蒲蒲線」の問題点。東急多摩川線は東横線に乗り入れられるのか?京急空港線は蒲田地下駅に乗り入れられるのか? | タビリス https://tabiris.com/archives/kamakamasen/
一歩前進、東急・京急接続「蒲蒲線」何が決まったか 都と区の「費用負担割合」決着、先はまだ長い | 通勤電車 | 東洋経済オンライン https://toyokeizai.net/articles/-/596984
「羽田アクセス線」で激変、東京の鉄道勢力図 京急は本数増で対抗、東急は「蒲蒲線」に意欲 | 経営 | 東洋経済オンライン https://toyokeizai.net/articles/-/234008?page=4

ChatGPT4


この記事が気に入ったらサポートをしてみませんか?