LLMを使ったウェブクローラーの開発

お久しぶりです。株式会社インスパイアサーチの加藤翼です。
夏も終わりそうですね。

只今、インスパイアサーチではLLMを使ったウェブクローラーの開発をしています。どのようにかと言うと、単語や文章をLLMにAPI経由でクエリで投げて、新しいコンセプトを取得します。弊社の開発環境ではLLMを動かすためにGeForce RTX 3090を使っています。(秋葉原で買ってきました)
この新しいコンセプトと言うのは関連している単語や文章の事を指し、今まではWebサイトをクロールしたものをデータベース内で検索したりする必要がありましたが、LLM内の知識(パラメータ)で完結します。
この利点としましては、ウェブに情報を取りに行くコスト、セキュリティ面または秘匿性の課題が解決される点です。

例として、研究開発をしている会社さんがあるトピックについて沢山ウェブデータをクロールしたい場合などに、AやBの検索エンジン会社さんに直接クエリを投げてからクロールしたりする必要がなくなる点です。競争面でやはり他社に知られたくない情報はあるはずなので。

まず、クロールしたい対象のコンセプトを広げてから大きな縄でウェブクローラーに投げて行くイメージですね。たとえ、ウェブクローラーがシードURL(クロールを始めるURL)を取りに行く場合に第三者の検索エンジンに問い合わせる必要があったとしても、概念が抽象化される訳です。
只今GitHubに未完成のコードを載せています。もし良かったら見てみて下さい。

加藤翼 8/21/2023
株式会社インスパイアサーチ
代表取締役
https://www.inspiresearch.io

この記事が気に入ったらサポートをしてみませんか?