見出し画像

LLMで約3.76億円のコスト削減を実現した話

SalesNowという会社でプロダクトのPMをしている、石井(@yusuke_ishi_pdm)といいます!

私たちは「誰もが活躍できる仕組みをつくる。」というミッションを掲げ、アナログで非効率なセールスの働き方を変えるべく、日本国内全ての約540万社の情報を確認できる企業データベース『SalesNow(セールスナウ)』を運営しています。

今回は膨大な法人データベースを持つ当社で取り組んだLLMの失敗事例と活用事例、それによる成果について共有できたらと思います。
少しでもお役に立てたら幸いです!
(感想をXでポストしてくれると嬉しいです。メンションも嬉しいです)

こんな人に読んでほしい
・LLMをビジネス価値に繋げたい方
・企業データに興味がある方
・データエンジニア、データサイエンティストといったデータ領域に興味のある方


今回のプロジェクトで実現したい事

今回のプロジェクトでは日本国内に存在する約540万社を対象に、それぞれの企業の特徴を一目で把握できる文章を生成することを目指しました。この文章の目的はセールス担当の方が素早く企業の概要を理解し、効率的に営業活動を行えるようにするための補助として利用してもらうことになります。

企業説明文の例


検証①:企業HPのブラウジングにより文章を作成

まず最初に取り組んだのは、各企業のHPをChatGPTにてブラウジングし、会社説明文を作成することでした。ChatGPTのブラウジング機能とは、インターネット検索から最新の情報を取得し、それを回答に組み込むことができる機能で、今回はプロンプトの時点で会社HPを読み込ませて文章を作成することを検証しました。
また今回は生成された文章を別のLLMに評価させるオペレーションも組み込みました。具体的には、データベースに格納された企業データからLLMを用いて会社概要文を生成し、その品質を別のLLMに自動評価させるプロセスも取り入れました。
※文章生成にはChatGPTを、品質評価にはGoogle PaLM2を使用しました

LLMで生成した文章をLLMで評価させるフロー

しかし検証①を行った所、渡したURLだけでなく、URL内に記載のある別のページのURLを読み込んでしまったり、情報を拾う場所が無駄に広がってしまうことがあり、企業概要以外の意図しない情報も概要文に入ってしまう形となりました。
結論として、会社HPをブラウジングさせて会社説明文を作成できたとしても、不要な情報などが入ってしまい商用利用できるような品質の水準とはなりませんでした。

検証②:会社HPのテキストデータを読み込ませて、文章を生成

検証①の反省を活かして、ブラウジング機能は使わずに会社HP内のテキストデータ(bodyタグ)を事前に取得し、それをプロンプトで読み込ませるアプローチを検証しました。このテキストデータ(bodyタグ)とは会社HP内に記載のある文字列のことで下記の画像のようなものになります。また生成後は検証①と同じく別のLLMに自動評価させるプロセスを取り入れました。

テキストデータ(bodyタグ)の一例

ただこちらの検証②のアプローチのデメリットとしてはLLM内にプロンプトで利用する「入力トークン」が膨大になりすぎて、結果としてコストがかかりすぎてしまうというものでした。
トークンとは、自然言語処理に使用される単語の断片を指すもので英語のテキストの場合、1 トークンは約4文字または0.75単語くらいの量になります。大体のHPの文字数は大体1ページにつき約1500~3000文字が目安で会社HP内には複数ページ存在しています。
最新モデルでのコストは下記の画像の内容になります。また検証を進めていた当時はさらにコストがかかってしまう状況でした。
結果として、検証②のやり方では膨大な数の企業に対しての文章を作成するにはコストがかかりすぎてしまい、現実的ではないという形になりました。

最新モデルのコスト(2024年6月時点)

検証③:弊社DBにある「会社情報」を元に作成

過去の検証を通して直面した課題は、ブラウジング機能だけの利用では意図しないデータが入ってしまったり、また必要な情報を全て読み込ませてしまうとトークン量が膨大になりコストが嵩んでしまうという点でした。

そこで検証③では、LLMに読み込ませるデータを自社が保有する企業データを活用する方針に変更しました。この保有するデータとは各企業の設立年、本社所在地、業界、事業内容などがあたります。もちろんデータ量は膨大ですが、HPのテキストを全て読み込ませるよりはトークン数を抑えられ、データソースを限定することにより誤った固有名詞が入ることは無くなりました。
また以下の条件を加えることで、より精度の高い文章を生成できるようにしました。

  • 読み込ませるデータ量の下限を設ける:データ量が少ないと、内容が薄く無価値な文章になってしまうため、一定量以上のデータをLLMに渡すようにしました。

  • 生成する文章の量に下限と上限を設ける:情報量が豊富でも、文章が不用意に長くなったり、逆に内容が少なくなったりしないように、適切な長さの文章を生成する基準を設定しました。

成果:3.76億円のコスト削減に成功

結果として本LLMプロジェクトでは「1,001,719社」の企業概要文作成に成功し、約3.76億円のコスト削減に成功しました。かかったLLMのAPIコストは僅か8万円で、人件費と比較すると非常に安価におさえることができました。

「削減コスト」は人力で対応した場合のコストからLLMのAPIコストを差し引いた数値になります。詳しい計算式は下記に記載しました。

■人力でやった場合のコスト
1社あたり概要分生成に10分+評価に5分を使い、時給1,500円とすると
1,001,719社×1,500円×(10分+5分)÷60分(分を時間に変換)=375,644,625

■本プロジェクトでかかったLLMのAPIコスト
API料金が$597 (≒¥89,598)
1,001,719社(1件あたり、約0.39円)

■削減コスト
削減コスト=375,644,625-89,598=375,555,0273.76億円

最後に

LLMの活用を0から進めていくことも大事ですが、既に精緻で膨大なデータを保有していると掛け合わせでより効果的な活用ができるようになると感じたプロジェクトでした。

LLMの活用やデータを軸としたプロダクト開発に興味のある方は、ぜひコメントでご意見やご感想をお寄せください。
SalesNowの開発組織は、最新のデータベース技術を積極的に導入し、技術を通じてBtoBセールスにおける課題を解消し、社会の生産性を大幅に向上させることに取り組んでいます。

プロダクトの成長に伴い、データベースの中長期的な競争優位性の構築や、開発プロセスの継続的な改善、組織力の向上を目指して、ソフトウェアエンジニア、データエンジニア、データサイエンティストを積極的に採用しています!
https://open.talentio.com/r/1/c/quickwork/homes/4033

私のXへのDMでも、以下の求人からの面談でも構いませんのでぜひ気軽にお話ししましょう!
⇩石井のX
https://twitter.com/yusuke_ishi_pdm


ぜひ、直近で公開された当社代表のnoteもご覧ください。


この記事が気に入ったらサポートをしてみませんか?