見出し画像

ChatGPTが日本経済に与えるインパクト

結論

現状のChatGPTを業務活用することにより、年間で約25兆円相当の労働価値を創出し、将来的には約40兆円相当まで拡大する可能性を示唆。
最も影響を受ける事務従事者においては、全業務内容の34%〜54%が半分以下の作業時間に効率化される可能性を示唆。

LLM活用による日本の労働市場へのインパクト

【注意点】

  • 2023年6月時点での検討です。

  • 「現状」で対象としている技術は、テキストのみを扱える大規模言語モデル(LLM)です。1年以内の最新の情報を持っておらず、検索による情報取得や他のアプリケーションとの連携はできない想定です。これらは「将来」実現可能という前提で検討しております。

  • 本検討には多くの技術的限界があります。詳しくは【本検討の限界】をご参照ください。

背景と目的

ChatGPTに代表されるLLM(Large Language Model:大規模言語モデル)は、2022年11月末公開後わずか5日間で100万人が利用し、世界中で爆発的に普及しています。ビジネス領域においても、幅広い産業の企業活動において圧倒的な業務効率化をもたらす可能性があります。実際、様々な研究やレポートにおいて、職業や経済へ大きな影響が試算されています。

LLM含む生成AIによって、世界で3億人分の仕事、欧米においては2/3の職業に対し1/4の作業を自動化し、世界のGDPを10年間で7%増加させ、日本においては世界で3番目に高い影響を受ける可能性がある。

 (2023/3/26) The Potentially Large Effects of Artificial Intelligence on Economic Growth.
Goldman Sachs Economics Research [1]

生成AIは、年間2.6兆ドルから4.4兆ドルの価値を追加可能と推定。これは、英国のGDP(3.1兆ドル)相当。現在、使われているソフトウェアに生成AIを組み込んだ場合の影響も含めると、この試算はおよそ2倍になるだろう。

(2023/6/14)The economic potential of generative AI: The next productivity frontier.
McKinsey & Company [2]

このように世界経済、社会、政策に顕著な影響を与える可能性が示唆されています。ただし、これらは欧米のデータを用いた検討が中心となっています。

以上の背景を鑑み、本検討の目的は、

日本の労働市場および経済に対するLLMのインパクトについて初期的な傾向を可視化することです。

次章では本検討のベースとなる論文について紹介します。

LLMの労働市場への影響に関する考察

2023年3月23日にOpenAIとペンシルベニア大学からプレプリントが報告されました。

GPTs are GPTs:An Early Look at the Labor Market Impact Potential of Large Language Models.

Eloundou, T., Manning, S., Mishkin, P., & Rock, D. (2023, March 17).  Arxiv.
https://arxiv.org/abs/2303.10130 [3]

LLMが米国の労働市場に与える潜在的な影響についての初期的な考察です。
主要な結果と解析手法の概要を解説していきます。

【多くの職業に影響を与える】

下図はLLMの職業への影響を可視化しています。
横軸は「職業を構成する業務タスクがLLMに影響を受ける割合」をあらわしています。0であれば全くLLMを活用するシーンがない職業であり、100であれば全ての業務タスクをLLMで効率化可能という解釈です。
縦軸は「横軸に該当する影響度以下である職業の割合」をあらわしています。例えば、業務の10%にLLMを活用できる職業は全職業の80%におよび、業務の50%にLLMを活用できる職業は全職業の20%という解釈です。

図1:LLMの職業への影響(引用論文[3]図3から一部データを抜粋し作図)

ここで「影響を受ける」という言葉の定義は「特定の業務タスクがLLM技術の活用により50%以上時間削減可能」となります。経済活動を占める2割の職業は、日々の半分の仕事をLLMで半減できる可能性があります。多くの職業においてLLMに奪われる仕事がありそうです。

【高所得者ほど影響大】

下図はLLMの所得への影響を可視化しています。
横軸は「年収(職業中央値)の対数」を、縦軸は「職業へのLLMの影響度」をあらわしています。結果より、年収が高い職業はLLMの影響も大きいことがわかります。ただし、11.5(約10万ドル)あたりをピークにLLMの影響は頭打ちになっています。

図2:年収と影響度の関係

この結果から、高所得層の仕事ほどChatGPTにより効率化することができるため、経済に与えるインパクトは非常に大きいことが想像できます。

【影響を受ける職業・受けない職業】

デジタル系エンジニアやアナリスト・研究者、記者や通訳者などが最も影響を受ける職業とされています。ChatGPTの特性から、テキスト・プログラミング言語やデータを扱う職種が大きな影響を受けることになります。

表1:LLMの影響を大きく受ける職業

一方で、アスリートや建設関連の専門職人など物理操作や身体を主に使う仕事は影響を全く受けないとされています。

表2:LLMの影響を全く受けない職業

【解析手法】

本論文における解析手法の手順は以下です。

  1. 職業の業務タスクを定義

  2. 影響の判定基準を定義

  3. 職業への影響度を計算

まず【1. 職業の業務タスクを定義】ですが、米国労働省が1998年から公開している職業情報データベースであるO*NET(Occupational Information Network)27.2のデータを用いています[4]。1016の職業と19358の業務タスクが収載されており、例えば、職業 "Sales Engineers"(41-9031.00)の業務タスクは以下のように定義されています。

図3:O*NET27.2のタスク定義例(一部)

ちなみにO*NET27.2における業務タスク数の職業あたりの平均は19個です。

次に【2. 影響の判定基準を定義】ですが、以下の3種類に分類しています。


業務タスクを同品質で完了する時間をLLMにより短縮できますか?
E0(影響なし):短縮できない
E1(影響あり):少なくとも50%短縮できる
E2(影響あり):機能追加により、少なくとも50%短縮できる。


ここで、E1は一般的なChatGPTを想定しており、テキストのみを扱え、1年以内の最新の情報を持っておらず、検索による情報取得や他のアプリケーションとの連携はできない想定です。E2はそれらの機能が追加された場合を想定しています(※2023年6月時点ではChatGPT Plusにおいて検索やプラグイン機能が利用可能になっていますので、ほぼ実現できる見込みですね)。実際の判定には、かなり詳細な判定基準(ルーブリック)が用いられており、論文に記載があります。

最後に【3. 職業への影響度を計算】です。1. の各業務タスクに対して、2. の基準により判定をしていきます。このとき人間(専門家)による判定とAI(GPT-4)による判定を実施しています。判定結果(E0/E1/E2)に基づき、職業に対するLLMの影響度を以下で算出します。


ある職業の業務タスク数をNとすると
alpha = E1 / N
beta   = (E1 + 0.5*E2) / N
zeta   = (E1 + E2) / N


alphaは全業務タスクの中でChatGPTにより時間が半減できるタスクが何割あるかをあらわしています。betaとzetaの違いはE2の重みです。機能追加の評価を半分としたのがbeta、等価としたのがzetaです。現状のChatGPT(alpha)から将来のChatGPT(zeta)までの影響度のポテンシャルを表現するイメージです。
上述の図1では、GPT-4 modelによるbetaを抜粋して示しました。元の論文における人間とAIによるalpha, beta, zetaを図4に示します。論文では影響度の考察はbetaを中心に議論をしています。

図4:LLMの職業への影響

興味深いことに人間とAIの判定結果は高い一致性を示しています(図5)。ただし、大きな影響を受けそうな職業においては、AIよりも人間の方が影響度が大きいと見積もる傾向があるようです。

図5:人間(専門家)とAI(GPT-4)による判定結果の類似性

結果から、人間(専門家)による評価は、AI(GPT-4)で代替可能と考えられます。我々の検討では、AI(GPT-4)を判定手法として採用しています。

【手法の再現】

論文では全職業のタスクごとの判定結果が開示されていないため、完全に結果を再現することは困難です。AI(GPT-4)による判定は、ルーブリック(本稿の最末尾を参照)をプロンプトとして入力し、いくつかの人間による判定結果をサンプルとして提示するFew-shot learningにより実行していると想像されます。ただし、本文中に以下の記載があります。

We made slight modifications to the rubric (which was used as a "prompt" to the model in this case) to enhance agreement with a set of human labels.

Eloundou, T., Manning, S., Mishkin, P., & Rock, D. (2023, March 17).  Arxiv. https://arxiv.org/abs/2303.10130 [3]

人間の判定と一致させるために若干ルーブリックを変えているとあります。どのように調整しているかは開示されていません。

図6は論文の再現結果です。論文のGPT-4による判定結果(alpha)に対して、論文のルーブリック(末尾に掲載)をベースに調整や補正を加えた結果となります。概ね傾向の再現ができていると考えられます。

図6:論文の再現結果

日本の職業データへの適用

日本の職業および業務タスクの定義としては、Jobtag(日本版O*NET)が利用可能です。Jobtagは厚生労働省が提供する日本の職業情報提供サイトであり、米国のO*NETに類似する情報が収載されています。本検討ではVer.4.00のデータを使用しました[5]。
494の職業と5116の業務タスクが収載されており、例えば、職業 "総務事務"(収録番号:433)の業務タスクは以下のように定義されています。

図7:総務事務の業務タスク

Jobtagに対して論文手法を再現したアルゴリズムを適用した結果を図8に示します。結果としては米国と類似の傾向を示し、betaの影響度をみると業務の10%にLLMを活用できる職業は全職業の70%におよび、業務の50%にLLMを活用できる職業は全職業の10%強という解釈です。

図8:日本の職業データに基づくLLMの職業への影響

【影響を受ける職業・受けない職業】

日本の職業データにおいても技術系・事務系の職種は大きな影響を受け、物理的な作業を伴う職種は影響を受けないという結果が出ています。

表3:日本の職業へのLLMの影響(抜粋)

日本の労働市場に与えるインパクト

ここまでの検討で、日本の全職業に対するLLMの影響が明らかになりました。おさらいになりますが「影響」とは、ある職業を構成する全業務タスクの中で、LLMの活用により少なくとも50%の時間短縮が可能な業務タスクの割合を意味します。例えば、ある職業の影響度が30%だった場合、日々の仕事の30%を半分の時間で終えることができるので、結果としては仕事時間を15%削減できると考えられます(「少なくとも50%短縮」なので厳密には50%〜100%なのですが、本検討では一律50%時間短縮と設定しています。また、本試算はすべての業務タスクにかける時間が等しいという想定です。実際には業務タスクには重みがあると思うので、かなり単純化していることをご留意ください)。

【LLMが生み出す経済価値】

LLM活用がもたらす業務効率化の価値を現状の日本の労働市場における給与実績から試算してみます。つまり、現状の労働時間の価値=給与実績としたとき、LLMにより短縮可能な労働時間を給与換算するといくらになるのか?という発想です。まず、様々な公的統計データと対応させるために、総務省「日本標準職業分類」[6]をベースにデータを整備します。日本標準職業分類は、公的統計を職業別に表示する場合の統計基準です。就業者数データは総務省統計局「労働力調査(基本集計)」[7]2022年を利用しました。平均給与データは厚生労働省「賃金構造基本統計調査」[8]2022年において企業規模ごとの年間給与平均額を算出し利用しました。影響度(α・β・ζ)は日本標準職業分類における大分類に属するJobtag職業影響度データの平均値を用いています。最後に経済効果(α・β・ζ)は給与総額 X 影響度 X 0.5(時間短縮率)で算出しています。
結果としては、現状のLLM機能を活用した場合の影響度(α)で年間約25兆円、将来的な機能追加が実装されたLLM機能を活用した場合の影響度(ζ)で年間約40兆円相当の労働価値を生む試算となりました。最も影響を受ける職業分類は「C. 事務従事者」で34%の業務をLLMで効率化できるという試算。続いて「B. 専門的・技術的職業従事者」が26%。いずれもコンピュータを用いたデスクワークにおいてテキストを扱うことが多い職業です。この2つの職業分類は就業者数および給与総額においても全職業分類の上位を占めており、LLMが大きな経済インパクトをもたらす可能性が示唆されます。

表4:LLM活用による日本の労働市場へのインパクト

スキルへの影響

Jobtagは、39項目のスキルが各職業においてどの程度必要かを数値化し、職業間で比較可能な形式でデータを提供しています。LLMの職業への影響度を通じて、LLMとスキルとの関係を検討するために、39項目のスキルを説明変数、職業の影響度を目的変数とする回帰モデルを構築します。Jobtagのデータは予め0.0〜1.0のレンジにスケーリングしておきます。表5に結果を示します。

表5:LLMとスキルの関係

alpha(現在の影響度)・zeta(将来の影響度)を分析しました。赤がLLMの影響と正の関係に、青が負の関係にあります。5%の統計的有意性を持つスキルを緑色で示しています。「文章力」・「プログラミング」に関する人間のスキルはLLMの登場によって大きな支援を得られる可能性があるという結果になりました。将来的には「原因特定」や「時間管理」、「数学的要素」に関連するスキルもLLMの支援が期待されます。一方で、「修理」・「道具・機器・設備の選択」などの物理的スキルや「他者の反応の理解」・「人材管理」など人間関係に関するスキルは人間固有のスキルとして求められ続ける可能性が高いです。

今後必要なこと

本検討において、LLM活用における業務効率化によって大きな経済効果が得られることが示唆されました。この効果を最大限享受するためには、全職業従事者がLLMを活用するリテラシーを上げる必要があります。LLMの特性を正しく理解し、具体的な職業・業務タスクレベルにおけるLLMの活用ノウハウを蓄積し、普及させることが非常に重要と考えられます。一方で、現状の日本におけるLLMの活用はまだ限定的であり(様々な調査をみるとおよそ10%程度の利用にとどまっている感覚があります)、AI脅威論・慎重論も含め否定的な反応が一定存在することも事実です。2023年7月の研究論文[9]では、ChatGPTの活用により約40%の業務効率化と18%の品質向上効果が例証されました。さらに注目すべき結果として、被験者のほとんどがChatGPTに対して仕事を奪われるといった脅威ではなく、仕事を楽にしてくれる技術というポジティブな対象として受け入れていること、実験後も継続して日常業務に自発的に活用していることが報告されています。今後、労働人口が半減する日本においては、生成AIを含むAI技術の活用による生産性向上が必須であり、AI技術を前向きに捉え積極的に活用していく社会風土の形成を、人材育成や計算資源・データ整備などへの投資・活動を通じて実現していく必要があると考えます。

宣伝

株式会社SIGNATEでは、ChatGPTに関するサービスをご提供しています。

【ChatGPT影響度診断サービス】

本検討の手法を企業診断に応用したサービスです。組織・職種の情報から全社・部門・職種単位でのChatGPTの影響度を算出し活用インパクトを可視化します。ChatGPTの導入効果試算や優先度検討などに活用可能です。また、影響を受ける業務タスクの効率化につながるプロンプトも提供することで、業務効率化を実現します。
https://service.signate.jp/generative-ai-solution

【ChatGPT人材育成サービス】

DX人材の育成に特化したクラウドサービスです。データリテラシー測定、スキルアップ講座、データ分析コンテストなど、「手が動く」DX人材の育成を支援する様々な機能やリソースを提供しています。ChatGPTの入門講座や20職種に対応した具体的なプロンプト例を用いた応用講座も収載しています。
https://cloud.signate.jp/

【LLM開発・GPT活用サービス】

SIGNATEはAI開発コンペティションサイトを通じて国内最大のAIエンジニア会員基盤を運営しています(10万人以上)。コンペティションを通じてAIモデルの調達やプロンプトテクニックなどを調達可能です。また、登録会員である即戦力AIエンジニアによるコンサルティングサービスや人材採用支援も提供しています。生成AIのエキスパートも多数在籍しています。
https://signate.jp/
https://partners.signate.jp/for_company

ご興味あれば是非お問い合わせいただければと存じます。

本検討の限界

【判定精度・再現性に関する限界】

ある職業・タスクがLLM技術の活用により50%以上時間削減可能かどうかの判定は自明ではなく主観的な要素を含みます。GPT-4による判定と人間の専門家による判定には高い一致性が確認されていますが、OpenAI GPT-4は常にバージョンアップされており、提示されるプロンプトの記述形式や内容に敏感であるため、再現性が保証されるものではありません。また、本解析は先行研究の結果と完全に一致する保証はありません。

【職業タスク定義に関する限界】

本解析では米国O*NET(Occupational Information Network)[4]および日本Jobtag(日本版O*NET)[5]における定義を対象としています。これらが、すべての職業およびタスクを網羅している保証はないため、解析結果にバイアスがある可能性があります。O*NETの解析結果は米国の職業実態を前提としており、日本の職業実態と一致しない可能性があります。米国O*NET [4]およびJobtag(日本版O*NET)[5]における職業ではタスクが未定義のものが存在するため、評価不能な職種が存在します。

【技術進展や普及実態に関する限界】

LLM技術は早い速度で進展しており、マルチモーダル(言語以外の画像等、多数の情報を同時に扱う技術)機能の実現も確認されております。そのため、本検討を超える影響を与える可能性があります。LLM技術に関する規制や利用環境の整備などがどのように進展するかは未知であるため、本検討とは異なる影響を与える可能性があります。

免責

  • 本検討は、検討時点で入手可能な情報をもとに作成されており、後日新たな情報が明らかになることがあります。本検討の内容が最新または完全であることを保証するものではありません。

  • 本検討に基づいて行われる一切の判断や行動は、利用者の自己の責任と判断において行ってください。本検討の内容に関して、正確性、完全性、信頼性、適切性、特定の目的への適合性等を何ら保証するものではありません。

  • 本検討に関連して、直接的または間接的な損害、損失、費用が発生した場合、著作者および株式会社SIGNATEは一切の責任を負わないものとします。

  • 本検討に含まれる情報は検討時点でのものであり、事前の通知なく変更されることがあります。

参考文献

  1. Hatzius, J., Briggs, J., Kondnani, D., & Pierdomenico, G. (2023, March 26). The Potentially Large Effects of Artificial Intelligence on Economic Growth (Briggs/Kodnani). Goldman Sachs Economics Research. https://www.key4biz.it/wp-content/uploads/2023/03/Global-Economics-Analyst_-The-Potentially-Large-Effects-of-Artificial-Intelligence-on-Economic-Growth-Briggs_Kodnani.pdf

  2. The economic potential of generative AI: The next productivity frontier. (2023, June 14). McKinsey & Company. https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-ai-the-next-productivity-frontier

  3. Eloundou, T., Manning, S., Mishkin, P., & Rock, D. (2023, March 17). GPTs Are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models. Arxiv. https://arxiv.org/abs/2303.10130

  4. National Center for ONET Development. ONET OnLine. Retrieved April 5, 2023, from https://www.onetonline.org/ (本レポートではO*NET27.2を利用しています)

  5. 職業情報提供サイト(日本版O-NET)jobtag
     本レポートでは、以下のデータを利用しています。
     独立行政法人労働政策研究・研修機構(JILPT)作成 職業情報データベース 簡易版数値系ダウンロードデータ ver.4.00 職業情報提供サイト(日本版O-NET)より2023年3月28日にダウンロード(https://shigoto.mhlw.go.jp/User/download)を加工して作成

  6. 日本標準職業分類、総務省(https://www.soumu.go.jp/toukei_toukatsu/index/seido/shokgyou/21index.htm

  7. 労働力調査、総務省統計局(https://www.stat.go.jp/data/roudou/index.html

  8. 賃金構造基本統計調査、厚生労働省(https://www.mhlw.go.jp/toukei/list/chinginkouzou.html

  9. Noy, S., & Zhang, W. (2023b). Experimental evidence on the productivity effects of generative artificial intelligence. Science, 381(6654), 187–192. https://doi.org/10.1126/science.adh2586

Rubric

# E Exposure Rubric
Consider the most powerful OpenAI large language model (LLM). This model can complete many tasks
that can be formulated as having text input and text output where the context for the input can be captured in 2000 words. The model also cannot draw up-to-date facts (those from <1 year ago) unless they are captured in the input.
Assume you are a worker with an average level of expertise in your role trying to complete the given task. You have access to the LLM as well as any other existing software or computer hardware tools mentioned in the task. You also have access to any commonly available technical tools accessible via a laptop (e.g. a microphone, speakers, etc.). You do not have access to any other physical tools or materials.
Please label the given task according to the rubric below.
Equivalent quality means someone reviewing the work would not be able to tell whether a human completed it on their own or with assistance from the LLM.
If you aren’t sure how to judge the amount of time a task takes, consider whether the tools described exposed the majority of subtasks associated with the task.
## E1 – Direct exposure
Label tasks E1 if direct access to the LLM through an interface like ChatGPT or the OpenAI playground alone can reduce the time it takes to complete the task with equivalent quality by at least half. This includes tasks that can be reduced to: - Writing and transforming text and code according to complex instructions, - Providing edits to existing text or code following specifications, - Writing code that can help perform a task that used to be done by hand, - Translating text between languages, - Summarizing medium-length documents, - Providing feedback on documents, - Answering questions about a document, - Generating questions a user might want to ask about a document, - Writing questions for an interview or assessment, - Writing and responding to emails, including ones that involve refuting information or engaging in a negotiation (but only if the negotiation is via written correspondence), - Maintain records of written data, - Prepare training materials based on general knowledge, or - Inform anyone of any information via any written or spoken medium.
## E2 – Exposure by LLM-powered applications
Label tasks E2 if having access to the LLM alone may not reduce the time it takes to complete the task by at least half, but it is easy to imagine additional software that could be developed on top of the LLM that would reduce the time it takes to complete the task by half. This software may include capabilities such as: - Summarizing documents longer than 2000 words and answering questions about those documents, - Retrieving up-to-date facts from the Internet and using those facts in combination with the LLM capabilities,
- Searching over an organization’s existing knowledge, data, or documents and retreiving information, - Retrieving highly specialized domain knowledge, - Make recommendations given data or written input, - Analyze written information to inform decisions, - Prepare training materials based on highly specialized knowledge, - Provide counsel on issues, and - Maintain complex databases.
## E3 – Exposure given image capabilities
Suppose you had access to both the LLM and a system that could view, caption, and create images as well as any systems powered by the LLM (those in E2 above). This system cannot take video as an input and it cannot produce video as an output. This system cannot accurately retrieve very detailed information from image inputs, such as measurements of dimensions within an image. Label tasks as E3 if there is a significant reduction in the time it takes to complete the task given access to a LLM and these image capabilities: - Reading text from PDFs, - Scanning images, or - Creating or editing digital images according to instructions.
The images can be realistic but they should not be detailed. The model can identify objects in the image but not relationships between those options.
## E0 – No exposure
Label tasks E0 if none of the above clearly decrease the time it takes for an experienced worker to complete the task with high quality by at least half. Some examples: - If a task requires a high degree of human interaction (for example, in-person demonstrations) then it should be classified as E0. - If a task requires precise measurements then it should be classified as E0. - If a task requires reviewing visuals in detail then it should be classified as E0. - If a task requires any use of a hand or walking then it should be classified as E0. - Tools built on top of the LLM cannot make any decisions that might impact human livelihood (e.g. hiring, grading, etc.). If any part of the task involves collecting inputs to make a final decision (as opposed to analyzing data to inform a decision or make a recommendation) then it should be classified as E0. The LLM can make recommendations. - Even if tools built on top of the LLM can do a task, if using those tools would not save an experienced worker significant time completing the task, then it should be classified as E0. - The LLM and systems built on top of it cannot do anything that legally requires a human to perform the task. - If there is existing technology not powered by an LLM that is commonly used and can complete the task then you should mark the task E0 if using an LLM or LLM-powered tool will not further reduce the time to complete the task.
When in doubt, you should default to E0.
## Annotation examples:
Occupation: Inspectors, Testers, Sorters, Samplers, and Weighers Task: Adjust, clean, or repair products
or processing equipment to correct defects found during inspections. Label (E0/E1/E2/E3): E0 Explanation: The model does not have access to any kind of physicality, and more than half of the task (adjusting, cleaning and repairing equipment) described requires hands or other embodiment.
Occupation: Computer and Information Research Scientists Task: Apply theoretical expertise and innovation to create or apply new technology, such as adapting principles for applying computers to new uses. Label (E0/E1/E2/E3): E1 Explanation: The model can learn theoretical expertise during training as part of its general knowledge base, and the principles to adapt can be captured in the text input to the model.
Activity: Schedule dining reservations. Label (E0/E1/E2/E3): E2 Explanation: Automation technology already exists for this (e.g. Resy) and it’s unclear what an LLM offers on top of using that technology (no-diff).
That said, you could build something that allows you to ask the LLM to make a reservation on Resy for you.

Eloundou, T., Manning, S., Mishkin, P., & Rock, D. (2023, March 17).  Arxiv. https://arxiv.org/abs/2303.10130[3]


この記事が気に入ったらサポートをしてみませんか?