BERTとは

2023年1月18日 07:58

BERTはBidirectional Encoder Representation from Transformersの略です。直訳すれば、「トランスフォーマーからの双方向エンコーダ表現」となります。この記事ではその意味を解説します。

BERTは事前訓練済みの巨大な言語モデル（Large Language Model、LLM）です。最近では、GPT3と共にファウンデーション（基盤）モデルとも呼ばれています。ただし、GPT3とBERTにははっきりとした違いがあります。

GPT3はトランスフォーマーのデコーダをベースにしたモデルで文章生成に優れています。その一方、BERTはトランスフォーマーのエンコーダをベースにしたモデルで文章から特徴量を抽出することを得意とします。

とは言うものの、GPT3もBERTも事前学習を行う点は共通しています。それはオリジナルのトランスフォーマーからの違いでもあります。もちろん、BERTの事前学習はGPT3とは手法が異なります。

よって、BERTにおける事前学習を理解するとBERTの特徴がよくわかります。まずは、オリジナルのトランスフォーマーとの違いを見ていきましょう。

教師あり学習の問題

オリジナルのトランスフォーマーを開発したGoogleの研究者であるAshish Vaswaniらのチームは、翻訳モデルの訓練に「教師あり学習」を使いました。この教師あり学習において、2つの問題点があります。

例えば、「ドイツ語から英語への翻訳」をするモデルのためには、ドイツ語の文章とそれに対応する英語の翻訳文の両方を含む訓練用のデータが必要です。そのようなテキストデータを大量に収集するのは機械翻訳の品質を確保するためになくてはならないものですが、大変な時間と労力がかかる作業になります。これが教師あり学習を言語モデルの訓練で使用する際の第一の問題点です。

そして「教師あり学習」にはもう一つの問題があります。

まず、オリジナルのトランスフォーマーのアーキテクチャを簡単に復習しましょう。トランスフォーマーには、翻訳元（ソース）言語の文章を処理するエンコーダと翻訳先（ターゲット）言語の文章を生成するデコーダがあります。エンコーダはソースの文章から文脈を抽出してデコーダが翻訳をするするのを助けます。

このように翻訳とはソースから抽出した情報をターゲットの言語へと変換していく作業になります。例えば、ドイツ語の文章の情報をもとに同じ意味を含んだ英語の文章への変換を行います。

つまり「教師あり学習」によってエンコーダはドイツ語から英語への翻訳というタスクに役立つ情報を抽出するようになります。これは翻訳が最終的な目的であることを考えれば、合理的に思えます。しかし、ここに落とし穴があります。

ここから先は

6,670字 / 3画像

キカベン・読み放題

¥1,000 / 月

初月無料

人工知能、機械学習、ディープラーニング、量子コンピュータ関連の用語の解説、研究論文の概要、プログラミングの具体例などの読み応えのある新しい記事が月に４−５本ほど追加されます。また、気になるAIニュースや日常の雑観などは随時公開しています。

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が気に入ったらサポートをしてみませんか？