Table-GPT: Table-tuned GPT for Diverse Table Tasks
本研究の学術的背景は、言語モデル(GPT-3など)が様々なタスクをこなせる一方で、表に関連するタスクではまだ性能が十分でないことです。これは、これらの言語モデルが一次元の自然言語テキストに主に事前学習されているためであり、関係性を持つ表という二次元の対象を十分に理解できないからです。そこで、本研究では「テーブルチューニング」という新しい手法を提案し、GPT-3.5やChatGPTなどの言語モデルをテーブルタスクの理解と実行能力を向上させるために、実際の表から合成された様々なテーブルタスクを使って再トレーニング/微調整することを目指しています。
本研究の目的は、テーブルに関するタスクを理解し実行する能力を持った言語モデルを開発することです。また、このアプローチが他のタスクにも適用可能であり、一般化性の高いモデルを実現することも目指しています。本研究の学術的独自性と創造性は、従来のプロンプトエンジニアリングとは異なる「テーブルチューニング」という新しいパラダイムの提案にあります。
この研究の着想は、テーブルに関連するタスクをより理解できる言語モデルを開発するというニーズから生まれました。関連する国内外の研究動向では、プロンプトエンジニアリングによる性能向上が試みられていますが、タスクごとの調整が必要であったり、タスク固有のラベル付きデータが必要であったりするという課題があります。本研究では、プロンプトの変更ではなく、言語モデルの重みを調整する「テーブルチューニング」という新たな手法を提案し、従来の研究とは異なる位置づけにあります。
この研究では、テーブルを正確に「読み取る」ことができる言語モデルの能力についての実験を行いました。まず、テーブル内の一つの空のセルについて、そのセルの列名と行idを特定するというテスト(T-1:欠損値の特定)を行い、1000個の実際のテーブルをランダムに選んで性能を評価しました。その結果、GPT-3.5のような言語モデルでも、約74%のテストで誤った列名や行idを回答することがわかりました。また、テーブル内の特定のセルの値を見つけて、そのセルが属する列名を回答するテスト(T-2:列の検出)も行い、半数以上のテストで誤った結果が得られることがわかりました。さらに、テーブル内の列の順序がモデルの回答に影響を与えることも観察されました。
本研究では、Table-GPTモデルの性能と効果を検証するために、さまざまなテーブルタスクに関して評価実験を行いました。その結果、Table-GPTモデルはGPT-3.5やChatGPTよりも優れた性能を発揮し、新規のテーブルタスクでも良い結果を示すことが確認できました。また、Table-GPTは、バニラのGPTよりも優れた起点として利用できるため、タスク固有の微調整やプロンプトエンジニアリングといった下流の最適化にも有用です。
この記事が気に入ったらサポートをしてみませんか?