UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model

Ikemen Mas Kot

2023年10月15日 00:54

本研究の学術的背景と問いは、視覚的に配置された言語理解（Visually-situated Language Understanding）における課題、特に多様な画像種類や広範な画像サイズに対応する普遍的な理解についてです。
本研究の目的は、OCR（光学文字認識）を必要とせず、低コストで視覚的に位置づけられた言語の理解を可能にする手法であるUReaderを提案することです。本研究の独自性と創造性は既存の多モーダル大規模言語モデル（MLLM）を活用し、視覚的テキストや意味理解を強化するための読了タスクとキーポイント生成タスクを追加しています。
現在の視覚的に位置付けられた言語理解の研究は、トレーニングコストが高いという問題点を抱えています。それに対し、既存の多モーダル大規模言語モデル（MLLM）が浅いテキスト認識能力を持っていることに着目し、UReaderを提案しました。これにより、トレーニングコストを大幅に削減できます。
我々は、5つの視覚的に位置づけられた言語理解のドメイン（ドキュメント、テーブル、チャート、自然画像、ウェブページのスクリーンショット）をカバーする指示調整データセットを作成しました。さらに、高解像度画像を処理するための形状適応的なクロッピングモジュールを設計し、これを用いて8つのタスクで最良のOCRフリーのパフォーマンスを達成しました。

5.本研究の有効性は、UReaderが視覚的に位置づけられた言語に対する10タスクのうち8タスクで、業界トップのOCRフリーパフォーマンスを実現したことで確認されました。

この記事が気に入ったらサポートをしてみませんか？