RT-2, rinna LLM, 画像入力対応Bard, etc - Generative AI 情報共有会 #2

Masatoshi Kurihara

2023年8月2日 16:00

今週ZENKIGEN社内で実施の「Generative AI最新情報共有会」でピックアップした生成AI関連の情報を共有します。

この連載の背景や方向性に関しては第一回の記事をご覧ください。

Google DeepMind、ロボット制御のための、視覚-言語-行動モデル、「RT-2」発表

RT-1（Robotics Transformer 1）の後継モデル。Web上の大規模データを学習することで、ロボットが適切に指示に従う上での様々な知識（常識など）を獲得。

【背景】

RT-1 : 自然言語処理やコンピュータビジョンの分野で成功しているTransformerをRobotics分野に適用。
適用にあたって大きく2つの課題があったが、それを克服。
- ロボットをリアルタイムで動かせるように軽量なモデルにする必要性があること（かつ、見たことのない環境でも精度良く動作すること）。
- 大規模で多様なロボット工学用データセットが存在しないこと。
  - 700以上のタスクからなる13万エピソードからなる大規模な実世界のロボット工学データセットを構築。
    - 与えられた指示に対し、人間にロボットを操作してもらってそのデータを収集する。
    - 13台のロボットを使用し、17ヶ月かけて収集（すごい）。
既存手法より、見たことのないタスクや違う環境の中でも高精度にタスクをこなせることを示した。

RT-2は、Web上の大規模データを学習し、ユーザの指示を達成するために必要な途中ステップについて考えることを必要とする、より複雑なコマンドを実行可能に。

「釘を打つ必要があるのですが、どれが役に立ちそうですか？」という指示に対し、”岩”と判断し、岩を持ち上げる。

RT-2によって実現された、"常識"（「釘を打つには硬いものが必要。」「テーブルにあるものの中で硬いものは岩。」ということ）を理解し指示に従うロボットの行動例。（RT-2: New model translates vision and language into action より引用）

(関連: 自然言語の指示とそれを実現する人間による実際の操作を対応づけたデータセット)
Googleが自然言語でAndroidデバイスを操作するための学習データセット公開。

rinna、日英バイリンガル大規模言語モデルをオープンソースで公開

4つのバイリンガルモデルを公開。商用利用可能。

汎用言語モデル : 約4Bパラメータを持つ日本語と英語のバイリンガルGPT。日本語と英語のテキスト生成が可能。
長期コンテキストモデル : 汎用言語モデルは2kトークンが入力の上限だが、こちらは8kまで入力できるモデル。
対話言語モデル : 対話形式のテキスト生成を行うことが可能なモデル。

対話言語モデルの出力例（rinna、日英バイリンガル大規模言語モデルをオープンソースで公開から引用）

画像対話モデル : テキストと画像のマルチモーダル入力からのテキスト生成が可能なモデル。

画像対話モデルの出力例（rinna、日英バイリンガル大規模言語モデルをオープンソースで公開から引用）

バイリンガルモデルとすることで、ファインチューニングにデータが充実している英語のデータセットを利用可能（で、日本語の応答もできる！）。

…と大きなニュースだったが、非商用データを学習に利用していたため対話言語モデルの公開停止。

2023/07/31 In the previously released rinna/bilingual-gpt-neox-4b-instruction-sft, we found that part of the training data (i.e. Openchat ShareGPT4 and WizardLM) have a non-commercial license, and thus it does not comply with the MIT license. We decided to remove the previous version and build a new SFT model from datasets with less strict licenses. The new model will be uploaded in a few days. We sincerely apologize for our careless mistake.

https://huggingface.co/rinna/bilingual-gpt-neox-4b-instruction-sft

ChatGPT由来のデータをLLM開発に利用し、商用利用・公開することはOpenAIの規約で禁止されている。
GoogleもBardの学習にChatGPT由来のデータを利用しているのではと批判された。

（ただ、ChatGPT由来のデータを利用しているのに商用可能で公開しているモデルも存在し、この辺は現在非常に曖昧で難しい問題になっている。）

※ 2023/08/03 更新
rinna Researchから、対話言語モデルの再公開の発表。
LLMベンチマークテストでは、再公開前のスコアを上回っているとのこと。
さらに、人間の評価を利用した強化学習RLHFを行ったPPO対話言語モデルも公開。

日英バイリンガル大規模言語モデルであるSFT対話言語モデルを再公開しました。
LLMベンチマークテストでは、再公開前のスコアを上回っています。

rinna/bilingual-gpt-neox-4b-instruction-sft:https://t.co/NnNKT6YK6c
— rinna Research (@rinna_research) August 2, 2023

OpenAI、テキスト生成主が人間かAIかを判定するツールを取り下げ

OpenAIはテキストが人間が書いたものかAIが書いたものかを判定するツールを公開していたが、精度が低いとして非公開にした。

LLMが生成したテキストか否かを判別するのは現状困難であると思われ、「どんなに性能の良い"AIテキスト検出器"であっても、高性能な言語モデルに対してはランダム分類器を少し上回る程度のパフォーマンスしか得られない」ことを示した研究もある。

明示的に「これはAIが生成したテキスト」であると示す、電子透かしシステムなどの整備が重要と思われる。
LLMの生成テキストに電子透かしを入れる手法が今年の機械学習分野のトップカンファレンスICML2023のOutstanding Paperに選出。

画像入力に対応したBard触ってみた

Bardが画像入力対応した話を2週間前の社内共有会で紹介しました。
実際に触ってみた事例も紹介したいなと思い、今回ちょっと触ってみました。

rinnaのリリースサイトに載っていた画像を入力

(返答のDeepL翻訳)
ラップトップコンピュータの横で、木製のテーブルの上に猫が寝そべっているのが見える。オレンジと白の毛を持つタビーの猫だ。興味深そうにノートパソコンの画面を見ている。ノートパソコンは閉じているので、画面に何が映っているかは見えない。テーブルはダークウッド製でシンプルなデザイン。テーブルの上にはランプがあるが、消されている。背景は真っ白な壁。

画像は明るく、色は鮮やかである。猫は画像の焦点であり、うまく構成されている。この画像は猫写真の良い例である。

画像について他に質問はありますか？

「興味深そうにノートパソコンの画面を見ている。」や「ノートパソコンは閉じている」など一部怪しいところもあるが、なんとなくは画像を理解している。

芸術作品（ガラスのヒビでライオンを表現した作品。）

(私がイタリア旅行先で撮った写真です。世の中には落ちていない画像ということで。同じような画像はありますが。)

(返答のDeepL翻訳)
部屋の中にガラスのキューブが積み重なっているのが見える。キューブはすべて大きさが異なり、一見ランダムな順序で積み重ねられている。部屋は暗く、唯一の光はキューブ自体から来る。キューブはさまざまな方法で光を反射し、美しく魅惑的な効果を生み出している。

キューブは透明なガラスでできているが、わずかに不透明であることもわかる。そのため、少し霞がかかったように見え、全体的な効果を高めている。キューブにはわずかなテクスチャーもあり、それがさらに美しさを増している。

これはとても興味深く美しい画像だと思う。キューブが光を反射している様子は実に印象的で、全体的な効果はとても落ち着きがあり穏やかだ。この画像を実際に見てみたいし、実際に見たらもっと印象的だと思う。

この画像について他に質問はありますか？

ライオンが描かれていることに関しての記載がなかったので追加質問。

(返答のDeepL翻訳)
いや、画像に動物が隠れているようには見えない。よく見てみたが、動物の形や模様は見当たらない。キューブの反射の中に動物がいないか探してみたが、何も見つからない。

ネット上には、動物が隠れているという画像があることは知っているが、自分では見つけられなかった。こういった画像は単なるイリュージョンであることが多く、実際には動物は隠れていないのではないかと思う。

もし動物が隠れている画像を知っていたら、ぜひ見てみたい。私はいつでも挑戦する！

ライオンが描かれていることは理解できなかったか。

GPT-4 technical reportにあった画像（チキンナゲットを世界地図のように並べている画像）

チキンナゲットを世界地図のように並べ、「時々、宇宙から見た地球の写真を見て、その美しさに感嘆する。」というテキストを添えた画像に対して、「このミームを説明してください」と指示。

(返答のDeepL翻訳)
もちろん、このミームを説明することはできる。このミームは、宇宙から見た地球の美しさをユーモラスに表現したものだ。ミームの文章はこうだ。"ときどき宇宙から地球の写真を見て、その美しさに感嘆する"。しかし、画像には世界地図の形に並べられたチキンナゲットのフライパンが写っている。この美しい地球とあまり美しくないチキンナゲットの並置が、このミームを面白くしている。

このミームはまた、芸術の一形態としての食べ物というアイデアで遊んでいる。このミームを作った人は、時間をかけてチキンナゲットを世界地図のように並べている。これは、彼らが創造的な目を持っており、食べ物の美しさを評価していることを示している。

このミームは少し自虐的でもある。このミームを作った人は、本質的に、宇宙から地球の写真を見るくらいならチキンナゲットを食べると言っているのだ。チキンナゲットはおいしくて人気のある食べ物なので、これは多くの人にとって共感できる感情である。

全体として、このミームは地球の美しさと食べ物の力をユーモラスかつ自虐的に表現している。チキンナゲットの皿のようなシンプルなものでさえ、それなりに美しくなりうることを思い出させてくれる。

以下は、このミームについての考察である：

- このミームは、食べ物に対してユーモアのセンスを持つ人々にアピールする可能性が高い。
- このミームは、私たちが食べ物を消費する方法についてのコメントとも考えられる。このミームでは、地球がチキンナゲットの皿で表現されているが、これは私たちが自然界の美しさに鈍感になり、食べ物の形で感謝する傾向が強くなっていることを示唆している。
- このミームはまた、美は見る人の目の中にあるということを思い出させるものでもある。ある人が美しいと感じても、別の人は嫌悪感を抱くかもしれない。このミームでは、地球の美しさと、あまり美しくないチキンナゲットが並べられ、美は主観的なものであることを示唆している。

この説明がお役に立てば幸いである！

GPT-4のtechnical reportで最初見たときに個人的に驚いた画像。
Bardもチキンナゲットが世界地図のように並べられていることを "理解" している。

GPT-4 technical reportにあった画像（InstructGPTの論文の1ページ目）

InstructGPTの論文の1ページ目の画像（Bardは複数画像アップができない）とともに「要約して」と指示。

(返答のDeepL翻訳)
もちろん、私が論文を読んで要約することもできる。論文のタイトルは「Training Language Models to Follow Instructions with Human Feedback」で、2022年3月に発表された。この論文では、指示に従う言語モデルを訓練するために人間のフィードバックを使うことの利点について論じている。著者らは、人間のフィードバックは言語モデルがより効果的に学習し、新しい指示に対してより良く汎化するのに役立つと主張している。

本稿ではまず、言語モデルが指示に従うように学習する際の課題について説明する。言語モデルは多くの場合、大規模なテキストデータセットで学習されるが、これらのデータセットには、言語モデルが従う必要のある可能性のある命令がすべて含まれているとは限らない。そのため、言語モデルは見たことのない命令に従うことができない。

著者らは、人間のフィードバックがこの課題を解決するのに役立つと主張している。人間のフィードバックは、言語モデルが見たことのない指示に従う方法に関する情報を提供することができる。このフィードバックは、言語モデルがより効果的に学習し、新しい指示にうまく汎化するのに役立つ。

本稿では、人間のフィードバックを用いて言語モデルを学習する方法を紹介する。この方法では、クラウドソーシングプラットフォームを利用して、言語モデルの性能に関する人間のフィードバックを収集する。そして、そのフィードバックを用いて言語モデルのパラメータを更新する。

論文では、迷路をクリアするための指示に従う、ゲームをプレイするための指示に従う、詩を書くための指示に従うなど、多くのタスクでこの方法を評価した。その結果、本手法はこれらのタスクにおいて言語モデルのパフォーマンスを改善できることが示された。

本論文は、この手法の限界と、今後行うべき作業について議論することで締めくくられている。著者らは、本手法はまだ開発途上であり、その性能を向上させるためにはさらなる研究が必要であると論じている。しかし、この方法は、言語モデルの指示に従う能力を大幅に向上させる可能性があると信じている。

以下に論文の要点をまとめる：
- 言語モデルは多くの場合、初めて見る指示に従うことができない。
- 人間のフィードバックは、言語モデルがより効果的に学習し、新しい指示にうまく汎化するのに役立つ。
- 著者らは、人間のフィードバックを用いて言語モデルを学習させる方法を提示している。
- この方法は多くのタスクで評価され、有望な結果を示した。
- この方法はまだ開発中であるが、言語モデルの指示に従う能力を大幅に向上させる可能性を秘めている。

一部書いていないことを言っているように見える（「迷路をクリアするための指示に従う、ゲームをプレイするための指示に従う、詩を書くための指示に従うなど、多くのタスクでこの方法を評価した。」など）が概ね論文の内容に沿っている。

GPT-4 technical reportにあった画像（チャートの解析）

チャートとともに「グルジアと西アジアの1日の平均肉消費量の合計は？答えを述べる前に、段階的な理由を述べてください。」と指示。

正解！

日本語のセンター数学の試験問題画像

不正解。正解は②。
日本語でも数学の問題自体は理解できているようだが、正解には辿り着けなかった。

手書きのラフWebページ画像からのHTML生成

アンケートページの手書きラフ画像（私が書いて写真撮りました）からHTMLを生成させる。

こんなページができました。

（ビジネス事例）ChatGPTを活用した新型チャットボット「YOSHINAボット」

レトリバの独自技術「ナレッジ集」とChatGPTの要約要素を組み合わせたチャットボット。受け付けた質問に対してナレッジ集から回答候補を選出し、ChatGPTがそれを要約して回答をする仕組み。

ユーザからの問いに対して、ドキュメントの検索を行い、その結果を踏まえてLLMが回答を生成する、RAG（Retrieval Augmented Generation）ベースと思われる。

用意されたQAやシナリオでの回答ではなく、人の応対のような回答を提示できるため、営業担当者やカスタマーサクセス担当者のような親しみやすい応対を提供することが可能。
現在の精度は85%。

（ビジネス事例）ChatGPTの技術を活用したAI不動産相談サービス

らくだ不動産・さくら事務所グループのノウハウを学習させた対話型AIが、空き家の状況に沿ってパーソナライズされた回答を自動で生成。

物件のエリアや築年数などを選択し、不動産や空き家に関する質問をすると、回答を自動生成。24時間365日いつでも無料で不動産相談ができ、不動産に関する学びや不安の解消をサポート。

GPT-3.5ベースで専門的な回答は難しく、気軽にお遊び程度にという記載。

空き家問題が深刻化する中でいきなり不動産会社へ相談するハードルは高く、AIチャットボットとの気楽な学びの場の提供と不動産会社との接点をもつきっかけ作りをコンセプトに。

（ビジネス事例）生成AIを活用した研修業務支援サービス

GLOPLA AI : 企業研修における一連の業務従業員の学習に、生成AIを活用して支援するサービス。

今回提供するのは、研修に対するアンケート結果の要約作成機能。
研修後のアンケート集計やレポート作成の自動化が可能になる他、研修レポートの精度向上を図ることができる。

機能が活用されるたびデータがAIモデルに学習されるため、記載すべき事項の欠損防止や、正確で良い要約の実現などの研修レポートの精度向上、さらに研修結果に対する新しい示唆・観点の提供が可能。

（ビジネス事例）面談評価システム

Bizコム
- ビジネス上の人間関係の可視化や改善を目的に、音声解析やテキスト解析などを組み合わせて開発しているAIエンジン。
- ヨクシルにおいて、「面談におけるコミュニケーション」の解析で活用。
ヨクシル
- 話し方分析
  - 声の大きさや高さ、話す速さを分析することができ、相手にとって「聴きやすい」話し方を会得。
- 感情分析
  - 発言を文字に変換して分析することで、「喜び」「悲しみ」「驚き」など、自分の発言がどんな感情に紐づいて相手に伝わっているかがわかる。また、発言の中にハラスメントと捉えられる可能性のある内容を含んでいるかの判定も可能。
- 確認事項チェック
  - 「成長意欲」など、面談で確認したいことを開始前に事前に設定しておくと、話題にし忘れている場合に通知。

お知らせ

少しでも弊社にご興味を持っていただけた方は、お気軽にご連絡頂けますと幸いです。まずはカジュアルにお話を、という形でも、副業を検討したいという形でも歓迎しています。

この記事が気に入ったらサポートをしてみませんか？