RT-2, rinna LLM, 画像入力対応Bard, etc - Generative AI 情報共有会 #2
今週ZENKIGEN社内で実施の「Generative AI最新情報共有会」でピックアップした生成AI関連の情報を共有します。
この連載の背景や方向性に関しては 第一回の記事 をご覧ください。
Google DeepMind、ロボット制御のための、視覚-言語-行動モデル、「RT-2」発表
RT-1(Robotics Transformer 1)の後継モデル。Web上の大規模データを学習することで、ロボットが適切に指示に従う上での様々な知識(常識など)を獲得。
【背景】
RT-1 : 自然言語処理やコンピュータビジョンの分野で成功しているTransformerをRobotics分野に適用。
適用にあたって大きく2つの課題があったが、それを克服。
ロボットをリアルタイムで動かせるように軽量なモデルにする必要性があること(かつ、見たことのない環境でも精度良く動作すること)。
大規模で多様なロボット工学用データセットが存在しないこと。
700以上のタスクからなる13万エピソードからなる大規模な実世界のロボット工学データセットを構築。
与えられた指示に対し、人間にロボットを操作してもらってそのデータを収集する。
13台のロボットを使用し、17ヶ月かけて収集(すごい)。
既存手法より、見たことのないタスクや違う環境の中でも高精度にタスクをこなせることを示した。
RT-2は、Web上の大規模データを学習し、ユーザの指示を達成するために必要な途中ステップについて考えることを必要とする、より複雑なコマンドを実行可能に。
「釘を打つ必要があるのですが、どれが役に立ちそうですか?」という指示に対し、”岩”と判断し、岩を持ち上げる。
(関連: 自然言語の指示とそれを実現する人間による実際の操作を対応づけたデータセット)
Googleが自然言語でAndroidデバイスを操作するための学習データセット公開。
rinna、日英バイリンガル大規模言語モデルをオープンソースで公開
4つのバイリンガルモデルを公開。商用利用可能。
汎用言語モデル : 約4Bパラメータを持つ日本語と英語のバイリンガルGPT。日本語と英語のテキスト生成が可能。
長期コンテキストモデル : 汎用言語モデルは2kトークンが入力の上限だが、こちらは8kまで入力できるモデル。
対話言語モデル : 対話形式のテキスト生成を行うことが可能なモデル。
画像対話モデル : テキストと画像のマルチモーダル入力からのテキスト生成が可能なモデル。
バイリンガルモデルとすることで、ファインチューニングにデータが充実している英語のデータセットを利用可能(で、日本語の応答もできる!)。
…と大きなニュースだったが、非商用データを学習に利用していたため対話言語モデルの公開停止。
ChatGPT由来のデータをLLM開発に利用し、商用利用・公開することはOpenAIの規約で禁止されている。
GoogleもBardの学習にChatGPT由来のデータを利用しているのではと批判された。
(ただ、ChatGPT由来のデータを利用しているのに商用可能で公開しているモデルも存在し、この辺は現在非常に曖昧で難しい問題になっている。)
※ 2023/08/03 更新
rinna Researchから、対話言語モデルの再公開の発表。
LLMベンチマークテストでは、再公開前のスコアを上回っているとのこと。
さらに、人間の評価を利用した強化学習RLHFを行ったPPO対話言語モデルも公開。
OpenAI、テキスト生成主が人間かAIかを判定するツールを取り下げ
OpenAIはテキストが人間が書いたものかAIが書いたものかを判定するツールを公開していたが、精度が低いとして非公開にした。
LLMが生成したテキストか否かを判別するのは現状困難であると思われ、「どんなに性能の良い"AIテキスト検出器"であっても、高性能な言語モデルに対してはランダム分類器を少し上回る程度のパフォーマンスしか得られない」ことを示した研究もある。
明示的に「これはAIが生成したテキスト」であると示す、電子透かしシステムなどの整備が重要と思われる。
LLMの生成テキストに電子透かしを入れる手法が今年の機械学習分野のトップカンファレンスICML2023のOutstanding Paperに選出。
画像入力に対応したBard触ってみた
Bardが画像入力対応した話を2週間前の社内共有会で紹介しました。
実際に触ってみた事例も紹介したいなと思い、今回ちょっと触ってみました。
rinnaのリリースサイトに載っていた画像を入力
「興味深そうにノートパソコンの画面を見ている。」や「ノートパソコンは閉じている」など一部怪しいところもあるが、なんとなくは画像を理解している。
芸術作品(ガラスのヒビでライオンを表現した作品。)
(私がイタリア旅行先で撮った写真です。世の中には落ちていない画像ということで。同じような画像はありますが。)
ライオンが描かれていることに関しての記載がなかったので追加質問。
ライオンが描かれていることは理解できなかったか。
GPT-4 technical reportにあった画像(チキンナゲットを世界地図のように並べている画像)
GPT-4のtechnical reportで最初見たときに個人的に驚いた画像。
Bardもチキンナゲットが世界地図のように並べられていることを "理解" している。
GPT-4 technical reportにあった画像(InstructGPTの論文の1ページ目)
一部書いていないことを言っているように見える(「迷路をクリアするための指示に従う、ゲームをプレイするための指示に従う、詩を書くための指示に従うなど、多くのタスクでこの方法を評価した。」など)が概ね論文の内容に沿っている。
GPT-4 technical reportにあった画像(チャートの解析)
正解!
日本語のセンター数学の試験問題画像
不正解。正解は②。
日本語でも数学の問題自体は理解できているようだが、正解には辿り着けなかった。
手書きのラフWebページ画像からのHTML生成
こんなページができました。
(ビジネス事例)ChatGPTを活用した新型チャットボット「YOSHINAボット」
レトリバの独自技術「ナレッジ集」とChatGPTの要約要素を組み合わせたチャットボット。受け付けた質問に対してナレッジ集から回答候補を選出し、ChatGPTがそれを要約して回答をする仕組み。
ユーザからの問いに対して、ドキュメントの検索を行い、その結果を踏まえてLLMが回答を生成する、RAG(Retrieval Augmented Generation)ベースと思われる。
用意されたQAやシナリオでの回答ではなく、人の応対のような回答を提示できるため、営業担当者やカスタマーサクセス担当者のような親しみやすい応対を提供することが可能。
現在の精度は85%。
(ビジネス事例)ChatGPTの技術を活用したAI不動産相談サービス
らくだ不動産・さくら事務所グループのノウハウを学習させた対話型AIが、空き家の状況に沿ってパーソナライズされた回答を自動で生成。
物件のエリアや築年数などを選択し、不動産や空き家に関する質問をすると、回答を自動生成。24時間365日いつでも無料で不動産相談ができ、不動産に関する学びや不安の解消をサポート。
GPT-3.5ベースで専門的な回答は難しく、気軽にお遊び程度にという記載。
空き家問題が深刻化する中でいきなり不動産会社へ相談するハードルは高く、AIチャットボットとの気楽な学びの場の提供と不動産会社との接点をもつきっかけ作りをコンセプトに。
(ビジネス事例)生成AIを活用した研修業務支援サービス
GLOPLA AI : 企業研修における一連の業務 従業員の学習に、生成AIを活用して支援するサービス。
今回提供するのは、研修に対するアンケート結果の要約作成機能。
研修後のアンケート集計やレポート作成の自動化が可能になる他、研修レポートの精度向上を図ることができる。
機能が活用されるたびデータがAIモデルに学習されるため、記載すべき事項の欠損防止や、正確で良い要約の実現などの研修レポートの精度向上、さらに研修結果に対する新しい示唆・観点の提供が可能。
(ビジネス事例)面談評価システム
Bizコム
ビジネス上の人間関係の可視化や改善を目的に、音声解析やテキスト解析などを組み合わせて開発しているAIエンジン。
ヨクシルにおいて、「面談におけるコミュニケーション」の解析で活用。
ヨクシル
話し方分析
声の大きさや高さ、話す速さを分析することができ、相手にとって「聴きやすい」話し方を会得。
感情分析
発言を文字に変換して分析することで、「喜び」「悲しみ」「驚き」など、自分の発言がどんな感情に紐づいて相手に伝わっているかがわかる。また、発言の中にハラスメントと捉えられる可能性のある内容を含んでいるかの判定も可能。
確認事項チェック
「成長意欲」など、面談で確認したいことを開始前に事前に設定しておくと、話題にし忘れている場合に通知。
お知らせ
少しでも弊社にご興味を持っていただけた方は、お気軽にご連絡頂けますと幸いです。まずはカジュアルにお話を、という形でも、副業を検討したいという形でも歓迎しています。
この記事が気に入ったらサポートをしてみませんか?