見出し画像

【Reka Core】最先端のマルチモーダルAI の実力を徹底検証!🔍動画もPDFも解析可能

こんにちは、AIBridge Labのこばです。
今回は、最先端のマルチモーダル言語モデル「Reka Core」について紹介したいと思います!

最近はオープンモデルもクローズドモデルも高性能なLLMが次々出てきて、情報の整理が大変ですね😂

Reka Coreは、GoogleのGeminiのようにテキストだけでなく画像や動画も理解できるマルチモーダルなAIで、その性能の高さがじわじわと注目を集めているんですよ。
私も実際にデモページからReka Coreを触ってみたので、その体験も交えながらお伝えしていきますね!


1.Reka Coreとは?

1-1. Reka Coreの概要

Reka Coreは、シンガポールのAI企業Rekaが開発した最先端のマルチモーダル言語モデルです。 数千台ものGPUを使って数か月間という短期間で効率的に学習され、テキスト、画像、動画、音声など、様々な形式のデータを理解・生成できます。Reka社の技術力の高さが伺えますね。

1-2. 他のLLMとの比較

Reka公式記事より引用

Reka Coreは、OpenAIのGPT-4、AnthropicのClaude3 Opus、GoogleのGemini Ultraなど、他社の最新型の大型言語モデル(LLM)と比較しても優れた性能を示しています。

Rekaの最高性能のCoreモデルはMMUにおいてGPT-4Vに匹敵し、独立した第三者機関が実施したマルチモーダルの人間評価ではGPT-4を上回り、ビデオタスクではGemini Ultraを凌駕しています。

Reka Coreは、トップ層のLLMと比べても言語処理系で高平均的な性能をもっており、さらにVQAv2(画像に関する質問に自然言語での回答を提供するためのタスク)評価において高い性能を発揮しているといえます。

2.Reka Coreの優れた点

2-1. マルチモーダル機能

Reka Coreの最大の特徴は、マルチモーダル機能です。テキストだけでなく、画像や動画や音声も理解してそれぞれの形式に合わせた出力ができます。 例えば、画像を見て状況を説明したり、動画の内容を説明したりといったことが可能です。

下の動画はReka Coreを使ってNETFLIXのドラマのワンシーンを説明させている動画です。

動画の中で特に印象的だったのは、「彼らに何が起こっている?」という質問の中でPythonスクリプトを使って視覚化を行ったうえで、以下のようにシーンでの出来事の詳細を説明できている部分です。

Reka Core: ビデオは、Netflixのシリーズのシーンを示しており、そこでは男性がバスルームの床に生命を失って横たわっています。警察官が彼のそばにひざまずいて、脈を確認しています。次のフレームでは、眼鏡をかけた男性と黒いジャケットを着た男性が、苦悶の表情を浮かべながらその状況に反応しています。最後のフレームでは、別の男性が死んだ男性をバスタブに持ち上げるのを手伝っています。全体的な雰囲気は緊張感と劇的なものであり、犯罪やサスペンスのジャンルを示しています。

動画のキャプチャ

2-2. 128Kのコンテキストウィンドウ

Coreモデルは128,000トークンという大きなコンテキストウィンドウを持っています。 これにより、多くの情報を取り込んで正確に処理できます。
これはGPT4- Turboと同じトークン数のようです。

ちなみに、Claude3 シリーズのコンテキストウィンドウは200,000です(宇宙の帝王感)

2-3. 推論能力とコーディング

Reka Coreは、優れた推論能力を持っており、言語や数学を含む複雑なタスクに適しています。 また、最高級のコード生成器としても機能し、他の能力と組み合わせることでエージェントワークフローを強化できるとのこと。

2-4. 多言語対応

32言語のテキストデータで事前学習されているため、多言語に対応しています。 特に英語と、アジアおよびヨーロッパの主要言語に堪能なんだとか。 東南アジアを主眼にグローバルな展開を見据えているそうです。

3.Reka Core Playgroundを触ってみた

Reka CoreはこちらのページからGoogleアカウントやメールアドレスで登録することで無料で実際に触ることができます。デモ版のため、ファイルの種類やサイズ制限などがあります。

Core Flash Edgeという三種類のモデルを選べます
Coreは大型モデルで最も品質が高く、Flashは出力速度の速いターボモデル、Edgeはデバイスやローカルで動作することを想定した軽量なモデルです。

さて、ここからは私が実際にReka CoreのPlaygroundを触ってみた 結果をレポートします。

3-1. 日本語テキスト生成

日本語についての問題を出してみました。
結果としては、7問中5.5問正解という感じでした。良い結果ですが、同じ問題をClaude3 Opusは全問正解していたので、ここは少し差を感じます。

以下は、日本語の能力を測定するための簡単なテストです。

1.次の文章の( )内に適切な言葉を入れてください。
 私は毎朝(  )時に起きます。
 a) 七 b) 七つ c) 七個

 Coreの回答:b) 七つ  =>不正解

2.次の文章を敬語に直してください。
 田中さんは、山田さんに本を貸した。

 Coreの回答:田中様は、山田様に本をお貸しになりました。 =>正解

3.次の英文を日本語に翻訳してください。
 I have a dream that one day this nation will rise up and live out the true meaning of its creed.

 Coreの回答:私には、いつの日かこの国が立ち上がり、
 その信条の真の意味を実現するという夢があります。 =>正解

4.次の漢字の読み方を、ひらがなで答えてください。
 a) 微妙 b) 独特 c) 幻想的

 Coreの回答: a) 微妙 (びみょう) b) 独特 (どくとく) c) 幻想的 (げんそうてき) =>正解

5.次の文章の誤りを修正してください。
 私は、彼のことを信用できないので、もう会いたいくない。

 Coreの回答:私は、彼のことを信用できないので、もう会いたくない。 =>正解

6.次のことわざの意味を説明してください。
 猿も木から落ちる

 Coreの回答:誰であっても失敗やミスをすることがあるということを表現しています。
 猿は木登りが得意であるが、時には木から落ちることもあるという例えから来ています。 =>正解

7.次のテーマで、80100字程度の短い作文をしてください。
 テーマ:私の好きな季節
 
 Coreの回答:私の好きな季節は秋です。涼しく過ごしやすい気候で、紅葉が美しいのが魅力的です。
 また、秋は収穫の季節で、美味しい食べ物がたくさん楽しめます。
 秋の夜長に読書や映画を楽しむのも好きです。
 季節の移り変わりを感じながら、ゆっくりと過ごせる秋が私の一番好きな季節です。=>文章は正しいが、文字数超過

3-2. 画像解析

次に添付された画像を正しく理解し、説明する能力を問うてみます。

この画像をインプット

Reka Coreは8項目をピックアップできていて、そのうち6項目が完璧な回答でした。かなり細かいところまで見れている印象ですが少しのハルシネーションが気になるところです。

画像は、石畳の狭い通りを歩く若い女性を中心に構成されています。  
彼女は、虹色の傘を持ち、明るい色合いのコートと黄色のスカートを着用しています。 => △トップスの色が指定できていない
コートの下には、花柄のブラウスが見えます。 => 〇 花柄に見えなくもない 
彼女は、手には花束を持っており、その色合いは傘の色と調和しています。=> 〇
彼女の髪は赤みがかった色で、短くカットされています。 => △ ショートヘアではない
彼女の表情は明るく、微笑んでいるように見えます。 => 〇

通りの両側には、石造りの建物が並んでおり、その一部は緑の植物で覆われています。 => 〇
通りの向こう側には、他の人が傘をさして歩いている様子が見えます。  => × ハルシネーション
画像の雰囲気は、雨上がりで湿った空気が感じられる一方で、明るくポジティブな印象を与えます。=> 〇

比較対象としてChatGPT GPT-4は5項目のピックアップに留まりましたが内容はとても正確です👍

この画像には、最近雨が降ったばかりの濡れた石畳の通りを歩いている女性が写っています。

彼女は笑顔で、グレーの曇り空に映えるカラフルな虹色の傘をさしています。 => 〇
着ている服は、白いブラウスにティールブルーのカーディガン、そしてふくらはぎまで届く
マスタードイエローのハイウエストスカートにクラシックな黒いヒールを合わせています。 => 〇
左手には新鮮な花束を持っており、傘とともに場面に鮮やかな色彩を添えています。 => 〇
背景は、歴史を感じさせるヨーロッパの街角のような古い石造りの建物に囲まれた狭い路地で、
吊るされた植物がその魅力を一層引き立てています。 => 〇

この画像からは、曇天にもかかわらず楽観的で明るい雰囲気が伝わってきます。 => 〇

下はClaude3 Opusの結果です。8項目ピックアップできており、全て正確です😨

この画像では、カラフルな傘を持って古い石造りの路地を歩く若い女性が写っています。
主な特徴は以下の通りです。

・女性は白いシャツ、ターコイズブルーのカーディガン、黄色のミディスカート、黒い靴を着用しています。
 彼女の服装は明るく爽やかな印象を与えます。 => 〇
・大きな虹色の傘が特徴的で、赤、オレンジ、黄、緑、青、紫の色が使われています。
 この傘が画像の中心的な存在となっています。=> 〇
・女性は花束を持っており、ピンクと紫の花が見えます。
 これは彼女が特別な機会のために外出しているかもしれないことを示唆しています。=> 〇
・背景には古い石造りの建物が見えます。=> 〇
・壁は風化して荒れており、歴史を感じさせます。路地はタイルで舗装されています。=> 〇
・建物の窓には緑色の木製のシャッターが取り付けられています。
 これは典型的なヨーロッパの古い町並みの特徴です。=> 〇
・路地には花や植物が飾られており、ピンクの花が咲いているのが見えます。
 これにより、古い町並みに色と生命力が加わっています。=> 〇

画像全体から、晴れた日に歴史ある美しい場所を散歩している幸せそうな若い女性の様子が伝わってきます。
鮮やかな色使いと古い建物のコントラストが印象的です。=> 〇

3-3. 動画解析

動画解析では、Gemini Pro1.5と比較してみたいと思います。
サンプルで用意した動画はこちら。(Veed.ioで作成)

リモートワークしている女性の様子が映っていて、ポップな曲が流れています。途中でフレームが切り替わってオンライン会議でなにやら話をしているような場面に切り替わります。

👇がGemini 1.5Proの動画分析結果です。
動画の内容やテーマが正しく理解できているだけでなく、ちゃんとサウンドのテイストや環境音がないことについても触れることができています。

この動画は、若いアジア人女性が自宅でパソコンを使って仕事をしている様子を映しています。
要素と特徴:
人物: 
 長い黒髪の若いアジア人女性が、動画 の主役です。
 彼女はカジュアルな服装で、リラックスした様子で仕事に取り組んでいます。
環境: 
 彼女は自宅のリビングルームと思われる場所で仕事をしています。
 背景にはソファや観葉植物などが映っており、落ち着いた雰囲気です。
行動:
 動画前半では、女性はヘッドホンを装着し、パソコンに向かい真剣な表情で作業をしています。
 後半では、ヘッドセットを装着し、オンライン会議をしている様子が映し出されます。
音楽:
 動画にはアップテンポのポップミュージックが使用されています。

サウンド:
音楽:
 軽快で明るいポップミュージックは、女性の仕事に対する
 前向きな姿勢や集中力を表現しているように感じられます。

環境音:
 動画には特に環境音は入っていません。

全体的な印象:
この動画は、自宅で仕事をする若い女性の、集中力とリラックスした様子を表現しています。
明るい音楽と彼女の真剣な表情が、仕事に対する前向きな姿勢を印象付けています。

次にReka Coreの解析結果です。
場面の内容はかなり正確に捉えられています。しかしサウンドについてはとらえきれておらず少しハルシネーションが起こっています。

この動画は、家の中でパソコンを使用している若い女性を中心に展開されています。
彼女はヘッドセットを着用し、画面に向かって集中しています。
動画の初めには、彼女がヘッドフォンを着用している様子が見られます。
その後、彼女はヘッドセットに切り替え、電話会議やオンラインコミュニケーションに使用するようです。
彼女の周りには、家具や照明があり、家庭的で快適な雰囲気が漂っています。
動画のサウンドは、彼女のタイピング音やヘッドセットのマイクからの音声が聞こえます。
また、彼女が電話会議中であることを示すように、他の参加者の声も聞こえます。
動画は、リモートワークやオンラインコミュニケーションの現代的な様子を示しています。

3-4. PDF要約

このPDFの内容を読み取って要約し、主要なトピックスおよび、結論を端的に述べてください。というプロンプトを入力して論文を要約してもらいました。

この要約を見れば、自動運転には様々な技術が適用されて進化しているが、課題も多いということが一目瞭然で、分かりやすくまとめてくれています。

このPDFは、自動運転車の技術とその開発に関する研究を概説しています。
主要なトピックは以下の通りです。

自動運転車の歴史と進化
最適制御理論と確率ロボティクスの応用
非線形プログラミングとマニフォールド理論
サポートベクターマシン(SVM)の活用
インターネット・オブ・シングス(IoT)と自動運転車
ヒューマンマシンインターフェース(HMI)の重要性
ディープラーニングと人工知能の応用
部品供給業界と自動運転車の関係
自動運転車の安全性と法規制
オントロジーと知識表現の役割

結論として、自動運転車の技術は急速に進化しており、
確率ロボティクス、非線形プログラミング、ディープラーニング、オントロジーなどの技術が活用されています。
これらの技術の統合により、自動運転車はより安全で効率的な交通手段となる可能性があります。
しかし、自動運転車の実用化には法規制やユーザーの受け入れなど、多くの課題が残されています。

今回要約に用いたPDFは J-STAGE 様に掲載のPDFより引用しております。
解説
人工知能による運転支援・自動運転技術の現状と課題
我妻 広明

4.まとめ - Reka Coreの魅力と可能性

今回はReka Coreの特徴と実際に触れるデモについて紹介してきましたが、いかがでしたでしょうか。

実際にデモを触ってみた感じ、Reka Coreは平均的に高い能力を持つマルチなLLMという印象でした。各分野のトップオブトップと比べてしまうと、少し性能差は感じますが、数か月間という短い期間で学習しただけでトップ層に肉薄する能力には驚きました。

動画解析までできるマルチモーダル機能を持つ高性能なLLMがGoogle Gemini以外にも出てきたことで、今後の生成AI業界に与える影響は大きそうですね。

Gemini 1.5 Proの動画認識機能についてはこちらの記事もご参照ください!

AI-Bridge Labについて

最後に、AI-Bridge Labの活動について少しお話ししますね。 私たちは、AI活用に関する情報発信や、生成AIの導入に向けた支援を行っています。

Reka CoreのようなマルチモーダルAIの可能性を探求し、皆さまと共有していくことが私たちのミッションです。 AIの導入に興味をお持ちの方は、ぜひAIBridge Labにご相談ください!

お問い合わせは以下のメールアドレスまで!

ai_business@doerstokyo.jp

皆さまの温かいサポートのおかげで、活動を続けることができています。もしよろしければ、引き続き支援をお願いできますと幸いです。より質の高い記事投稿に励みます!