![見出し画像](https://assets.st-note.com/production/uploads/images/133793869/rectangle_large_type_2_031739832ebb6b2283311ebd8e126e1d.png?width=1200)
気になる生成AI備忘録-vol.9-GPT-4.5Turboに関して+Magi
■気になる生成AI備忘録とは
個人的に気になる生成AIのポスト(X)をまとめた備忘録を共有する連載シリーズです。
より気になるもの・深追いしたいトピックは当サイト『はじめての生成AI比較.com』にてUP予定ではありますが、サイトは生成AIはじめての方・初心者の方向け、こちらnoteでは、基本的には脱初心者目線で取り進めています。
今回紹介するのは、2つ
・GPT-4.5Turboに関して
・Magi
まず、GPT-4.5Turboに関してというのは、こちら
GPT-4.5 Turbo possible release in June, 256k token context window:
— AI Breakfast (@AiBreakfast) March 12, 2024
This OpenAI blog search result shows up in a DuckDuckGo search of “OpenAI GPT-4.5 Turbo” link, then goes to an OpenAI Error 404 page.
Looks like the model will be trained up until June, then released with a… pic.twitter.com/PL7p2maGjV
GPT-4.5Turboは6月にリリースの可能性、256kトークンコンテキストウィンドウ
このOpenAIブログの検索結果は、"OpenAI GPT-4.5 Turbo "のリンクをDuckDuckGoで検索すると表示され、OpenAI Error 404ページに飛びます。
このモデルは6月までトレーニングされ、その後より大きなコンテキストウィンドウでリリースされるようです。
といった意味合いのポストですが、正直ほかにも海外筋で似たようなポストが複数ありました。
わかりやすくいうと、
GPT-4.5Turboが6月にリリースされる可能性がある
↓
その根拠が、DuckDuckGoなどの検索エンジンが公式発表前にGPT-4.5 Turbo製品ページをインデックスしたから
ということのようです。
私が気付いたときにDuckDuckGo(検索エンジン)で「GPT-4.5Turbo」で実際に検索してみたのですが、該当するインデックス内容は確認できませんでした。
だからといって、複数ポストに添付されている”そのインデックスのスクリーンショット”が捏造だというのは、個人的には思わなかったです。
少し興味深いと感じたのは、OpenAIのDeveloper Forumに挙げられていたことです↓
また、以下は海外のニュース記事です↓
実際に6月にGPT-4.5Turboがリリースされるのか否かは明言できませんし、わかりませんが、こういったことは信じる・信じないは人それぞれだと思います。
ちなみに、GPT-4がリリースされたのが、2023年の3月14日ということから、2024年3月14日にOpenAI公式から何らか発表があるのでは?という思惑もあるようですが、果たして...
また、「GPT-4.5Turboにはビデオに関する言及はなかった」という声もあるとかで、それが事実であれば、先日発表されたSoraはGPT-5のリリースタイミングで?と、考えてしまいますが、いずれにしても個人的には推論・憶測の範疇を超えないと感じ、「そうなのか」ぐらいなものです。
さて、この問題の行方はどうなることやら。
2024年3月14日、OpenAI公式から何らかのアナウンスはあるのかどうか、引き続き情報としては追っておきたいと思います。
続いて、Magiについて。
Magi:自动将漫画转录成文字 并自动生成剧本
— 小互 (@imxiaohu) March 11, 2024
Magi模型,由牛津大学工程科学系的视觉几何组开发。
它可以全自动地为漫画页生成剧本,包括谁说了什么以及何时说的。
还可以通过识别漫画页面上的面板、文字块和角色,以及将它们相互关联。
Magi模型的主要功能包括:… pic.twitter.com/I1Zh67I1Mj
Magiとは、簡潔にいうと、漫画の自動テキスト化とスクリプトの自動生成ができる、オックスフォード大学工学部のVisual Geometry Groupが開発したAI技術とのことです。
漫画内のキャラ(人物)が、いつ何を言ったかなど、スクリプトを完全に自動生成。
▼主な機能
コマの検出:コマのレイアウトを理解するための基礎となる、コミックページ上の個々のコマ、すなわち個別のコマを識別
テキストブロックの検出:コミックの各コマにあるテキストブロックを識別(これらのテキストブロックには通常、セリフや物語テキストが含まれる)
キャラクター検出:ページ上のキャラクター画像を識別(これは、テキストと話すキャラクターを関連付けるために不可欠)
役割クラスタリング:ページ上の異なる役割を区別するために、検出された役割をそのアイデンティティに従ってクラスタリング
※クラスタリングとは、漫画でいうと漫画内のキャラの顔分類を行う手法にあたるかと
テキストと話者の関連付け:ページ上の、どのテキストが、どのキャラクターによって話されているかを決定することは、正確なスクリプトを生成するために非常に重要
読み順並べ替え:検出されたテキストブロックを漫画の読み順に並べ替え、台本の物語論理が元の漫画と一致するようにする
これらの機能により、Magiは自動的に漫画のページを、登場人物の台詞とそれに対応する行動や状況の描写を含む詳細なテキストスクリプトに変換することができ、読者はテキストを読むことで漫画のストーリーを体験できる
との説明ポストになっています。
あわせて、論文やオンラインデモに関してもURLがあったので、オンラインデモを試してみました。
▼Magiオンラインデモ
著作権等の観点から、試してみた画像をここに載せることは差し控えますが、↑のポストにある動画のようには出来ませんでした。
↓は↑のポスト内にある動画の一部スクショですが、左側のように、とある漫画のスクショの表示はされましたが、右側の「character0:、character
1:」といったスクリプト部分に該当する内容は表示されませんでした。
![](https://assets.st-note.com/img/1710307626542-5CCsrcLU5n.jpg?width=1200)
漫画内の言語が日本語だから?、とも考え、英語台詞の漫画のスクショで試してみましたが、やはりスクリプトが表示(生成)されませんでした。
各パラメータを調整したりもしましたが、単に漫画のスクリーンショットだけが表示されるのみでした。
漫画ではありませんが、カット割りのような画像で試したのが↓です。
![](https://assets.st-note.com/img/1710307966757-G22rh02LgG.jpg?width=1200)
漫画として台詞がないからそれに伴いスクリプトも生成表示されないのかとも思いましたが、実際の漫画で試してもスクリプト生成されなかった(表示されなかった)ので、ひょっとするとデモだから?
とも考えましたが、↑のポストの説明動画のような結果にならない理由としては不明です。
ただ、ざっくり言うと漫画からAIの力で台本が生成される・生成できる技術は確かに公開されたのだということは頭に入れつつ、この辺の情報も追っていきたいところではあります。
この記事が気に入ったらサポートをしてみませんか?