日刊AIニュース 10/4　Google Pixel 8: AIの深化と新機能が魅力の最新スマートフォン

2023年10月5日 14:23

Google Pixel 8: AIの深化と新機能が魅力の最新スマートフォン

（OJ）: ねぇ、Nekoちゃん、Googleの新しいPixel 8って聞いたことある？

（Neko）: ああ、それは最近の話題になっているものだのだ。Googleは2016年の最初のPixel phone以来、よりスマートなデバイスのビジョンを売り込んできたのだ。しかし、現在でも市場での存在感を示すのは難しい。例えば、先月、AppleとSamsungは北米で出荷されたすべてのスマートフォンの78％を占めていたが、Googleはわずか4％だったのだ。

（OJ）: そんなに少ないのか！でも、どうやってアメリカの消費者を魅了するつもりなの？

（Neko）: それが面白いところだのだ。Googleは人工知能（AI）にさらに注力することで、消費者を引きつけようとしている。最近発表された$699のPixel 8と$999のPixel 8 Proは、スタートアップやテクノロジーの巨人たちの間で流行している生成型AIや大規模言語モデルに依存するいくつかの機能を備えているのだ。

（OJ）: それはすごいね。具体的にどんな機能があるの？

（Neko）: たとえば、ウェブページを瞬時に要約したり、いくつかのあまり良くない写真から完璧な写真を作成したり、外国語のテキストを読み上げる前に自動的に翻訳する能力があるのだ。さらに、GoogleはPixel phonesに対して7年間のオペレーティングシステムのアップデートを約束している。これは、ガジェットが最新のソフトウェアを持っていることを確認するためのほぼ前例のない時間だのだ。

（OJ）: それは長いね。他にも何か特別な機能はあるの？

（Neko）: はい、大きなProモデルには、食品医薬品局の承認を受けると非常に有用な健康ツールとなることを期待されている異常な温度スキャナーが付属しているのだ。また、写真の中の顔を選択して、その写真にそれらの顔を縫い付けることができるBest Takeという機能もあるのだ。

（OJ）: それはちょっと不気味だね。

（Neko）: 確かに、それは少し奇妙に感じるかもしれない。しかし、Googleはこの機能をリアルタイムで撮影するのが遅すぎた瞬間を「再作成」する方法として考えているのだ。

（OJ）: なるほど。これらの新しい機能は、Googleが競合他社に追いつくための方法として有望そうだね。

（Neko）: その通りだのだ。しかし、これらのツール自体が実際に使い物になるかどうかが鍵となるのだ。

https://www.washingtonpost.com/technology/2023/10/04/google-pixel-8-ai-new-features/

孫正義氏、10年以内にAIが人間の知能を超えると予測：日本企業への警鐘

（OJ）: ねぇ、Nekoちゃん、ソフトバンクのCEO、孫正義さんが、10年以内に人工知能が人間の知能を超えると言っているって聞いたことある？

（Neko）: ああ、それは最近のニュースで大きく取り上げられている話題だのだ。詳しく説明するのだ。孫さんは、東京での企業カンファレンスで、artificial general intelligence will surpass the total intelligence of humankind by 10 times in 10 years.と述べたのだ。これは、交通、製薬、金融、製造、物流など、あらゆる業界に影響を及ぼすだろうとも言っているのだ。そして、AIと協力する企業や人々が、次の10〜20年のリーダーになるとも指摘しているのだ。

（OJ）: それはすごいね。でも、孫さんはなぜそんなにAIに注力しているんだろう？

（Neko）: 孫さんは、数十年前からインターネットの可能性を見抜いてきたのだ。そして、現在はAI関連の企業への投資を模索しているのだ。彼は**“I want to be on the side of progress,"**と述べ、進歩の側にいたいとの意向を示しているのだ。また、彼は日本の企業に対して、彼のAIによる未来のビジョンに目を覚ましてほしいと呼びかけているのだ。

（OJ）: でも、AIには懸念もあるよね？

（Neko）: その通りだのだ。例えば、ディスインフォメーションやプライバシーや著作権へのリスクなどの懸念があるのだ。実際、日本の首相、岸田文雄さんも、AIの大きな可能性を認識している一方で、これらの懸念にも言及しているのだ。

（OJ）: それにしても、孫さんは本当にAIの未来を信じているんだね。

（Neko）: そうだのだ。彼は、日本がインターネット時代に取り残された過去の過ちを繰り返してはならないと警告しているのだ。データ漏洩などのリスクを恐れて一部の企業が後ろ向きになることにも警戒しているのだ。

マイクロソフト、OpenAIの最新モデルDALL-E 3をBingに統合 - AI生成画像の透かし技術とは？

（OJ）: ねぇ、Nekoちゃん、マイクロソフトがOpenAIのDALL-E 3モデルをBingに組み込んだって聞いたことある？

（Neko）: ああ、それは最近のニュースで話題になっているのだ。DALL-E 3は、テキストから画像を生成するモデルで、マイクロソフトはこれをBing Image CreatorやChatサービスに統合したのだ。このモデルは、画像の全体的な品質や詳細を向上させるとともに、人の手や顔、画像内のテキストの精度も高めているらしいのだ。

（OJ）: それはすごいね。でも、AIで生成された画像って、どうやって本物と区別するの？

（Neko）: それについても考えられているのだ。マイクロソフトは、画像がAIで生成されたことを示すために、画像の作成日時を示す透明な透かしを追加する予定なのだ。実は、マイクロソフトは以前から、AmazonやGoogle、OpenAIなどの大手AI開発者と協力して、AIで生成されたコンテンツを検出・ラベル付けする透かし技術を開発しているのだ。

（OJ）: でも、透かしを付けるだけで、ディープフェイクや偽情報を防ぐことができるの？

（Neko）: それは難しい問題なのだ。実際、一部の研究者は、透かしを付けるだけでは、ディープフェイクや偽情報との戦いに効果的でない可能性があると指摘しているのだ。マイクロソフトもその問題を認識しており、Bingのコンテンツモデレーションシステムを導入して、DALL-E 3が不適切な画像を生成しないようにしているのだ。

（OJ）: それにしても、AIの進化はすごいね。DALL-E 3は、前のモデルよりもユーザーの要望に応じた画像を生成するのが得意なんだって？

（Neko）: その通り。DALL-E 3は、ユーザーのプロンプトを解析して、それに応じた画像を生成するのが得意なのだ。さらに、このモデルはChatGPTを使用して、ユーザーのプロンプトを自動的に調整して、より高品質な画像を作成するのだ。

本日の論文　マルチモーダル情報抽出の革命：新しいMQAフレームワークの登場

この論文は、マルチモーダル情報抽出の分野において、新しいアプローチとしてMQAフレームワークを提案し、その有効性を示すものとなっています。

著者: Yuxuan Sun, Kai Zhang, Yu Su

マルチモーダル情報抽出（MIE）は、テキストと画像を入力として、マルチモーダル名前エンティティ認識（MNER）、マルチモーダル関係抽出（MRE）、マルチモーダルイベント検出（MED）などの特定のサブタスクに分類されます。
現在のMIEモデルは、タスク固有でデータ集約的であり、実際のシナリオでの汎用性が制限されています。
この問題を解決するために、著者たちは新しいマルチモーダル質問応答（MQA）フレームワークを提案しています。このフレームワークは、三つのMIEタスクを統一的なスパン抽出とマルチチョイスQAパイプラインに再構築します。
実験結果は、MQAフレームワークが大規模なマルチモーダルモデル（LMM）の性能を大幅に向上させ、ゼロショット設定で以前の最先端のベースラインを大きく上回ることを示しています。
このフレームワークは、LMMを使用してMIEや他のマルチモーダルタスクをより効果的に解決するための一般的な原則として機能する可能性があります。

画期的なポイント:

MQAフレームワークは、MIEタスクの多様性と汎用性の問題を解決するための新しいアプローチを提供します。
MQAは、ゼロショット設定で以前の最先端のベースラインを大きく上回ります。
MQAフレームワークは、LMMを他のマルチモーダルタスクに適応させるための有望な一般的な原則として機能する可能性があります。

（OJ）: ねぇ、Nekoちゃん、マルチモーダル情報抽出（MIE）って聞いたことある？

（Neko）: ああ、それは非構造化のマルチメディアコンテンツから構造化された情報を抽出することを目指すものらしいのだ。詳しく説明するのだ。

（OJ）: それって、どういうこと？

（Neko）: 例えば、ソーシャルメディアはテキストや画像などのマルチメディアコンテンツで溢れているよね。MIEは、これらのコンテンツから情報を効果的に抽出するためのものだよ。具体的には、マルチモーダル名前エンティティ認識（MNER）、マルチモーダル関係抽出（MRE）、マルチモーダルイベント検出（MED）などのサブタスクに分類されるのだ。

（OJ）: それって、どうやって動くの？

（Neko）: それぞれのタスクは異なるが、例えばMNERは、テキストから特定の言及を識別し、それを事前に定義されたカテゴリ、例えば人や場所などに分類することを目的としているのだ。画像は、テキストのエンティティの抽出を強化するための追加の手がかりとして主に使用されるのだ。

（OJ）: なるほど、でもこれを実現するのは難しそうだね。

（Neko）: 確かに、多様なタスクや設定の多様性のため、現在のMIEモデルはタスク固有でデータ集約的であることが多いのだ。しかし、この論文では、これらの問題に対処するために、マルチモーダル質問応答（MQA）フレームワークを提案しているのだ。これにより、3つのMIEタスクを統一的なスパン抽出とマルチチョイスQAパイプラインに再構築するのだ。

（OJ）: それはすごいね！結果はどうだったの？

（Neko）: 実験結果によれば、このMQAフレームワークは、さまざまな大規模マルチモーダルモデル（LMM）の性能を大幅に向上させることができるのだ。特に、ゼロショット設定では、MQAは以前の最先端のベースラインを大きく上回る性能を示しているのだ。

（OJ）: これは、今後のマルチモーダルタスクにとって非常に有望そうだね。

（Neko）: まさにそうだよ。このMQAフレームワークは、LMMをより効果的に活用してMIEや他のダウンストリームのマルチモーダルタスクを解決するための一般的な原則として役立つ可能性があるのだ。

https://arxiv.org/pdf/2310.03017.pdf

この記事が気に入ったらサポートをしてみませんか？