見出し画像

【9/30-10/6】生成AI活用事例/研究開発-Weeklyまとめ

今週のAIに関する活用事例や研究開発情報の備忘録記事です。


活用事例

・AIトレーニングモデルが数千人の有名作家の本を含む約20万タイトルを分析


・AIホリエモン、北九州のFMラジオ「CROSS FM」の代表取締役会長に就任「AIホリエモン」がアナウンサーに 北九州のFMラジオ「CROSS FM」代表取締役会長に堀江氏就任


・シャオミの四足歩行ロボットが特設ステージでパフォーマンス
https://twitter.com/YamayaT/status/1708255348489126337


・Azure OpenAIサービスがGPT-4やGPT-4-32kを全ユーザーに提供開始


・現実世界での情報を保存・サポートするAIウェアラブルデバイス
pendant: 現実世界で話し、聞いた内容を保存し、サポートするAIウェアラブルデバイス
PCなどのデバイス上で、見たり、話したり、聞いたりしたことを保存し、サポートするAIのRewindより


・小型音響ロボット群が特定の人物の声を消す・聞くことができる


・JPモルガン・チェースCEO、AI活用で週3日半勤務を予測
米銀JPモルガン・チェースのジェイミー・ダイモンCEO、AI活用で次世代は「週3日半勤務」に-リスクも指摘
‐同行ではAIを既に数千人の従業員が活用
‐ブルームバーグテレビジョンとのインタビューで、「彼らは恐らく週3日半の勤務になるだろう」と話す


・"Coperni Spring Summer 2024 ShowでHumaneのAIピンがランウェイに登場"


・Humaneの「Ai Pin」がパリのランウェイでデビュー
サム・アルトマンも出資するHumaneの「Ai Pin」がパリのランウェイでデビュー
‐11月9日に開催されるイベントで正式発表されることが確認
‐しかし、その間に、パリのファッションショーでこの端末が登場
(他動画などはスレッドに)


・アマゾン、AIを活用したチャット機能で検索体験を改善
プロジェクト・ナイルの内幕:オンラインショッピングのあり方を変える、アマゾンのAI搭載極秘計画。
‐アマゾンはAIを活用したチャット機能で検索体験の一新を計画
‐ある経営幹部は、AIを買い物客の好みを熟知した店頭販売員のような存在にしたいと考えている。


・グーグル共同創業者、AIモデル「ジェミニ」に取り組む
グーグル共同創業者セルゲイ・ブリンが、同社のAI事業と到来する「テクノロジー革命」を誇示するため、珍しく全員参加の会議に出席
‐セルゲイ・ブリンはグーグルの次期AIモデル「ジェミニ」に取り組んでいる。


・Meta、AI学習にソーシャルメディアを活用
Metaは、AI学習にインスタやFBを利用していると述べた
‐プライベートなメッセージや投稿は対象外


・3Dモデルを低解像度で撮影し、AI変換で高解像度アニメにすることが可能になりました


・ストーリーボードが物語性を持ち、複数場面を生成できるようになりました


・サービス価値と機能要件の定義と設計


・コンサルティング会社の資料が無料で閲覧可能


・「ELYZAやLlama2-70Bを無料で使えるAPIプラットフォーム、Fireworks.aiが超高速でコードも書ける」


・AI広告による女性ユーザーの爆増


・デザイン生成の進化に期待
下2枚とか、服のシワや角度も考慮して生成されてる
各種デザイン生成で、文字がボトルネックになっていた分野がどうなるのか楽しみ


・ChatGPTやGPT-4を使っていない人は自身の人生を悔い改めるべき


・データアノテーションの下請け業者のツリー構造
データアノテーション下請けツリー構造


・EC内のチャットボットサービスが他分野にも対応可能
EC内のチャットボットサービスがショッピング以外も対応できるとのこと
ショッピングという対話理由から、さらに他分野にも広げられたら嬉しいやろなー


・コンテンツのフォーマット作業が顧客の利便性向上に貢献
とりわけ、顧客の利便性の向上につながったのは、自身のアイデアを指定のフォーマットに書き落とす作業支援
コンテンツを指定の状態に対応させる作業全般ありそう


・自動化AIサービスInduced AIが$2.3M調達、ブラウザー上の動きを読み取るワークフローの真似を実現


・Fully Connected 2023 Tokyoカンファレンスの講演タイトル・概要が公開されました


・RunwayとCanvaが提携し、AI動画生成技術を全世界のCanvaユーザーに提供開始


・CanvaがAIデザインプラットフォームMagic Studioをリリース
CanvaがAIデザインプラットフォームMagic Studioをリリース
‐Magic Switch: コンテンツをブログ、SNS投稿など用に自動変換
‐Magic Media: 動画生成を追加
‐Magic Grab: 任意の被写体を自動的に分離し、編集、位置/サイズ変更可能
‐Magic Expand: 画像を枠外に拡大
など


・Walmart、AIを活用したパーソナライズされた商品レコメンドを提供予定


・AIによるゲームキャラクターの顔の修正を試す


・GoogleがAssistant with Bardを発表
GoogleがアシスタントのAssistant with Bardを発表
‐旅行計画、メールの受信箱から詳細を探す、食料品リストを作成など
‐GmailやDocsなどの一部と統合し、情報の検索や要約を支援
‐写真にキャプションをつけるサポートも
‐AndroidとiOSに数ヶ月のうちに登場


・Pixel 8と8 ProのAI機能による画像と音声の編集能力
Pixel 8と8 ProのAI機能
‐Magic Editor: 風景を変えたり、邪魔なものを取り除いたり、画像内の人物を移動させたり
‐Audio Magic Eraser: 動画内の邪魔な音を最小限に
‐Best Take: 似た画像を何枚も撮ったとき、それぞれの被写体に最適な顔を選び統合


・依存関係グラフを利用してリポジトリ全体を生成する際のチェックが大変依存関係グラフを利用しリポジトリ全体も生成と。
すごい!と同時にチェックも大変そう。
‐「gpt-4-32kモデル」を活用
‐テスト対象となった6つのリポジトリのうち、CodePlanを使用した5つのリポジトリがコードエラーなく正確に動作


・パーソナライズAIがオンライン消費者サービス市場を変革する
a16zによる、パーソナライズAIがオンライン消費者サービスの巨大市場を切り開く理由
‐デジタルサービスと対面サービスの間に価格差がある市場で特に優位
‐ファイナンシャルアドバイザー、リーガルサポート、フィットネストレーニング、インテリアデザイン、などなど


・サム・アルトマンはOpenAIの株式を一株も持っていない


・2023年上半期、AI生成技術スタートアップへの出資額が$14.1Bに達する


・日本企業の72%が生成AIの利用禁止


・VisaがAI企業への1億ドル投資を計上
Visa、生成AI企業への投資に1億ドルを計上


・マイクロソフトがOpenAIに賭ける理由
マイクロソフトがOpenAIに賭けた理由
‐マイクロソフトのサティア・ナデラCEOは、AIを推進するために会社を再編成
‐Azureクラウドコンピューティング部門がOpenAIのスーパーコンピューターに12億ドルを支出
‐マイクロソフトの研究者はOpenAIをサポートする前は懐疑的


・欧州中央銀行、AIを利用した新ツールの実験中
欧州中央銀行が新たなツールで実験中
‐AIは、政策立案者がインフレを理解し、大手金融機関を規制するのに役立つかもしれない、と中央銀行は述べた


・BingがGoogleに対抗するためにAIを活用


・渋谷と六本木でメルカリの生成AIによるCMが流れている


研究開発

・Microsoftが画像対応の生成AI「DeepSpeed-VisualChat」を開発


・英語向けの小さい3Bモデルが7Bモデルに迫る性能を達成


・LLMによる学習データの影響はランダムである


・Googleが画像補完のRealfillを発表
Googleさんより、画像補完のRealfill
‐シーンの複数枚画像のみ
‐視点、照明条件、画像スタイルなどが異なる画像を使用可能


・ゲームシナリオを利用した学習用データセット公開プロジェクト開始


・ViT + 自己教師あり学習で画像表現学習をする際には、計算用トークンの追加が重要


・10倍高速な3Dモデル生成AI「DreamGaussian」と記事量産AI「InternLM-XComposer」を解説


・AppleのJohn Giannandreaが次世代検索エンジンの開発を進める


・マイクロソフトの研究者がGPT-4Vの能力を詳細に分析


・RLHFにおける課題と既存研究のまとめ


・望ましくない知識の修正技術、ICCV2023で新たな手法が発見される


・RAG LLMアプリの最適化の秘訣


・Stable LM 3Bをリリース
現在のモデルは無料で使用でき、オープンソースの CC-By-SA 4.0 ライセンスの下でリリース


・LLama2の全層をQLoRAで学習することで学習精度が向上


・Falcon180BをPEFTとDeepSpeedで微調整する方法
Falcon180Bのような巨大なモデルをHugging FaceのPEFTとDeepSpeedを使って微調整するブログ


・モデルへの攻撃成功率の記録
ChatGPTやLlama-2といったモデルに対しては90%以上の攻撃成功率を記録している。さらに、Bard(61%)、Claude-2(91%)、PaLM2(96%)など


・アリババクラウド、オープンソース化により高性能なモデルを無償提供
アリババクラウドは「Qwen-14B」と、チャットモデル「Qwen-14B-Chat」をオープンソース化し、無償で商用可能に
‐様々な評価データで、同等規模の全SOTA(State-Of-The-Art)モデルを上回り、Llama-2-13B(パラメーター数130億)」をも上回る


・Anthropicとマイクロソフト、オープンソースAIについての立場対立
オープンソースAIに関する、Anthropicからマイクロソフトまでのそれぞれの立場


・GPT-4ベースの新しいエージェント『Suspicion-Agent』が不完全情報ゲームを上手にプレイすることができる


・MVDream: Text-to-3D Generation for Solving the Janus Problem


・PixArt-α: フォトリアルなテキスト画像生成の高速トレーニング
PixArt-α: フォトリアルなテキスト画像生成高速トレーニング
‐画像生成品質は、最先端の画像ジェネレーター(Imagen、SDXL、Midjourney)と競合
‐学習時間はSD v1.5の10.8%、90%のCO2排出量を削減
プロジェクト: https://pixart-alpha.github.io
論文: https://arxiv.org/abs/2310.00426


・LLMのロールプレイング能力を向上するためのフレームワーク
RoleLLM: LLMのロールプレイング能力をベンチマークし、引き出し、強化するためのフレームワーク
(1)役割プロファイルの構築
(2)役割に特化した知識とエピソード記憶を抽出することを目的とした文脈に基づく指示生成(Context-Instruct)
(3)主に話し方の模倣を目的としたGPTを用いた役割プロンプティング(RoleGPT)
(4)既存のオープンソースLLMを強化するためにContext-InstructとRoleGPTによって生成されたデータを利用する役割条件付きインストラクションチューニング(RoCIT)
論文: https://arxiv.org/abs/2310.00746
github:https://github.com/InteractiveNLP-Team/RoleLLM-public


・言語モデルがデータから自己改善を学習
言語モデルがデータから自己改善を暗黙的に学習できるように


・1つのモデルで拡散、GAN、生成モデルを打ち破る


・ELYZAが産総研の生成AI開発支援プログラムに採択され、ABCIの計算能力を利用して国産の大規模言語モデルの開発を加速


・Google DeepMindが新しい自然言語指示可能なロボットモデルを発表


・大規模言語モデルが類推推論を促進
類推を促すは面白い
類推推論としての大規模言語モデル
‐人間が新しい問題に取り組むために、関連する過去の経験から引き出す認知プロセスである類推推論に触発
‐関連する模範例やコンテキスト内の知識を自己生成するように言語モデルを促す
‐ゼロショットCoTなどを凌駕
論文:https://huggingface.co/papers/2310.01714


・Hotshot-XL: AIテキストからGIFへのモデルがリリースされました


・事前学習済みモデルの融合における相互注意機構の効果と再学習コストの削減


・サイバーとゲーム・アニメのAI活用研究が進展


・ゲームAI Labが新設されました


・「Rekaが対話型AI「Yasa-1」を発表」


・PythonのOpenAIライブラリがv1.0へメジャーアップデート予定、Azureのサポート廃止予定も


・ユニバーサルオーディオ生成のためのオーディオ基盤モデル
UniAudio: ユニバーサルオーディオ生成に向けたオーディオ基盤モデル


・Luma AIがガウススプラッティングを使用したインタラクティブシーンをリリース


・事実性向上のためのTransformerモデルの改善


・"Non-invasive Brain Recordings Decode Speech Perception"


・NVIDIAの研究によるRAGとCWのパフォーマンス比較


・GPT-4ベースの『Suspicion(疑心)-Agent』が不完全情報ゲームで上手にプレイすることを実証


・銀行強盗計画の自動生成モデルが存在する


・Tencentから発表されたSeRumという文書画像からテキスト情報を抽出する新しいE2E手法について


・量子化されたLLMについて、一般的にLLMで発現するとされているin-context learning、chain-of-thought, instruction-followingといった能力がどの程度保てているかを検証した研究


・LLM開発のためにMLOpsチームがやるべきこと


・「モデルサイズを大きくするにつれてバッチサイズを大きく、learning rateを小さく」に関して


・AIに関する多数のデータを収集してまとめた報告書「AI index Report 2023」をarxivに公開


この記事が気に入ったらサポートをしてみませんか?