見出し画像

【3/4-3/10】生成AIツール/研究-Weeklyまとめ

今週のAIに関するツールや研究情報をまとめた記事です。

ツール

・shopifyのAIアシスタント @shopを使っての体験談
※あくまで1例で全てではないです。
- 最初に尋ねたことをすべて理解してくれたか? : No
- 機能が不足しているため、Web で購入を確定する必要があったか? : Yes
- 通常の検索よりも高速で、結果が良く、楽しいものだったか? : YesYesYes


・CLIPとChatGPTを使って、日本語で自分で撮った写真が検索できるようにした方


・ChatGPT に Unity 上のオブジェクトを操作してもらえるようにした方


・【iPhoneの音声AIチャット(ChatGPT)】の設定方法紹介ツイート


・NVIDIAのInstant NeRF VRのフローター消しゴムでVR空間の要素を消してる様子


・ControlNetとGen1を比較する AI 実験
動画は3部構成
1. ControlNetによるVideo2Minecraft
2. Gen1によるMinecraft動画生成
3. 他Gen1による3Dレンダリングなど
一部詳細はスレッドにて)


・アップデート:Auto-Photoshop-StableDiffusion-Plugin v1.2.0 ControlNetが追加
ワンクリックインストーラーなども
github: https://github.com/AbdullahAlfaraj/Auto-Photoshop-StableDiffusion-Plugin…...
reddit: https://reddit.com/r/StableDiffusion/comments/11iuqhv/major_update_automatic1111_photoshop_stable/ 


・Heybot: Website to Chatbot
ウェブサイト/ブログをコーディングなしで数分でチャットボットに変換できる LPを読み込ませたり、FAQサイトを読み込ませて、シュッとチャットボット作ったりなど
※自分のOpenAI keyが必要
https://heybot.thesamur.ai/?ref=producthunt… 


・何この精密な深度マップ。目や髪や襟まで。
@clipdropappAPIによる深度マップ。 ControlNetでの使用例も
https://reddit.com/r/StableDiffusion/comments/11izkkl/using_clipdrop_api_to_create_depth_normal_for_use/


・開発者向け検索エンジン
github issueやstackoverflowなどの開発者向けソースから回答を生成 この、領域特化に引用ソースを限定して回答を生成するのは面白い かつ、添付画像のように、引用ソースの優先度を変更したり重み付けしたりは良い
https://phind.com/filters


・任意の 複数Web ページから独自の ChatGPT ボットを作成できるクローム拡張を開発中とのこと。
こンな感じの基礎技術の組み合わせで、既存企業のサイトボットをサクッと置き換えできてまいそうやけどな〜少なくともサイト内検索は置き換えよう


・AI を利用した3D キャラクター作成ツールのパブリック ベータ版が公開
waitリスト:
https://forms.office.com/Pages/ResponsePage.aspx?id=DQSIkWdsW0yxEjajBLZtrQAAAAAAAAAAAANAAUIQFilUNjNGM0NLUUhEUEkxVlRFTkw0OVA3NzlVNS4u


・ChatGPTのAPI使ってChatGPTみたいに使えるオープンソースデモ


・前回と別デモ動画が回ってきたけど相変わらずすごいな
好きなアプリのスクリーンショット画像をアップすれば、編集可能なデザインに変換できる
https://uizard.io 


・Yコンビネーター出身のパーソナル秘書サービス「Magic」
当初はtoC向けになんでも雑務をこなす(忘れ物を家に取りに帰るなどの細かいタスク含め)サービスだったけど、その後はtoB向けサービスへ転換。 今ではAIをフル活用したサービスメッセージを押し出している
https://getmagic.com


・モバイル Web 用の Poe が Android 向けに本日リリース
http://poe.comで入手可能
OpenAI の ChatGPT、Anthropic の Claude、およびその他のいくつかのボットをサポート


・Nerf + 生成AI を使用した3Dスキャンした街並みのスタイル変換
動画内のスタイル遷移: おもちゃの街 → 昼から夜 → 70 年代のシネマティック
ワークフロー: ドローン動画 → トレーニング & アニメーション化 by NeRF (Luma) → スタイル変換 by Gen1


・Stable Diffusionを使ってPhotoshopで画像編集するNextML社の新しいプラグインの映像が公開


・学習暗記アプリ「Monoxer」を提供している、教育スタートアップのモノグサさん確かに面白い
-AIが個々の学習者に合った学習計画の立案と管理、問題の自動生成、1日の出題数の自動調整を行い、記憶の定着を支援
-各塾で使われる問題集をAIに取り込み活用することで、問題の制作コストをゼロに抑え、各塾での導入が容易に。
-「理解は人に勝るものはない、定着こそがデジタルの出番」という考え方に基づき、理解の部分はタッチせずに、ひたすら定着の部分だけのデジタル化を促進。
-塾や予備校だけでなく、企業での研修や資格取得の対策などでも活用されている。
-モノグサは、暗記が必要な社会人の学びにも活用できる可能性があり、ポテンシャルが非常に高いと考えられている。


・すごいサービスだ お悩みにメカニカル仏が答えます


・NeRFをリアルタイム描画する #UE4 プラグインを開発中
https://youtu.be/GjpzMDur7UY 


・GPT x マインドマップのWhimsical AI for Mind Maps
質問に対して代わりにブレストしてブロックを生成してくれる やってみたけど、いつも通り日本語は少し時間かかった
https://whimsical.com/ai-mind-maps 


・hubble ノーコードAIアプリ開発ツール


Copy.aiがチャット機能も追加
ウェブを検索し、ソースを引用して様々な回答を生成
-リンクを貼り、ウェブサイト、YouTube動画、記事などを要約したり
-長編コンテンツをソーシャルメディアの投稿に変換したり
-企業、人物、トピックを調べたり
-ブレーンストーミングしたりなどなど https://app.copy.ai/projects/21143660?tool=chat&tab=results&ref=producthunt&sidebar=tools&text=write+a+short+product+hunt+comment+showing+love+for+Copy.ai%27s+new+chat+product


・D-IDがリアルなアバターと対面で話すことができる新しいWebアプリ「chat.D-ID」のベータ版を発表
chat.D-IDは、D-IDのテキスト動画生成とOpenAIのChatGPTを組み合わせ、より多くの人々がAIと会話できるようにしたサービス


・Brexは、CFOやそのチーム向けのAIツールを発表
企業の支出に関する適切な洞察を提供し、ビジネスに関する重要な問題にリアルタイムで回答することが可能となる。
新しいツールは、何百万もの取引からのデータを取り入れ、パフォーマンスや支出をベンチマークとして比較することができる。


・LlaMA 65BをA100 80GB(int8量子化)1台で。
少なくともGPT-3と同等とのこと。
Webui:


・AIとマッチングするサービス
これはまた色んな意味ですごいサービス。マッチングという軸だけでなく色々と展開が広がりそうな試み。
多分元redditはこれかな? https://reddit.com/r/androidapps/comments/11l3evo/i_made_tinder_but_with_ai_anime_girls/…
ダウンロードリンクはおそらくこれ https://play.google.com/store/apps/details?id=com.codecandy.waifu.hot.dates&pli=1


・一般ユーザーは詳細な呪文を書かないだろうから、こういう自動補間モデルやテンプレートや過去データをもとに、詠唱破棄や詠唱短縮が進みそう Teleprompter:プロンプトの自動補間ができるモデル -50,000 の最良のMidjourneyプロンプトで学習
-GPT3とリンクして出力をさらに絞り込みにより実現
-画像:High tech robotにプロンプトを自動拡張して生成した例(投稿者様のスレにもっとあります)
-サイト:http://teleprompter.olafblitz.repl.co 


・本命きた! MiroAI
-Mindmap Idea Generation: マインドマップを自動生成
-Summarize Sticky Notes: たくさんの付箋を1つにまとめる -テキストを書くだけでコードを作成
-Image Generation: テキストから画像を作成
-アイデアからユーザーストーリーを生成
など https://miro.com/ai/ 


・Discordで、Clyde、AutoMod AI、Conversation Summaries、という3つの実験が開始。
また、Avatar Remix、Whiteboard with AI Previewという機能も紹介。 そして、Discord AI Incubatorが発表され開発者等が支援を受けられるとのこと。
各詳細は続)


・RIPビデオエディター
CGキャラクターを実写のシーンに自動でアニメーションさせ、照明や合成を行うAIツール by @WonderDynamics
アーリーアクセスリクエスト: https://wonderdynamics.com 


・Cool Japan Diffusion 2.1.2 をリリース
- Picasso Diffusion ベースになって画質がかなり高くなった
- Picasso Diffusion よりもアニメ、マンガ、ゲームの表現能力が高い
デモ: https://huggingface.co/spaces/aipicasso/cool-japan-diffusion-latest-demo…
モデル: https://huggingface.co/aipicasso/cool-japan-diffusion-2-1-2

研究

・昨日オープンソースとして公開された Flan-UL2 とFlan-T5が比較できるデモ
レポ:http://huggingface.co/google/flan-ul2
スペース: https://huggingface.co/spaces/ybelkada/i-like-flan-ul2


・FLAN-UL2 20Bの@huggingfaceデモ
http://huggingface.co/google/flan-ul2


・セマンティックタイポグラフィ生成
単語の意味を踏まえたイラスト単語画像を自動生成できるらしい
論文: https://arxiv.org/abs/2303.01818
project: https://wordasimage.github.io/Word-As-Image-Page/ 


・各企業等の言語モデルのパラメータ、概要、アクセス制限が一覧されてる https://crfm.stanford.edu/helm/latest/?models=1


・[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithm…


・Prismer: マルチモーダルエキスパートによる視覚言語モデル
異なるタスクに最適化されたエキスパートモデルのアンサンブルを活用して、データおよびパラメータ効率の良い視覚言語モデルを目指す。最大で2桁少ない学習データで、現在のsotaに近いfew shotの推論性能を達成。
論文: https://arxiv.org/abs/2303.02506
プロジェクト: https://shikun.io/projects/prismer…
github: https://github.com/NVlabs/prismer


・StyO:ワンショットで顔のスタイル変換
コードはまもなく
論文:https://arxiv.org/abs/2303.03231


・世界で最も話されている1,000の言語をサポートするAI言語モデルを構築目標の第一歩に当たる「Universal Speech Model(USM)」について
USMは、12,000万時間の音声と300以上の言語にまたがる280億の文に基づいてトレーニングされた20億個のパラメータを持つ、最先端の音声モデル。 YouTubeはすでにUSMを使用してキャプションを生成しており、英語、中国語、アムハラ語、セブアノ語、アッサム語などを含む言語を自動的に検出および翻訳をサポート
https://theverge.com/2023/3/6/23627788/google-1000-language-ai-universal-speech-model…


・Googleが5620億のパラメーターを持つ最大の持視覚言語モデルPaLM-Eを開発
5400億パラメーターのPaLM + 220億パラメーターのViT = 5620億パラメーターのPaLM-E ロボット工学、視覚、および言語にまたがる、汎用的なモデル
詳細はスレッドに続く)
サイト: https://palm-e.github.io 


・GPTQ論文の手法でLLaMAのモデルを4ビット量子化で軽く


・思考の連鎖 (CoT) に関する論文まとめ
https://github.com/Timothyxxx/Chain-of-ThoughtsPapers


・テキスト、画像、3Dポイントクラウドの統合表現を学習するULIPのコードリリース来た!
事前学習済み視覚言語モデルを活用し、自動的に合成された少数のトリプレットを使用して、テキスト画像空間に整合する3D表現空間を学習する。 3Dバックボーンネットワークとして、任意の3Dアーキテクチャに簡単に統合できる。
https://github.com/salesforce/ULIP 


GLIGEN :ControlNet x Latent Couple


・Instagramの共同創業者が新たに立ち上げたニュースアグリゲーター「Artifact」を支える技術
-トップパブリッシャーの選定とユーザーの行動分析を組み合わせた独自の技術で記事の選択を行っており、クリックだけでなく閲覧時間やシェア数などの要素も考慮
-多くのニュースアプリが陥りがちな「フィルターバブル」に陥ることを避け、異なる視点からニュースを提供することを目指す
-将来的には、ユーザーが興味のあるコンテンツを発見し、他の人々と議論するための場所になることを望んでいる


・意思決定の基盤モデルに関しての、課題やツール、技術的背景の紹介
対話、自律走行、医療、教育、ロボット工学などの多様なアプリケーションで重要な、意思決定 x 基盤モデルに関して、プロンプト、最適制御、強化学習などの様々な方法を用いての最近のアプローチを検討し、共通の課題や未解決の問題について議論。
https://arxiv.org/abs/2303.04129


・BigScience ROOTSコーパス
1.6TBの複合多言語データセット
abs: https://arxiv.org/abs/2303.03915


・自分の声で外国語を話す
VALL-Eの拡張版のクロスリンガル音声合成のための言語モデルVALL-E Xを提案。 ゼロショットクロスリンガルテキストから音声合成およびゼロショット音声から音声への翻訳タスクに適用できる。 実験結果は、ソース言語の音声発話をプロンプトとして、ターゲット言語で高品質の音声を生成できることを示し、同時に未知の話者の声、感情、音響環境を保持できた。
論文: https://arxiv.org/abs/2303.03926
プロジェクト(デモなども): https://vallex-demo.github.io


・自然言語処理や視覚言語モデル周りの動向まとめ
技術者研究者寄りだけど、そうじゃない人も流れやまとめだけでも見てみるのオススメ
part1 https://speakerdeck.com/kyoun/deim-tutorial-part-1-nlp…
part2 https://speakerdeck.com/kyoun/deim-tutorial-part-2-vision-and-language?slide=6


・Visual ChatGPT: ビジュアル基盤モデルを使用した会話、描画、および編集
様々なビジュアル基盤モデルを組み込んだ Visual ChatGPT と呼ばれるシステムを構築
1) 言語だけでなく画像も送受信して、ユーザーが ChatGPT と対話できるように
2) 複数の AI のコラボレーションを必要とする複雑な視覚的な質問または視覚的な編集指示を提供
3)フィードバックを提供し、修正結果を求める https://arxiv.org/abs/2303.04671


・クロスアテンション制御を備えた実世界のビデオ編集のための新しいフレームワークであるVideo-P2P
元のポーズやシーンを最適に維持しながら、新しいキャラクターを生成するための現実世界のビデオでうまく機能
コードは後ほどリリース
abs: https://arxiv.org/abs/2303.04761
プロジェクト: https://video-p2p.github.io 


・プロンプトインジェクション対策について


・BingGPTっぽいやつ作るためのアイデア


・TRL + PEFTにより、24GB GPUを使用してRLHFで20B 言語モデルをチューニング可能に
トランスフォーマー言語モデルを強化学習できるTRLと、大規模言語モデルの下流タスクチューニングができるPEFTにより。
stepはスレッドに続く)


・ZoeDepthという深度推定のデモが公開
デモ:


・レイアウト指定画像生成のGLIGENがコード公開したそう
github: http://github.com/gligen/GLIGEN
Demo: http://huggingface.co/spaces/gligen/demo


・テキスト画像生成のためのGANのスケールアップ
- 1B パラメータ
- 0.13 秒で 512 ピクセルの出力を生成と推論時の処理速度が数桁速い
- 1600万画素を3.66秒で合成するなど、高精細な画像を合成することが可能
proj: https://mingukkang.github.io/GigaGAN/
abs: https://arxiv.org/abs/2303.05511


・3DGen: テクスチャメッシュ生成
単一のGPUで、高品質のテクスチャ付き/なしの3Dメッシュを数秒で条件付き/無条件に生成できる テクスチャ生成だけでなく、メッシュの品質に関しても、画像条件付き生成/無条件生成で先行研究を上回る
コードと学習済みモデルを後ほど
https://arxiv.org/abs/2303.05371


・LLMプロンプトパターンカタログ
ソフトウェア開発を自動化するためのプロンプトパターン
-アウトプットのカスタマイズ -プロンプト改善
-エラー識別
-入力セマンティクス
-コンテキストコントロール
-インタラクション
https://arxiv.org/abs/2302.11382

この記事が気に入ったらサポートをしてみませんか?