【2/11-2/16】生成AIツール/研究-Weeklyまとめ

2023年2月16日 21:04

ツール

・CustomGPT
あなた自身のデータで「あなただけのChatBOTを構築」することができる。自分のデータをもとに、ブログ記事を書いたり、カスタマーサービスに関する質問に答えたり、さらに100以上のユースケースを実現。

・PEFT: 「パラメータを効率的に微調整」するためのライブラリ。 https://github.com/huggingface/peft…

・synthesic users
アイデアや製品をAIユーザーにテストインタビューできるサービス AIユーザーは、製品の特徴や阻害要因を明らかにするためのユニークなコメントを提供してくれる。
https://syntheticusers.com

・３ステップでLangChainアプリをデプロイ可能なツール https://steamship.com/build/langchain-apps

・Text to Space
テキストでインタラクティブな仮想体験を生成
http://Versy.ai

Looking forward to try Text-to-Space by https://t.co/5nekDnybza - a generative AI algorithm that turns text into interactive virtual experiences.#ai #vr #VirtualReality #virtual #digital #DigitalTwins #ArtificialIntelligence #Space #GenerativeAI #interactive #experience pic.twitter.com/UF8lD4ggPF
— Kyr Poskonoff🇺🇦 (@KPoskonoff) February 11, 2023

・extractGPT 構造化および非構造化ページからデータをスクレイピングするためのブラウザー拡張機能。
必要なテーブル列を指定するだけで、後は自動で実行可能！拡張機能に落ちて誰でも使えるようになったのは大きい。
https://airtable.com/shruPamX8OWa5tqdp

・AI生成ツールで作成された映画やビデオリスト
Grin Machine のトリッピーなミュージックビデオから、Paul Trillo の広告まで

Continuously updating the list with great videos 🪄 pic.twitter.com/alRbCYkblX
— Fabian Mosele (@FabianMosele) February 13, 2023

・ブログやウェビナーなどの長編コンテンツから 1 か月分の動画やソーシャルコンテンツを数分で生成するAI
無料でお試し: http://pictory.ai

Welcome to Pictory: the AI that produces a month of video and social content from longform content, such as blogs and webinars, in minutes.

Create, edit, and share social content like never before.

Try it for free now: https://t.co/6YRmXerYZL pic.twitter.com/DmDGe7a2Rq
— pictory (@pictoryai) May 20, 2021

・Pix2Pix Videoのデモ「人をロボットにする」

Another experiment with Pix2Pix Video-Video #Diffusion demo on @huggingface: https://t.co/Nwu7UA6IIp

"Make The Person A Robot"#AL #ML pic.twitter.com/e4JtBuS0RI
— Stephen 🌏 Taylor (@sjtylr) February 11, 2023

・LangChainのReActにキャラクター性を持たせる方法

・GPTによる探検ゲーム
AIが毎回違ったストーリーを考えてくれて、プレイヤーの選択次第で展開が変わっていく。

GPTで探検ゲームを作ってみました🗺️

AIが毎回違ったストーリーを考えてくれて、プレイヤーの選択次第で展開が変わっていきます👻

こういうシナリオも、パターンを無限に作れちゃうので、可能性が広がりますね💭 pic.twitter.com/N15a3CT4qX
— 野崎智弘 / Tomohiro Nozaki (@nztm_tw) February 14, 2023

・GPT3でコード生成することで3Dモデリング

Bingで3Dモデリングができてしまった pic.twitter.com/MxpbCgpeL3
— 宮下芳明 Homei Miyashita (Professor, Meiji University) (@HomeiMiyashita) February 15, 2023

・RunwaymlのGen1による下動画から上の動画生成

Day two on @runwayml #Gen1 🫠🤯
Used this real estate video to make RADNESS 🧡🔊 pic.twitter.com/11iKiqKMqA
— makeitrad (@makeitrad1) February 14, 2023

・Codeium search
AI を利用した自然言語ベースのコード検索と合成

・全てのBLIP-2 チェックポイントが 8bit の推論をサポート
性能低下なしに、これらのモデルの実行に必要なメモリがおよそ半分に。 https://huggingface.co/spaces/hysts/BLIP2-with-transformers

・AUTOMATIC1111でControlnetが利用可能に (現在、Pose, Scribble, M-LSD, Depth Map, Normal Mapに対応)
https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/7784

・Krikeyは、http://Stability.aiと提携して AI Text-to-Animation ツールを立ち上げ
テキスト(歩く、走る、ジャンプ、ムーンウォークなど) を使用して、数分でアバターアニメーションを生成可能とのこと。
詳細: https://cartoonbrew.com/tech/stable-diffusion-is-launching-an-ai-text-to-animation-tool-in-partnership-with-krikey-225919.html

Stable Diffusion is launching an AI Text-to-Animation tool in partnership with Krikey. AI animation can be the “the foundation of the next creator economy,” say Krikey's founders. Details: https://t.co/MfW0TNAx5O pic.twitter.com/nmcpdozkkZ
— cartoonbrew.com - Animation News (@cartoonbrew) February 13, 2023

・アニメフィギュアが生成できるLoRAモデルが公開 https://civitai.com/models/7984/figma-anime-figures

・Patterns: ビジネスデータによるGPT
ChatGPTのような AI を実際のビジネスデータに接続し、アクションを促進できる。Slack ボットを構築して、既存のドキュメントを使用して顧客からの質問に回答したり、製品に AI アシスト機能を追加したりできる。https://www.patterns.app

・ECマーケターのための 200 万以上のChatGPT プロンプト
説得力のあるページの見出し、説明、マーケティングメッセージを作成して、トラフィックを促進できるメッセージを生成できる
https://www.ecommerceprompts.com

・text to sqlのOuterbase
GPT-3 ベースのテキストから SQL への変換ツールである SQL または EZQL を使用すると、ユーザーはデータをすべて 1 か所で簡単に編集、表示、クエリ、視覚化できる。Postgres、MySQL、およびその他のRDBでデータを管理できる。
https://outerbase.com/

研究

・BLIP-2
画像を基にした質問回答が可能
Docs: https://huggingface.co/docs/transformers/main/en/model_doc/blip-2…
7 checkpoints: https://huggingface.co/models?other=blip-2…
デモ: https://huggingface.co/spaces/Salesforce/BLIP2…

・In-N-Out
3D対応GANを用いた顔動画編集 by Adobe 仮装やマスクやメガネなどを外したり付与したり、表情を変化させたりなどできる
abs: https://arxiv.org/abs/2302.04871
プロジェクト: https://in-n-out-3d.github.io

In-N-Out: Face Video Inversion and Editing with Volumetric Decomposition

abs: https://t.co/16gyU8CSHN
project page: https://t.co/9WIcNblt7S pic.twitter.com/uhsl8t02My
— AK (@_akhaliq) February 10, 2023

・テキストから画像への条件付き制御の追加線画や骨格点から画像生成が可能
paper:https://github.com/lllyasviel/ControlNet/raw/main/github_page/control.pdf…
github: https://github.com/lllyasviel/ControlNet

・EVA3D: 2D 画像コレクションからの合成 3D 人間生成 huggingfaceも出てる
huggingface: https://huggingface.co/spaces/hongfz16/EVA3D…
Official Github Repo: https://github.com/hongfz16/EVA3D
Project Page: https://hongfz16.github.io/projects/EVA3D.html…
arXiv Link: https://hongfz16.github.io/projects/EVA3D.html…

EVA3D: 2D 画像コレクションからの合成 3D 人間生成
huggingfaceも出てる

huggingface: https://t.co/cjdgCDMdzh
Official Github Repo: https://t.co/Bj6DWnwhI1
Project Page: https://t.co/NAQvB6ZC9x
arXiv Link: https://t.co/NAQvB6ZC9x https://t.co/hrjBr4GXuK pic.twitter.com/Abdvwg2bk0
— 納村聡仁 / Osamura Akinori (@akinoriosamura) February 11, 2023

・offsite-tuning
モデルへ直接アクセスなしに独自データでチューニングできるフルモデルファインチューニングと同等の精度ながら、プライバシー保護と効率化を両立し、6.5倍の高速化と5.6倍のメモリ削減を実現エンプラ対応、個々人用モデル作成で重宝されそう
github: https://github.com/mit-han-lab/offsite-tuning…
論文: https://arxiv.org/abs/2302.04870

・MEGANE META が目鏡用の3D構成モーフィング可能なAIを発表
ライティングやレンズ変更などもかなり自然。触覚以外の試着体験はバーチャルでも良さそう。
Review https://bit.ly/3jOWifu
Paper https://arxiv.org/pdf/2302.04868.pdf
Project http://junxuan-li.github.io/megane

🥸MEGANE: Generative Morphable Eyeglass🥸

👉#META unveils the most advanced #3D compositional morphable #AI for eyeglasses (HD geometry/photo interaction)

😎Review https://t.co/HBIAzYsNUi
😎More https://t.co/rBAv2qKHKX #artificialintelligence #deeplearning #MachineLearning pic.twitter.com/DVUS881ojy
— Alessandro Ferrari (@vs_AR) February 10, 2023

・現在最大の220億パラメータに対応するスケーリングViT 様々なタスク評価
ViT-22Bはスケールアップに伴い性能が向上することが示された。さらに、公平性と性能のトレードオフの改善など、スケールによる他の興味深い利点も観察された。
論文: http://arxiv.org/abs/2302.05442

・Swearing (英語でいう "fuck", "shit"など) が入っているコードは、入っていないコードよりも高品質
GitHubにおける数千個のCソースコードを検査した結果

・Read and Reward フレームワーク
説明書を読むことで Atari ゲームの強化学習アルゴリズムを高速化報酬がまばらな 4 ゲームを改善し、Atari で最も難しいゲームである Skiing での以前の SOTA Agent 57 と比較して、1000 分の 1 に。
論文: https://arxiv.org/abs/2302.04449

・「GPT-3」などの最新言語モデルが自然に他者の心を推察する能力である「心の理論」を獲得していたという研究論文

・ IBMの自然言語と化学言語を翻訳する高精度モデル
マルチタスクで学習した点がポイントのようです。例えば原料や作り方を入力するとできる分子を教えてくれるとのこと。
https://arxiv.org/abs/2301.12586v1

・Google Research は、最大 12 時間前に雨を予測できる MetNet-2 のコードと論文を公開
スーパーコンピューターで実行される巨大な物理シミュレーションである現在の天気予報モデルを凌駕する。
https://arxiv.org/abs/2302.04449
https://colab.research.google.com/github/google/ai-weather-climate/blob/main/metnet2/colab.ipynb

・大規模言語モデルにおける道徳的自己修正能力
道徳的自己修正の能力は 22B モデルパラメーターで出現し、通常はモデルサイズの増加と RLHF トレーニングによって向上するとわかった。
論文: https://arxiv.org/abs/2302.07459

・LiveHand: リアルタイムでリアルな手の生成
論文: https://arxiv.org/abs/2302.07672

・AIによるクロスワードパズル最後、仮で埋め込んだ単語が間違ってるのをちゃんと修正してる
論文: https://arxiv.org/abs/2205.09665
デモ: https://berkeleycrosswordsolver.com

This AI system solves crossword puzzles and outperforms the world’s best humans.

It works by combining deep learning with traditional probabilistic search and inference methods. pic.twitter.com/vCQSUlkElC
— Rowan Cheung (@rowancheung) February 15, 2023

・どんな入力からでも画像生成できるアルゴリズム
再学習せずに、任意の条件によって拡散モデルを制御することができるユニバーサルガイダンスアルゴリズムを提案。セグメンテーション、物体検出、分類器の信号等から画像生成可能に
論文: https://arxiv.org/abs/2302.07121
github: https://github.com/arpitbansal297/Universal-Guided-Diffusion

・MarioGPT
テキストからマリオのマップ、ステージ?を生成。「たくさんの土管」「たくさんのブロック」「敵なし」などの言葉を入力するだけで生成が可能です。実際に88%のステージはプレイ可能なレベルに https://arxiv.org/abs/2302.05981

・Transformer関連手法についてのメタサーベイ記事

・SinMDM
拡散モデルとノイズ除去ネットワークを使って、限られたデータで人間、動物、想像上の生物のリアルなアニメーションを合成。
abs: http://arxiv.org/abs/2302.05905
proj: http://sinmdm.github.io/SinMDM-page/
video: https://www.youtube.com/watch?v=dU9WR8rWAJI

りゅうがブレイクダンスしたりしてる。
すご。

SinMDM
拡散モデルとノイズ除去ネットワークを使って、限られたデータで人間、動物、想像上の生物のリアルなアニメーションを合成。

abs: https://t.co/Dt254abwDO
proj: https://t.co/B7jmSMlngc
video: https://t.co/re0Pwk1ne3… https://t.co/eknwduH1h4 pic.twitter.com/Vp76RojH1H
— 納村聡仁 / Osamura Akinori (@akinoriosamura) February 14, 2023

・ChatGPTのゼロショットタスク検証
7 つの代表的なタスクカテゴリをカバーする 20 の一般的な NLP データセットで評価推論機能 (算術推論など) を優先する多くのタスクでうまく機能したが、シーケンスのタグ付けなどの特定のタスクは課題
論文: https://arxiv.org/abs/2302.06476

・音声認識の学習データの話者数は一人で十分とする
論文: https://researchgate.net/profile/Moacir-Ponti/publication/359730124_A_single_speaker_is_almost_all_you_need_for_automatic_speech_recognition/links/62faf0cfe3c7de4c345e41b8/A-single-speaker-is-almost-all-you-need-for-automatic-speech-recognition.pdf

この記事が気に入ったらサポートをしてみませんか？