見出し画像

【3/25-3/31】生成AIツール/研究-Weeklyまとめ

今週のAIに関するツールや研究情報をまとめた記事です。

ツール

・GPT-4を使い保護者をサポートするco-parentのMiloも初期のChatGPTプラグインの1つに
サッカーのメールや学校のリマインダーといった子供関係情報の管理などを解決。


・どんな本ともチャットできるプラットフォーム
実際に本を読み込んでいるというより、本を指定することでGPTの記憶ベースで色々質疑応答できるっぽそう
https://bookai.chat


http://PixelBin.ioの製品用背景生成ツール
プロンプトを入力するだけで、プロ級の製品用背景を生成 マーケティング x 画像生成のツールも増えてきてるけど、実際どうなのか
https://pixelbin.io


・Luma AIがVideo-to-3D APIをリリース
1 ドルでシーン (またはオブジェクト)生成
https://captures.lumalabs.ai/luma-api


・ファッションモデルを生成するサービス「AI model」
>同サービスはむしろモデルの生活を支える技術である、と答えています。一般に男性モデルは30歳まではカジュアル系ファッションの案件が続き、40代以降はスーツを着用する案件が増える傾向にありますが、30代ではキャリアに空白が生じてしまいます。こうしたなかAI modelを活用して顔を案件に合わせて変えれば、30代でも活躍できるようになる


・Apple Watchでの「Hey GPT」
インストール: https://icloud.com/shortcuts/0cc3e4195dfe46ffb901cb3348bc3c1e


・Web サイト右下のAIチャット配置
ユーザーがドキュメント、よくある質問、プライバシー ポリシーなどを読む必要がなくなる
waiting list: http://questionbox.co


・GPT-4ウォーレンバフェット金融アナリストが、イーロンマスクのTesla 10-k 年次報告書 (2020-2022)の複数PDFファイル (~1000 ページ) と「チャット」して分析するデモ 専門家AIは増えそう
チュートリアルYoutube: https://youtube.com/watch?v=Ix9WIZpArm0…
テンプレGithub: https://github.com/mayooear/gpt4-pdf-chatbot-langchain


・GPT-4をDAWに統合することで、テキストで指示し音楽を編集したりできる。
「もうちょっと静かに」や、「メロディーをxxxみたいな感じでもう少し面白い音に」など。
https://wavtool.com 


・AI研究の第一人者のRichard Socherさんが開発しているhttp://You.comからYouwriteとかいうライティングAIが使えるようになってた
画像にあるけど、他のJasperやhttp://copy.aiと比べても遥かに安そう(同じ条件ではない)
https://you.com/search?q=how+to+write+well&tbm=youwrite


・AIを尋問するゲーム


・AIスタイリスト


・Taxy AI GPT-4を使ったAdeptライクなアプリケーション
依頼テキストを入力すればブラウザのタスクを自動化してくれる。将来的には、保存されたワークフローやスケジュールされたワークフローもサポートする予定。
github: https://github.com/TaxyAI/browser-extension…
waiting: https://docs.google.com/forms/d/e/1FAIpQLScAFKI1fZ1cXhBmSp2HM93Jvuc8Jvrxh5iSbkKhtwKN-OHoTQ/viewform…


・エラーが出ると勝手にGPT-4に聞いてコードを勝手に修正してくれるWolverine


・BetterChatGPT
ChatGPT UIクローンサービス


Noty.ai ChatGPTを搭載したMTGアシスタントで、MTGからをアクション、タスク、サマリーを抽出
ZoomやGoogleMeetなどと連携可能
https://noty.ai 


・Spline AI プロンプトで、3Dオブジェクト、アニメーション、テクスチャーを生成したり編集したり可能
waiting: https://spline.design 


・VisualizeAI
プロトタイプの作成、デザインの視覚化、インスピレーションの生成、アイデアの再構築を数秒で スケッチから画像生成したり、既存のデザインや空間をリ・スタイル&リ・デザインできる
https://visualizeai.pro


研究

・TemporalNetが公開
https://huggingface.co/CiaraRowles/TemporalNet


・UnrealEngine5のmetahuman + stablediffusion Multi-ControlNetのテスト


・拡散モデルから概念を消し去るモデルのデモ
>以前の方法とは異なり、私たちのアプローチは、推論時に出力を変更するのではなく、拡散モデルから概念を永久に削除できるため、ユーザーがモデルの重みにアクセスできたとしても、回避することはできません。
デモ: https://huggingface.co/spaces/baulab/Erasing-Concepts-In-Diffusion…
プロジェクト: https://erasing.baulab.info


・text2video-zeroのデモ
ポーズ条件、エッジ条件、エッジ条件+dreamboothの動画生成に対応
https://huggingface.co/spaces/PAIR/Text2Video-Zero


・PAniC-3D: アニメキャラクターのポートレート画像からシングルビュー3D再構成
論文: https://arxiv.org/abs/2303.14587
GitHub: https://github.com/ShuhongChen/panic3d-anime-reconstruction…


・Anti-DreamBooth: DreamBoothからユーザーを保護
論文: https://arxiv.org/abs/2303.15433
プロジェクト: https://anti-dreambooth.github.io
GitHub: https://github.com/VinAIResearch/Anti-DreamBooth


・ChatGPTがテキストアノテーションタスクでクラウドワーカーを凌駕
- タスク 2,382のツイートのサンプルを用いて、関連性、スタンス、トピック、フレーム検出を含むいくつかのアノテーションタスク
- 結果 ChatGPTのゼロショット精度は5タスク中4タスクでクラウドワーカーを上回り、ChatGPTのアノテーション単価は0.003ドル以下で、MTurkの約20倍の安さ
論文: https://arxiv.org/abs/2303.15056


・単眼RGBDビデオシーケンスからの未知のオブジェクトのリアルタイム6-DoF追跡


・CelebV-Text
-外観やアクション、感情、光など顔動画に対する詳細な説明付きの大規模な顔動画データセット
-テキスト顔動画生成検証やVisualChatGPTでの生成デモも掲載
-非営利の研究目的でのみ
論文: https://arxiv.org/abs/2303.14717
プロジェクト: https://celebv-text.github.io


・ChatGPT 人間のフィードバックから強化学習した対話AI


・2022年度AIPシンポジウム成果報告会の特別講演「大規模言語モデルの驚異と脅威」


・RWKVをalpacaとcodealpacaでファインチューニングしたRaven
デモ: https://huggingface.co/spaces/BlinkDL/Raven-RWKV-7B…
Raven 7B: https://huggingface.co/BlinkDL/rwkv-4-pile-7b/blob/main/RWKV-4-Pile-7B-Instruct-test4-20230326.pth…
Raven14B: https://huggingface.co/BlinkDL/rwkv-4-pile-14b/blob/main/RWKV-4-Pile-14B-Instruct-test4-20230327-ctx1024.pth…
codealpaca: https://github.com/sahil280114/codealpaca


・90億パラメータの視覚&言語モデル「OpenFlamingo」


・ソニーグループからのInstruct 3D-to-3D
テキストの指示に従って、特定の 3D シーンを別のシーンに変換
論文: https://arxiv.org/abs/2303.15780
プロジェクト: https://sony.github.io/Instruct3Dto3D-doc/


・Modelscopeのテキスト動画生成で生成された「スパゲッティを食べるウィル・スミス」


・VIVE3D: 3D 対応 GAN を使用した視点に依存しないビデオ編集
論文: https://arxiv.org/abs/2303.15893
プロジェクト: http://afruehstueck.github.io/vive3D/


・オープンソースで最大130億パラメータの言語モデル「Cerebras-GPT」が発表


・セレブラスシステムズのOSS言語モデル


・lit-llama: 完全にオープンソース(Apache 2.0) で高性能な llama の実装を発表だそう
llamaのモデルをlit-llamaフォーマットに変換して利用してる
github: https://github.com/Lightning-AI/lit-llama…
discord: @LightningAI


・GPT4All - コード、ストーリー、対話を含むクリーンなデータで学習された7Bモデル(LLaMAに基づく)
80万件のデータサンプル、データキュレーション手順、学習コード、モデルを公開。 また、CPU上で動作する量子化4ビット版モデルもリリース。
https://github.com/nomic-ai/gpt4all


・ChatGPT と既存の文法誤り訂正 (GEC) ツールの精度を比較


TaskMatrix.AI
基盤モデル(脳のような中央システムとして)と他のAIモデルやAPI(サブタスクソルバーとして)を使用して、デジタルと物理の両方で多様なタスク達成を目指すAIエコシステム Visual ChatGPTはその一例
gIthub: https://github.com/microsoft/visual-chatgpt/tree/main/TaskMatrix.AI…
論文: https://arxiv.org/abs/2303.16434


Vicuna:オープンソースのチャットボットで、GPT-4を90%のChatGPTクオリティ


・高速SDのためのトークンマージ
冗長トークンをマージすることで、画像生成を最大 2 倍高速化し、メモリ消費を最大 5.6 倍削減
github: https://github.com/dbolya/tomesd
論文: https://arxiv.org/abs/2303.17604


・BloombergGPT: 金融特化の大規模言語モデル
幅広い金融データで学習させた500億パラメータの言語モデル。Bloombergのデータに基づく3630億トークンの最大のドメイン固有データセットを構築。 一般的なベンチマークの性能を維持し、金融タスクにおいて既存を上回る性能を達成
https://arxiv.org/abs/2303.17564


・Chatbot UI: ChatGPT UI の MIT ライセンス、コミュニティ主導のクローン


・視覚言語モデルが合成データを用いて名詞に限らずより高度な理解を実現
視覚言語モデルは、名詞以外の視覚言語概念理解、属性/動作/関係/状態などの非物体語の意味理解、文中の単語順序が持つ意味理解、が困難 合成データで欠点克服を検証
論文:https://arxiv.org/abs/2303.17590
pj:https://synthetic-vic.github.io


・DiffCollage:拡散モデルによる大規模コンテンツの並列生成
-無限の画像生成
-学習データよりも長い時間のヒューマンモーション合成
-通常の画像のみで学習させた拡散モデルで360°のパノラマ画像を生成
-多彩な生成・画像変換が可能
pj: https://research.nvidia.com/labs/dir/diffcollage/…
論文: https://arxiv.org/abs/2303.17076


・HuggingGPT
-ChatGPTなどを活用し、機械学習コミュニティ(HuggingFaceなど)内の様々なAIモデルを連携しAIタスクを解決するシステムを提案
-ユーザリクエストに対しタスク計画
-HuggingFaceの機能説明に従って適切なAIモデルを選択
-各サブタスクを実行し結果をまとめる
https://arxiv.org/abs/2303.17580


・AvatarCraft: パラメータ化された形状とポーズ制御を使用してテキストをアバターに変換
論文: https://arxiv.org/abs/2303.17606
プロジェク: https://avatar-craft.github.io


・PAIR-Diffusion:構造と外観のペア拡散モデルによるオブジェクトレベルの画像編集
構造を編集することができるが、個々の要素のスタイルは変更しないため、オブジェクトの特性を保持しながら編集ができる 論文: https://arxiv.org/abs/2303.17546


・chatGPT-NeoX 20B モデルの新しいバージョンをリリース
デモ: https://huggingface.co/spaces/togethercomputer/OpenChatKit…
モデル: https://huggingface.co/togethercomputer/GPT-NeoXT-Chat-Base-20B

この記事が気に入ったらサポートをしてみませんか?