AIもろもろ

古い白黒写真をリアルにカラー化🎨DDColorを試す

学習可能なカラートークン(つまり、カラークエリ) を最適化することで、グレースケール画像をリアルなカラー画像をエンドツーエンドで変換する、「DDColor」というモデルが公表されていたので試してみました。モデル概要まず始めに、画像から重要な情報を抜き出すための「Backbone network」を使い特徴抽出を行います。次に、この情報を「Pixcel Decoder」に送り、画像の空間構造を復元します。同時に、「Color Decoder」は画像のさまざまな大きさ

Kaggle(Airline Customer Holiday Booking Dataset)をCode Interpreterで分析してみる

ChatGPTのCode Interpreterで先日Kaggleのタイタニック号の予測を行ったあとで気が付いたのですが、タイタニック号の問題はとても有名なので、ネット上に参考となる解説記事も多数存在するので、上手く動作したのではないかと思いました。このため、今回はタイタニックよりは一般的ではないKaggleのデータセット(Airline Customer Holiday Booking Dataset)を使って、データ分析、モデルの作成をCode Interpreter

高速なLLM用推論ライブラリ「vLLM」を試す

Huggingface Transformersに代わる高速ライブラリとして、vLLMというのが公表されているとのGigazineの記事がありました。とても分かりやすく動作原理やその効果を説明してくれていて、興味深く読ませてもらいました。 vLLMは、HuggingFace Transformersでサポートされているアーキテクチャーのモデルをサポートしています。というわけで、くわしい解説はGigazine記事にお任せして、実際に自分の環境で試食してみます。 Dock

今更Stable Diffusion（aurora-v1.0)に腰を抜かす。

こんばんは。お疲れ様です。わたくし画像生成AIは、いままで食わず嫌いでほとんど手を出していませんでした。ツイッターのタイムラインでnijijourneyとかMidjourneyで生成した超美麗な画像が流れていて、すごいなぁとは思っていましたが…。自分なぞ、いまさら感が強くて２周、３周（１０周？）遅れ感はありますが、Auroraというモデルが公開されていたので試してみました。使い方はモデルを指定フォルダーにコピーするだけ。何枚か作例を生成してみましたが、世の中こんなこ

suno-ai: Bark🐶で音声合成して遊ぶ

Barkに色々テキストを入れて、音声合成で遊んでみました。今はまだ荒削りですが、画像生成のときのように、恐らく、どんどん性能があがっていくでしょう。楽しみです。いま公開されてるデモはVRAM6GBくらいの消費なので、生成に30～40秒くらい必要なのを目をつぶれば、Google Colabでも自宅のPCでも気軽に楽しめるのでオススメかも。たのしいオモチャです。微妙な空気？ text_prompt = """ woman: このプレゼント、誰からもらったの？

画像認識AI YOLOの改良版「YOLO-NAS」登場

YOLOの改良モデル YOLO-NASが公開されていたので、ひとまず静止画の推論をGoogleColabで試食してみました。最近LLMの開発のニュースばかり見ていましたが、画像認識AIも着々と性能向上しているようです。なお、カスタムデータセットのファインチューニングはColab無料枠のメモリ容量では動作しないようなので、また機会があれば試してみようと思います。 https://colab.research.google.com/drive/1q0RmeVRzLwRXW-h

フォローしませんか？

#AIとやってみた