マガジンのカバー画像

AIもろもろ

32
運営しているクリエイター

#AIとやってみた

古い白黒写真をリアルにカラー化🎨DDColorを試す

学習可能なカラー トークン(つまり、カラー クエリ) を最適化することで、グレースケール画像をリアルなカラー画像をエンドツーエンドで変換する、「DDColor」というモデルが公表されていたので試してみました。 モデル概要まず始めに、画像から重要な情報を抜き出すための「Backbone network」を使い特徴抽出を行います。 次に、この情報を「Pixcel Decoder」に送り、画像の空間構造を復元します。同時に、「Color Decoder」は画像のさまざまな大きさ

Kaggle(Airline Customer Holiday Booking Dataset)をCode Interpreterで分析してみる

ChatGPTのCode Interpreterで先日Kaggleのタイタニック号の予測を行ったあとで気が付いたのですが、タイタニック号の問題はとても有名なので、ネット上に参考となる解説記事も多数存在するので、上手く動作したのではないかと思いました。 このため、今回はタイタニックよりは一般的ではないKaggleのデータセット(Airline Customer Holiday Booking Dataset)を使って、データ分析、モデルの作成をCode Interpreter

高速なLLM用推論ライブラリ「vLLM」を試す

Huggingface Transformersに代わる高速ライブラリとして、vLLMというのが公表されているとのGigazineの記事がありました。とても分かりやすく動作原理やその効果を説明してくれていて、興味深く読ませてもらいました。 vLLMは、HuggingFace Transformersでサポートされているアーキテクチャーのモデルをサポートしています。 というわけで、くわしい解説はGigazine記事にお任せして、実際に自分の環境で試食してみます。 Dock

今更Stable Diffusion(aurora-v1.0)に腰を抜かす。

こんばんは。お疲れ様です。 わたくし画像生成AIは、いままで食わず嫌いでほとんど手を出していませんでした。ツイッターのタイムラインでnijijourneyとかMidjourneyで生成した超美麗な画像が流れていて、すごいなぁとは思っていましたが…。 自分なぞ、いまさら感が強くて2周、3周(10周?)遅れ感はありますが、Auroraというモデルが公開されていたので試してみました。使い方はモデルを指定フォルダーにコピーするだけ。 何枚か作例を生成してみましたが、世の中こんなこ

suno-ai: Bark🐶で音声合成して遊ぶ

Barkに色々テキストを入れて、音声合成で遊んでみました。今はまだ荒削りですが、画像生成のときのように、恐らく、どんどん性能があがっていくでしょう。楽しみです。 いま公開されてるデモはVRAM6GBくらいの消費なので、生成に30~40秒くらい必要なのを目をつぶれば、Google Colabでも自宅のPCでも気軽に楽しめるのでオススメかも。たのしいオモチャです。 微妙な空気? text_prompt = """ woman: このプレゼント、誰からもらったの?

画像認識AI YOLOの改良版「YOLO-NAS」登場

YOLOの改良モデル YOLO-NASが公開されていたので、ひとまず静止画の推論をGoogleColabで試食してみました。最近LLMの開発のニュースばかり見ていましたが、画像認識AIも着々と性能向上しているようです。 なお、カスタムデータセットのファインチューニングはColab無料枠のメモリ容量では動作しないようなので、また機会があれば試してみようと思います。 https://colab.research.google.com/drive/1q0RmeVRzLwRXW-h