npaka

プログラマー。iPhone / Android / Unity / ROS / AI …

npaka

プログラマー。iPhone / Android / Unity / ROS / AI / AR / VR / RasPi / ロボット / ガジェット。年2冊ペースで技術書を執筆。アニソン / カラオケ / ギター / 猫 twitter : @npaka123

マガジン

  • 自然言語処理入門

    自然言語処理関係のノートをまとめました。

  • RasPi・Jetson入門

    RasPi・Jetson関連のノートをまとめました。

  • 強化学習入門

    強化学習関連のノートをまとめました。

  • ROS入門

    ROS関連のノートをまとめました。

  • カラオケで歌える80/90年代OVA・ゲームソングまとめ

    カラオケで歌える80/90年代OVA・ゲームソングをまとめました。

最近の記事

Google Colab で Shisa 7B を試す

「Google Colab」で「Shisa 7B」を試したので、まとめました。 1. Shisa 7B「Shisa 7B」 ( shisa-7b-v1) は、合成データ駆動型アプローチを使用して、堅牢な英語機能を維持しながら強力な日本語パフォーマンスを達成することを目的とした、日英バイリンガル (JA/EN) の汎用チャット モデルです。 このモデルは Mistral 7Bベースで、Mistralのオリジナルトークナイザーよりも日本語で2倍以上効率的な、カスタムJAに最適

    • Gemini Nano と Android AICore の概要

      以下の記事が面白かったので、かるくまとめました。 1. Gemini Nano「Gemini Nano」は、「Gemini」モデルから蒸留してモバイル向けに最適化されたモデルです。モバイル上で直接実行され、さまざまなユースケースをサポートします。デバイス上で実行すると、エンドツーエンドの暗号化メッセージングアプリでメッセージへの返信を提案するなど、データがデバイスの外に流出しない機能が有効になります。また、ネットワークがない場合でも常に利用できます。 2. Android

      • Google Clolab で Magic Animate を試す

        「Google Clolab」で「Magic Animate」を試したので、まとめました。 1. Magic Animate「Magic Animate」は、TikTok運営のByteDance等がリリースした、参照画像と一連のモーションから動画を生成する動画生成モデルです。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 !git clone https://github.com/magic-research/

        • Google Colab で Starling-LM-7B を試す

          「Google Colab」で「Starling-LM-7B」を試したので、まとめました。 1. Starling-LM-7B「Starling-RM-7B-alpha」は、「RLAIF」 (Reinforcement Learning from AI Feedback) によって学習されたオープン大規模言語モデル (LLM) です。「Mistral-7B」ベースの「OpenChat-3.5」に「RLAIF」の手法で追加学習しています。 2. Colabでの実行Colab

        Google Colab で Shisa 7B を試す

        マガジン

        マガジンをすべて見る すべて見る
        • 自然言語処理入門
          npaka
        • RasPi・Jetson入門
          npaka
        • 強化学習入門
          npaka
        • ROS入門
          npaka
        • カラオケで歌える80/90年代OVA・ゲームソングまとめ
          npaka
        • その他の技術情報
          npaka

        記事

        記事をすべて見る すべて見る

          Google Colab で AnimateDiff を試す

          「Google Colab」で「AnimateDiff」を試したので、まとめました。diffusers版は動作が安定してなかったので、公式リポジトリ版を使用してます。 1. AnimateDiff「AnimateDiff」は、1枚の画像から一貫性のあるアニメーションを生成する機能です。diffusersにもAnimateDiffが追加されましたが、動作が怪しかったので、今回は公式リポジトリを利用しています。 2. AnimateDiff のモデルAnimateDiff で

          Google Colab で AnimateDiff を試す

          diffusers で IP-Adapter を試す

          「diffusers」で「IP-Adapter」を試したので、まとめました。 前回1. IP-Adapter「IP-Adapter」は、指定した画像をプロンプトのように扱える機能です。詳かいプロンプトを記述しなくても、画像を指定するだけで類似画像を生成することができます。「Img2Img2」「ControlNet」「LCM-LoRA」など、diffusersの重要なパイプラインで利用できるようになりました。 2. Colabでの実行Colabでの実行手順は、次のとおりです

          diffusers で IP-Adapter を試す

          diffusers で ControlNet を試す

          「diffusers」で「ControlNet」を試したので、まとめました。 1. ControlNet「ControlNet」は、「Stable Diffusion」モデルにおいて、新たな条件を指定することで生成される画像をコントロールする機能です。プロンプトでは指示しきれないポーズや構図の指定が可能になります。 2. ControlNetの更新履歴「diffusers」のControlNetの更新履歴は、次のとおりです。 2-1. diffusers v0.14.0

          diffusers で ControlNet を試す

          OpenGPTs への長期記憶の追加

          以下の記事が面白かったので、かるくまとめました。 1. LLMはステートレスLLMはステートレスです。最初の入力を渡し、次に2番目の入力を渡すと、最初の入力は記憶していません。 その最初の例外は、数週間前にOpenAIがリリースした「Assistant API」です。これを使用すると、メッセージリストを追跡できます。その後、このメッセージリストのアシスタント(LLM)を呼び出すと、そのスレッドにメッセージが追加されます。LLM自体はステートレスですが、公開されたAPIはス

          OpenGPTs への長期記憶の追加

          HuggingFace Diffusers v0.24.0の新機能

          「Diffusers v0.24.0」の新機能についてまとめました。 前回 1. Diffusers v0.24.0 のリリースノート情報元となる「Diffusers 0.24.0」のリリースノートは、以下で参照できます。 2. Stable Diffusion Video「Stable Video Diffusion」は、入力画像に応じて高解像度 (576x1024) の 2~4秒の動画を生成できるImage-to-Videoの生成モデルです。 2-1. Image-

          HuggingFace Diffusers v0.24.0の新機能

          OpenAI と LangChain の認知アーキテクチャ

          以下の記事が面白かったので、かんたんにまとめました。 1. 認知アーキテクチャ「認知アーキテクチャ」(cognitive architecture) とは、LLMどのように情報を処理し、応答を生成するかを理解するための枠組みです。「Flo Crivello」(自律エージェントスタートアップのLindyの創設者)が使用したこの用語を初めて聞き、素晴らしい用語だと思いました。 「認知アーキテクチャ」には、以下が含まれます。 2. OpenAIの認知アーキテクチャ「OpenA

          OpenAI と LangChain の認知アーキテクチャ

          Google Colab で SDXL Turbo を試す

          「Google Colab」で「SDXL Turbo」を試したので、まとめました。 1. SDXL Turbo「SDXL Turbo」は、「Stability AI」が開発した画像生成AIです。新しい蒸留技術によって、これまでにない品質のシングルステップ画像生成を可能にしました。必要なステップ数は50から1に削減されました。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール!pip i

          Google Colab で SDXL Turbo を試す

          Starling-7B - RLAIF による LLM の有用性と無害性の向上

          以下の記事が面白かったので、かるくまとめました。 1. はじめに「Starling-RM-7B-alpha」は、「RLAIF」 (Reinforcement Learning from AI Feedback) によって学習されたオープン大規模言語モデル (LLM) です。このモデルは、新しいGPT-4ラベル付きランキングデータセット「Nectar」と、新しい報酬モデルの学習およびポリシーチューニングの力を利用します。 「MT-Bench」のスコアは 7.81 から 8.

          Starling-7B - RLAIF による LLM の有用性と無害性の向上

          ComfyUI で Image-to-Video を試す

          「ComfyUI」で Image-to-Video を試したので、まとめました。 前回 1. Image-to-Video「Image-to-Video」は、画像から動画を生成するタスクです。 現在、「Stable Video Diffusion」の2つのモデルが対応しています。 2. Colabでの実行Colabでの実行手順は、次のとおりです。 (1) セットアップ。 前回と同様です。 (2) チェックポイントのダウンロード 「Stable Video Diffus

          ComfyUI で Image-to-Video を試す

          Google Colab で ComfyUI を試す

          「Google Colab」で「ComfyUI」を試したので、まとめました。 1. ComfyUI「ComfyUI」は、モジュール式の「StableDiffusion」のGUIです。グラフ/ノード/フローチャートベースのインターフェイスを使用して、コーディングなしに高度な「StableDiffusionパイプライン」を設計および実行することができます。 特徴は、次のとおりです。 2. ComfyUIの使用例「ComfyUI」の使用例は、以下のページで参照できます。 3

          Google Colab で ComfyUI を試す

          Google Colab で LCM LoRA を試す

          Google Colab で LCM LoRA を試したので、まとめました。 1. LCM LoRA「LCM」 (Latent Consistency Model) は、元モデルを別モデルに蒸留することで、画像生成に必要なステップ数を減らす手法です。25~50ステップかかっていた処理を4~8ステップで可能にします。 2. LCM LoRA の LoRAウェイト提供されている「LCM LoRA」の「LoRAウェイト」は、次のとおりです。 3. LCM LoRA の Tex

          Google Colab で LCM LoRA を試す

          Google Colab で Stable Video Diffusion を試す

          「Google Colab」で「Stable Video Diffusion」を試したのでまとめました。 1. Stable Video Diffusion「Stable Video Diffusion」は、「Stability AI」が開発した画像から動画を生成するAIモデルです。 2. Stable Video Diffusion のモデル現在、2つのモデルが提供されています。 解像度 576x1024 で14または24フレーム生成するように学習されています。 3

          Google Colab で Stable Video Diffusion を試す