松xRのnote

xR技術、VTuber、AI、ライブ配信、遠隔講義、メタバースなどが好きです

松xRのnote

xR技術、VTuber、AI、ライブ配信、遠隔講義、メタバースなどが好きです

最近の記事

アイシア・ソリッドさんの動画を見続けたらG検定に受かった話 ディープラーニングを学ぶのにオススメYouTube3選

日本ディープラーニング協会が実施しているG検定という試験があります。ディープラーニングにまつわる話題について一通り理解しているかを問う試験内容で、1960年代からつい最近の生成AIまで、機械学習の歴史を浅く広く出題する感じ。暗記問題の4択なので、エンジニアではなく、技術系の会社の営業や広報の人向けかもしれないです。 国家資格ではないので受かったから何か意味があるかと言えばないかもしれませんが、私は資格試験を受けるのが趣味であり、かつ、ChatGPTブームからディープラーニン

    • いつの間にかWindowsでもシンプルに pip install bitsandbytes でbitsandbytesが使えるようになっていた

      LLMを使う時、4bit/8bit量子化をするなら必要になるbitsandbytesというライブラリがあります。今までWindowsは正式にはサポートされておらず、公式以外のビルドを使ったりなどの工夫が必要でした。 ところが、3週間くらい前にリリースされたbitsandbytesのリリース情報を見ていたら、最新の0.43.0でWindowsがサポートされたとありました。 「多分、公式にpip install bitsandbytesでWindowsもサポートできたと思うよ

      • 月ノ美兎委員長に影響されて、AI vs. 俺の大喜利バトルクイズを作ってみました

        大人気バーチャルライバー、ずっとVTuber界のトップランナーである月ノ美兎委員長が、面白い動画を出されていました。4つのAI+人間の大喜利の回答を提示し、どれが人間の回答なのかを当てるというものです。 AIにも個性があり、非常に面白かったです。GPT-4はほとんど人間でしたね。 これがとても楽しかったので、いっちょローカルLLMでやってみようと思いました。同じくクイズ形式にしてあるので、以下から遊んでいただくことが可能です。 https://lms.quizgener

        • Gemma利用規約・禁止事項の気になるところ

          GoogleからGemmaというローカルLLMが出ました。Llama2などと同じく、無料でダウンロードして各自の環境で実行できるオープンなスタイルです。 ライセンスは独自のもの。Meta社のLlama2も独自のライセンスですので、先行事例に倣ったのかもしれません。 個人的には、データセットを作ったり、ロマンチックなAIキャラクターを作ったりしたいので、利用規約は気になります。軽く調べてみました。なお、私は法務とかの専門家とはほど遠い人間なので、解釈間違いを起こしている可能

        アイシア・ソリッドさんの動画を見続けたらG検定に受かった話 ディープラーニングを学ぶのにオススメYouTube3選

          ReazonSpeech v2, whisper-large v3, nue-asrを比較してみた

          今年2024年の2月14日に、日本語音声の文字起こしエンジンReazonSpeechのv2がリリースされました。NVIDIAのNemoを採用し、学習データセットも強化され、Fast Conformerという手法により高速化されたそうです。強そう。 同じく今年の1月に、transformersが4.73になり、OpenAIによる文字起こしエンジンwhisperが、transfomersでBatched state-of-the-art long-form transcript

          ReazonSpeech v2, whisper-large v3, nue-asrを比較してみた

          llm-jp/llm-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 のLoRAファイルをマージして使ってみる

          LLM-jpから、新しい13bモデルであるversion 1.1が公開されました。先に公開されていた1.0のモデルに対して、新しいデータセットでのインストラクションチューニングを加えたものみたいです。理研が進めている自然な日本語のデータセットichikaraを使っているのもポイント。 このモデルのいいところは、日本語に強い13bモデルとしては珍しい、Apache 2.0ライセンスであることです。モデルはもちろん、生成結果も自由に利用出来るので、様々な活用や遊びができそうです

          llm-jp/llm-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 のLoRAファイルをマージして使ってみる

          UnityからStyle-Bert-VITS2のAPIを呼ぶときに、BudouXのUnity版であるUniBudouXを使ってテキストを自動的に100文字以下に分割して音声合成する

          趣味でAITuberを作っています。UnityでVRMを表示し、発話の生成はローカルLLMで。そして音声合成はローカルで動かしているStyle-Bert-VITS2をつくよみちゃんコーパスで学習させたものを使わせてもらっています。以下が最初のテスト配信です。合成音声コンテンツの本場はニコニコだろうということでニコ生でやりました。今後もニコ生メインでやってみたい。 UnityからStyle-Bert-VITS2を呼び出すときは、Style-Bert-VITS2のAPIサーバー

          UnityからStyle-Bert-VITS2のAPIを呼ぶときに、BudouXのUnity版であるUniBudouXを使ってテキストを自動的に100文字以下に分割して音声合成する

          AI, LLM, VR/ARの情報を得るためのRSSリスト(たまに更新)

          最近、X(Twitter)が怖い感じになってきた気がします。元気なときはいいのですが、気分が沈んでいるときに見ると刺激的すぎる投稿が上がってきていたりします。 というわけで、しばらく、Xを見ないことにしてみました。AndroidスマホはWellbeingというところから、iPadはスクリーンタイムから、それぞれXのアプリ・Webにアクセスできないように設定しました。PCでも、以下のChrome拡張でx.comとtwitter.comをブロックするようにしました。 脱X、さ

          AI, LLM, VR/ARの情報を得るためのRSSリスト(たまに更新)

          リクルートからも日本語CLIPが来た! recruit-jp/japanese-clip-vit-b-32-roberta-base を使って、ローカルの画像を日本語で検索してみる

          一昨日、Googleのmultiligual SigLIPを使って画像検索する記事を書いたところで、なんと、昨日、リクルートからも日本語対応のCLIPが出ました。しかも商用可能なCC-BY-4.0ライセンス!ヤバい。今年はローカルで動くマルチモーダルがアツい年になりそうです。 CLIPとはスーパー雑に言えば、画像とテキストを同じ空間のベクトルにできるモデルで、テキストと画像が「近いか」を判定したりできます。この性質を利用して、任意のテキストタグで画像を分類したりできます。

          リクルートからも日本語CLIPが来た! recruit-jp/japanese-clip-vit-b-32-roberta-base を使って、ローカルの画像を日本語で検索してみる

          google/siglip-base-patch16-256-multilingual を使って、ローカルの画像を日本語で検索してみる

          今年1月に、Googleから、SigLIPという、画像とテキストの両方をベクトルとして扱うことができるモデルのmultilingual版(多言語対応版)が公開されました。transformers 4.37以降で対応しています。日本語も対応しています。 これを使って、以前、昨年11月に公開された stabilityai/japanese-stable-clip-vit-l-16 を使ってやってみたときと同じように、ローカルの画像を日本語で検索してみるというのをやってみました。

          google/siglip-base-patch16-256-multilingual を使って、ローカルの画像を日本語で検索してみる

          Llama.cppのOpenAI互換モードを使って、OpenAIから少ない手間でローカルLLMに乗り換える

          ご家庭のパソコンで簡易ChatGPTみたいなものが動かせるローカルLLMと呼ばれるものがあります。金融などハイレベルな機密情報を扱う企業などはクラウドに情報を簡単に出せないため、クローズドな環境でChatGPTみたいなことをしたいというニーズに応える活用例も考えられています。単純にホビーとして動かすのも楽しいです。 そんなローカルLLMを動かすために、開発が進んでいるのがLlama.cppです。GPUがなくても、CPUだけでも動かすことができ、Raspberry Pi 4の

          Llama.cppのOpenAI互換モードを使って、OpenAIから少ない手間でローカルLLMに乗り換える

          日本の官公庁にある「よくある質問」をデータセットにまとめました

          LLMをチューニングするにあたって、質の良い日本語のInstructionデータセットがあるといいなぁと思いました。そこで、日本の官公庁のWebサイトから「よくある質問」を手作業で抽出し、およそ22000件の質問と応答の形になっているデータセットとしてまとめました。 省庁の中でも、CC-BY-4.0(国際)互換のライセンスである「政府標準利用規約(第2.0版)」が明示されている組織からだけ取得しているので、本データセットもCC-BY-4.0(国際)として利用できます。商用利

          日本の官公庁にある「よくある質問」をデータセットにまとめました

          GPT2のモデルをQLoRAでファインチューニングするときのメモ(LINE1.7b・llm-jp1.3b想定)

          LLM Advent Calendar 2023 シリーズ2 12月9日の記事として投稿します。 LINEやLLM-jpから、軽量なLLMが公開されています。パラメーター数は1.7B、1.3Bと小さめ。当然、LLMとしての性能はパラメーター数の大きなものには劣りますが、その分、動作が軽いメリットがあります。応用の幅はいろいろ考えられそうです。 これらのモデルはGPT2という、現在主流のGPT-NeoXやLlama 2よりも前の世代のアーキテクチャーで作られています。GPT

          GPT2のモデルをQLoRAでファインチューニングするときのメモ(LINE1.7b・llm-jp1.3b想定)

          13Bクラスでは一番性能がいいらしい(?)、CausalLM/14Bを試す

          CausalLM/14Bという、Qwen 14Bのウェイトをベースにした、Llama2互換アーキテクチャーなLLMが出ていました。20B以下クラス最強とも噂されるQwen 14B並の性能と、Llama2の扱いやすさを兼ね備えたもののようです。 普通にLlama 2と同じように動かせるみたいなので、さっと動かしてみました。load_in_4bit=True すれば、短文プロンプトならVRAM消費12GBくらいだったので、ご家庭用GPUでも動きそうです。 ChatLMのテンプ

          13Bクラスでは一番性能がいいらしい(?)、CausalLM/14Bを試す

          stabilityai/japanese-stable-clip-vit-l-16 を利用して、ローカルの画像フォルダを自然言語で検索してみる

          stabilityai/japanese-stable-clip-vit-l-16 という、Stability AI社による、日本語のCLIPのモデルが公開されました。有り難い限りです。 これを使って、ローカルの画像フォルダを日本語の自然言語で検索してみました。 以下の様に、500枚ほどの画像が入っています。私が東京ゲームショウで撮影した写真、VTuberイベントで撮影した写真、うちの猫、ゲームのスクリーンショットなどです。 このフォルダに対して自然言語で検索すると、以

          stabilityai/japanese-stable-clip-vit-l-16 を利用して、ローカルの画像フォルダを自然言語で検索してみる

          新しくなったAssistant APIを使って「嘘ばっかり答えるチャットボットをわざわざベクトル検索を使って実装する」を手軽に実装する

          RAGを用いてアンサイクロペディアの記事を参照することで、嘘ばっかり答えるチャットボットを実装するという記事を書きました。noteに公開したのは11月6日。実はちょっと、自信がある記事でした。 と思ったら、11月7日に、OpenAIがAssistant APIという形で、簡単にRAGを用いたチャットボットを作る機能を公開しました。コードさえ書くことなく、PlaygroundでRetrievalというスイッチをONにするだけで利用できます。1日にして、自分の書いた記事が古くな

          新しくなったAssistant APIを使って「嘘ばっかり答えるチャットボットをわざわざベクトル検索を使って実装する」を手軽に実装する