松note

xR技術、VTuber、AI、ライブ配信、遠隔講義、メタバースなどが好きです

松note

xR技術、VTuber、AI、ライブ配信、遠隔講義、メタバースなどが好きです

記事一覧

Python3.12以降でmatplotlibで日本語フォントを表示したいときは、matplotlib-fontjaをimportすると楽

matplotlibで日本語フォントを表示する際には、多くの人がuehara1414さんが作成されたjapanize-matoplotlibにお世話になっていたかと思います。importするだけで日本語フォ…

松note
1日前

マルチモーダルembeddigモデルE5-Vを試してみる

画像と文字列を同じ埋め込みベクトル化できるマルチモーダルなembeddingモデルE5-Vというものを知ったので、試してみました。 画像と文字列を共にベクトル化できるとなる…

松note
1日前
2

LLMはどんなビジネスに使われているか実例を調べる

ChatGPTなどの大規模言語モデル(LLM)の可能性はすごいということで大ブームになっているので、実際のところビジネスの現場でどんな風に使われているのかちょっと調べてみ…

松note
1か月前

Direct ML・PytorchでPhi-3を動かすMicrosoft製サンプルを試してみました

おおお! Cudaが0%なのにGPUを55%使ってる! 確かにCudaではなくDirectMLでGPUを使って動いているようです。 と、タイトルとこの画像でほとんど説明は済んでしまったの…

松note
1か月前
21

アイシア・ソリッドさんの動画を見続けたらG検定に受かった話 ディープラーニングを学ぶのにオススメYouTube3選

日本ディープラーニング協会が実施しているG検定という試験があります。ディープラーニングにまつわる話題について一通り理解しているかを問う試験内容で、1960年代からつ…

松note
3か月前
11

いつの間にかWindowsでもシンプルに pip install bitsandbytes でbitsandbytesが使えるようになっていた

LLMを使う時、4bit/8bit量子化をするなら必要になるbitsandbytesというライブラリがあります。今までWindowsは正式にはサポートされておらず、公式以外のビルドを使ったり…

松note
3か月前
12

月ノ美兎委員長に影響されて、AI vs. 俺の大喜利バトルクイズを作ってみました

大人気バーチャルライバー、ずっとVTuber界のトップランナーである月ノ美兎委員長が、面白い動画を出されていました。4つのAI+人間の大喜利の回答を提示し、どれが人間の…

松note
4か月前
8

Gemma利用規約・禁止事項の気になるところ

GoogleからGemmaというローカルLLMが出ました。Llama2などと同じく、無料でダウンロードして各自の環境で実行できるオープンなスタイルです。 ライセンスは独自のもの。Me…

松note
5か月前
6

ReazonSpeech v2, whisper-large v3, nue-asrを比較してみた

今年2024年の2月14日に、日本語音声の文字起こしエンジンReazonSpeechのv2がリリースされました。NVIDIAのNemoを採用し、学習データセットも強化され、Fast Conformerとい…

松note
5か月前
39

llm-jp/llm-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 のLoRAファイルをマージして使ってみる

LLM-jpから、新しい13bモデルであるversion 1.1が公開されました。先に公開されていた1.0のモデルに対して、新しいデータセットでのインストラクションチューニングを加え…

松note
5か月前
6

UnityからStyle-Bert-VITS2のAPIを呼ぶときに、BudouXのUnity版であるUniBudouXを使ってテキストを自動的に100文字以下に分割し…

趣味でAITuberを作っています。UnityでVRMを表示し、発話の生成はローカルLLMで。そして音声合成はローカルで動かしているStyle-Bert-VITS2をつくよみちゃんコーパスで学習…

松note
5か月前
6

AI, LLM, VR/ARの情報を得るためのRSSリスト(たまに更新)

最近、X(Twitter)が怖い感じになってきた気がします。元気なときはいいのですが、気分が沈んでいるときに見ると刺激的すぎる投稿が上がってきていたりします。 というわ…

松note
5か月前
8

リクルートからも日本語CLIPが来た! recruit-jp/japanese-clip-vit-b-32-roberta-base を使って、ローカルの画像を日本語で検索…

一昨日、Googleのmultiligual SigLIPを使って画像検索する記事を書いたところで、なんと、昨日、リクルートからも日本語対応のCLIPが出ました。しかも商用可能なCC-BY-4.0…

松note
5か月前
8

google/siglip-base-patch16-256-multilingual を使って、ローカルの画像を日本語で検索してみる

今年1月に、Googleから、SigLIPという、画像とテキストの両方をベクトルとして扱うことができるモデルのmultilingual版(多言語対応版)が公開されました。transformers 4.…

松note
5か月前
21

Llama.cppのOpenAI互換モードを使って、OpenAIから少ない手間でローカルLLMに乗り換える

ご家庭のパソコンで簡易ChatGPTみたいなものが動かせるローカルLLMと呼ばれるものがあります。金融などハイレベルな機密情報を扱う企業などはクラウドに情報を簡単に出せな…

松note
6か月前
31

日本の官公庁にある「よくある質問」をデータセットにまとめました

LLMをチューニングするにあたって、質の良い日本語のInstructionデータセットがあるといいなぁと思いました。そこで、日本の官公庁のWebサイトから「よくある質問」を手作…

松note
6か月前
53

Python3.12以降でmatplotlibで日本語フォントを表示したいときは、matplotlib-fontjaをimportすると楽

matplotlibで日本語フォントを表示する際には、多くの人がuehara1414さんが作成されたjapanize-matoplotlibにお世話になっていたかと思います。importするだけで日本語フォント対応できるので、とても有り難いライブラリです。

ただ、Python3.12からはdistutilsが含まれなくなったため、japanize-matplotlibをインポートするときにエラー

もっとみる
マルチモーダルembeddigモデルE5-Vを試してみる

マルチモーダルembeddigモデルE5-Vを試してみる

画像と文字列を同じ埋め込みベクトル化できるマルチモーダルなembeddingモデルE5-Vというものを知ったので、試してみました。

画像と文字列を共にベクトル化できるとなると、先行するものとしてCLIPやSigLIPがありますが、このE5-Vは画像も理解するLLMであるLLaVA-NeXT-8Bをベースにしていることから、文章理解力が上がっているようです(上記論文参考)。

画像と文字列とでモダ

もっとみる
LLMはどんなビジネスに使われているか実例を調べる

LLMはどんなビジネスに使われているか実例を調べる

ChatGPTなどの大規模言語モデル(LLM)の可能性はすごいということで大ブームになっているので、実際のところビジネスの現場でどんな風に使われているのかちょっと調べてみました。

Q&A、チャットボット、社内ドキュメントの検索といった用途はすでに広がっているイメージはあるのですが、それ以外の広がりを探してみた感じです。

広告文の提案LINEヤフーが、リンク先のページを解析して広告文をAIで提案

もっとみる

Direct ML・PytorchでPhi-3を動かすMicrosoft製サンプルを試してみました

おおお! Cudaが0%なのにGPUを55%使ってる! 確かにCudaではなくDirectMLでGPUを使って動いているようです。

と、タイトルとこの画像でほとんど説明は済んでしまったのですが、MicrosoftがPytorch2.2をDirectMLで動かすサンプルを公開していたので試してみました。

この記事の通りに動かせば、画像のようにGradioで動くWebUIが立ち上がり、Direct

もっとみる
アイシア・ソリッドさんの動画を見続けたらG検定に受かった話 ディープラーニングを学ぶのにオススメYouTube3選

アイシア・ソリッドさんの動画を見続けたらG検定に受かった話 ディープラーニングを学ぶのにオススメYouTube3選

日本ディープラーニング協会が実施しているG検定という試験があります。ディープラーニングにまつわる話題について一通り理解しているかを問う試験内容で、1960年代からつい最近の生成AIまで、機械学習の歴史を浅く広く出題する感じ。暗記問題の4択なので、エンジニアではなく、技術系の会社の営業や広報の人向けかもしれないです。

国家資格ではないので受かったから何か意味があるかと言えばないかもしれませんが、私

もっとみる
いつの間にかWindowsでもシンプルに pip install bitsandbytes でbitsandbytesが使えるようになっていた

いつの間にかWindowsでもシンプルに pip install bitsandbytes でbitsandbytesが使えるようになっていた

LLMを使う時、4bit/8bit量子化をするなら必要になるbitsandbytesというライブラリがあります。今までWindowsは正式にはサポートされておらず、公式以外のビルドを使ったりなどの工夫が必要でした。

ところが、3週間くらい前にリリースされたbitsandbytesのリリース情報を見ていたら、最新の0.43.0でWindowsがサポートされたとありました。

「多分、公式にpip

もっとみる
月ノ美兎委員長に影響されて、AI vs. 俺の大喜利バトルクイズを作ってみました

月ノ美兎委員長に影響されて、AI vs. 俺の大喜利バトルクイズを作ってみました

大人気バーチャルライバー、ずっとVTuber界のトップランナーである月ノ美兎委員長が、面白い動画を出されていました。4つのAI+人間の大喜利の回答を提示し、どれが人間の回答なのかを当てるというものです。

AIにも個性があり、非常に面白かったです。GPT-4はほとんど人間でしたね。

これがとても楽しかったので、いっちょローカルLLMでやってみようと思いました。同じくクイズ形式にしてあるので、以下

もっとみる
Gemma利用規約・禁止事項の気になるところ

Gemma利用規約・禁止事項の気になるところ

GoogleからGemmaというローカルLLMが出ました。Llama2などと同じく、無料でダウンロードして各自の環境で実行できるオープンなスタイルです。

ライセンスは独自のもの。Meta社のLlama2も独自のライセンスですので、先行事例に倣ったのかもしれません。

個人的には、データセットを作ったり、ロマンチックなAIキャラクターを作ったりしたいので、利用規約は気になります。軽く調べてみました

もっとみる
ReazonSpeech v2, whisper-large v3, nue-asrを比較してみた

ReazonSpeech v2, whisper-large v3, nue-asrを比較してみた

今年2024年の2月14日に、日本語音声の文字起こしエンジンReazonSpeechのv2がリリースされました。NVIDIAのNemoを採用し、学習データセットも強化され、Fast Conformerという手法により高速化されたそうです。強そう。

同じく今年の1月に、transformersが4.73になり、OpenAIによる文字起こしエンジンwhisperが、transfomersでBatch

もっとみる

llm-jp/llm-jp-13b-dpo-lora-hh_rlhf_ja-v1.1 のLoRAファイルをマージして使ってみる

LLM-jpから、新しい13bモデルであるversion 1.1が公開されました。先に公開されていた1.0のモデルに対して、新しいデータセットでのインストラクションチューニングを加えたものみたいです。理研が進めている自然な日本語のデータセットichikaraを使っているのもポイント。

このモデルのいいところは、日本語に強い13bモデルとしては珍しい、Apache 2.0ライセンスであることです。

もっとみる
UnityからStyle-Bert-VITS2のAPIを呼ぶときに、BudouXのUnity版であるUniBudouXを使ってテキストを自動的に100文字以下に分割して音声合成する

UnityからStyle-Bert-VITS2のAPIを呼ぶときに、BudouXのUnity版であるUniBudouXを使ってテキストを自動的に100文字以下に分割して音声合成する

趣味でAITuberを作っています。UnityでVRMを表示し、発話の生成はローカルLLMで。そして音声合成はローカルで動かしているStyle-Bert-VITS2をつくよみちゃんコーパスで学習させたものを使わせてもらっています。以下が最初のテスト配信です。合成音声コンテンツの本場はニコニコだろうということでニコ生でやりました。今後もニコ生メインでやってみたい。

UnityからStyle-Ber

もっとみる

AI, LLM, VR/ARの情報を得るためのRSSリスト(たまに更新)

最近、X(Twitter)が怖い感じになってきた気がします。元気なときはいいのですが、気分が沈んでいるときに見ると刺激的すぎる投稿が上がってきていたりします。

というわけで、しばらく、Xを見ないことにしてみました。AndroidスマホはWellbeingというところから、iPadはスクリーンタイムから、それぞれXのアプリ・Webにアクセスできないように設定しました。PCでも、以下のChrome拡

もっとみる
リクルートからも日本語CLIPが来た! recruit-jp/japanese-clip-vit-b-32-roberta-base を使って、ローカルの画像を日本語で検索してみる

リクルートからも日本語CLIPが来た! recruit-jp/japanese-clip-vit-b-32-roberta-base を使って、ローカルの画像を日本語で検索してみる

一昨日、Googleのmultiligual SigLIPを使って画像検索する記事を書いたところで、なんと、昨日、リクルートからも日本語対応のCLIPが出ました。しかも商用可能なCC-BY-4.0ライセンス!ヤバい。今年はローカルで動くマルチモーダルがアツい年になりそうです。

CLIPとはスーパー雑に言えば、画像とテキストを同じ空間のベクトルにできるモデルで、テキストと画像が「近いか」を判定した

もっとみる
google/siglip-base-patch16-256-multilingual を使って、ローカルの画像を日本語で検索してみる

google/siglip-base-patch16-256-multilingual を使って、ローカルの画像を日本語で検索してみる

今年1月に、Googleから、SigLIPという、画像とテキストの両方をベクトルとして扱うことができるモデルのmultilingual版(多言語対応版)が公開されました。transformers 4.37以降で対応しています。日本語も対応しています。

これを使って、以前、昨年11月に公開された stabilityai/japanese-stable-clip-vit-l-16 を使ってやってみた

もっとみる

Llama.cppのOpenAI互換モードを使って、OpenAIから少ない手間でローカルLLMに乗り換える

ご家庭のパソコンで簡易ChatGPTみたいなものが動かせるローカルLLMと呼ばれるものがあります。金融などハイレベルな機密情報を扱う企業などはクラウドに情報を簡単に出せないため、クローズドな環境でChatGPTみたいなことをしたいというニーズに応える活用例も考えられています。単純にホビーとして動かすのも楽しいです。

そんなローカルLLMを動かすために、開発が進んでいるのがLlama.cppです。

もっとみる
日本の官公庁にある「よくある質問」をデータセットにまとめました

日本の官公庁にある「よくある質問」をデータセットにまとめました

LLMをチューニングするにあたって、質の良い日本語のInstructionデータセットがあるといいなぁと思いました。そこで、日本の官公庁のWebサイトから「よくある質問」を手作業で抽出し、およそ22000件の質問と応答の形になっているデータセットとしてまとめました。

省庁の中でも、CC-BY-4.0(国際)互換のライセンスである「政府標準利用規約(第2.0版)」が明示されている組織からだけ取得し

もっとみる