kawamou

クリエ〜ティブな技術やカルチャー / R&D Engineer @通信会社 R&D

10 フォロー 37 フォロワー

LLM のニューロンを可視化し理解する Gemma Scope のススメ

LLM（に限らず NN の多く）は便利だが時にブラックボックス過ぎるキライがある。Google が発表した Gemma Scope は Google の LLM「Gemma」の内部ニューロンを可視化し分析…

kawamou

1日前

Transformers.js によるブラウザ上で動く「日→英」音声翻訳の実装

Transformers.js の検証がてらローカルのブラウザで完結する音声翻訳を実装した。下記は実行結果であり、動画上マイク音声が入っていないが「日本語音声入力 → テキスト化…

kawamou

1か月前

MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

MotionGPT でモーションを生成し、Blender 上で 3D モデルに適用して動かしてみた。モーション生成概要テキストからモーションを生成する技術。行動を表すテキストを…

kawamou

4か月前

LLM 時代のアイデンティティ・クライシスに対する生存戦略

大規模言語モデル（LLM）の登場で大なり小なりアイデンティティ・クライシスの時代がやってきた。馬車道だったニューヨークの町並みがたった 10 年で自動車文化に様変わり…

kawamou

5か月前

Mac で StreamDiffusion やってみる

昨年末頃 100 fps 超えの超高速 Stable Diffusion（SD）として話題になった StreamDiffusion。 CUDA 前提のため Mac では厳しかろうと思われたが結論から言うと動かせた。…

kawamou

6か月前

結局 llama.cpp とは何者なのか？

裏側を知らずとも README 通りにやれば Mac でも LLM 動かせる優れモノだが改めて llama.cpp とは何者なのか。 GGML は C/C++ における PyTorchllama.cpp を理解する上で…

kawamou

7か月前

LLM をリサーチする際に使っているサイトやツール

最近は LLM アプリケーションを開発するソフトウェアエンジニアとして、モノ作りへの示唆が欲しい意図で技術調査するユースケースが多い。リサーチは探す / 読む / まと…

kawamou

10か月前

LLM に「人格」を付与する研究やツールを調査した

LLM に特定の人格やキャラクターを付与する試み（以降「人格再現」と表現）についてリサーチする機会があり色々調べてたら結構まとまってきたのでメモ代わりに放出する。 …

kawamou

11か月前

エンジニア視点でまとめる Generative Agents の作り方

今年 4 月「Google 発！25名の AI が暮らす街のシミュレーション！」と話題になり LLM 万能説に勢いを付けた印象のある Generative Agents 論文。論文の内容を超え、デモの…

kawamou

1年前

Unity 内のエージェントに生成 AI で「視覚」を付与する実験

まずはじめに、実験結果が下記である。エージェントの視界に映る内容をテキストで説明できている。仕組みとしては単純で、エージェント頭部に設置したカメラ映像から画…

kawamou

1年前

二次元画像の口を音声に合わせてパクパクさせたい

まず結論から言うと、SadTalker を利用して音声に合わせパクパク（リップシンク）できた。 SadTalker はリップシンクのみならず、顔や表情も音声に連動できる（README の G…

kawamou

1年前

kawamou

2024年8月23日 23:56

LLM のニューロンを可視化し理解する Gemma Scope のススメ

LLM（に限らず NN の多く）は便利だが時にブラックボックス過ぎるキライがある。Google が発表した Gemma Scope は Google の LLM「Gemma」の内部ニューロンを可視化し分析することのできるオモシロツールである。

公式が Colab を用意しているため触ってみた備忘録。

LLM の内部を理解する Mechanistic Interpretability（機械論的解

もっとみる

kawamou

2024年7月3日 10:56

Transformers.js によるブラウザ上で動く「日→英」音声翻訳の実装

Transformers.js の検証がてらローカルのブラウザで完結する音声翻訳を実装した。下記は実行結果であり、動画上マイク音声が入っていないが「日本語音声入力 → テキスト化 → 翻訳 → 英語音声出力」ができている ↓

Transformers.jsHugging Face 所属の @xenova 筆頭に開発が進む Transformers.js。

Python の Transforme

もっとみる

kawamou

2024年4月20日 01:51

MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

MotionGPT でモーションを生成し、Blender 上で 3D モデルに適用して動かしてみた。

モーション生成概要

テキストからモーションを生成する技術。
行動を表すテキストを再現するようなモーションが得られる。

様々な手法

Motion Diffusion Model や text-to-motion 等様々な手法があり、Awesome-Video-Diffusion リポジトリに

もっとみる

kawamou

2024年3月25日 20:48

LLM 時代のアイデンティティ・クライシスに対する生存戦略

大規模言語モデル（LLM）の登場で大なり小なりアイデンティティ・クライシスの時代がやってきた。
馬車道だったニューヨークの町並みがたった 10 年で自動車文化に様変わりする写真はあまりに有名だが、歴史を顧みて分かる通り技術は労働を劇的に代替する。
単に順番が回って来ただけなのだろう、技術者や知識労働者、クリエイターの職位を脅かす X デー、審判の日がやってきたのだ。
2019 年アルス・エレクトロ

もっとみる

kawamou

2024年1月28日 23:20

Mac で StreamDiffusion やってみる

昨年末頃 100 fps 超えの超高速 Stable Diffusion（SD）として話題になった StreamDiffusion。

CUDA 前提のため Mac では厳しかろうと思われたが結論から言うと動かせた。
下記が実行結果で少々遅くカクツキあるが（GPU 利用で）3〜4 fps くらいで動く。
Web カメラで読み取った手の動作をリアルタイム変換している。

StreamDiffusio

もっとみる

kawamou

2024年1月4日 19:56

結局 llama.cpp とは何者なのか？

裏側を知らずとも README 通りにやれば Mac でも LLM 動かせる優れモノだが改めて llama.cpp とは何者なのか。

GGML は C/C++ における PyTorchllama.cpp を理解する上で、まず GGML を知る必要がある。

GGML は llama.cpp 作者ジョージ・ゲルガノフが作った機械学習ライブラリで C/C++ における PyTorch に対応するライ

もっとみる

kawamou

2023年10月5日 19:30

LLM をリサーチする際に使っているサイトやツール

最近は LLM アプリケーションを開発するソフトウェアエンジニアとして、モノ作りへの示唆が欲しい意図で技術調査するユースケースが多い。

リサーチは探す / 読む / まとめるの 3 フェーズに分かれると考えており、LLM 研究（や論文）のリサーチをする際、それぞれのフェーズでどのような工夫を行っているかまとめた。

余談だが「リサーチ」全般の地肩を作った書籍とサイトがあるので先に紹介しておく。こ

もっとみる

kawamou

2023年9月18日 18:27

LLM に「人格」を付与する研究やツールを調査した

LLM に特定の人格やキャラクターを付与する試み（以降「人格再現」と表現）についてリサーチする機会があり色々調べてたら結構まとまってきたのでメモ代わりに放出する。

そもそも人格再現して何が嬉しいの？（１）エンタメ領域への適用

最も分かりやすいところだとゲームやメタバース、デジタルなエンターテイメントへの適用が挙げられる。
ゲームに登場する NPC が独自の人格を持っていれば体験が豊かになるだ

もっとみる

kawamou

2023年8月10日 05:52

エンジニア視点でまとめる Generative Agents の作り方

今年 4 月「Google 発！25名の AI が暮らす街のシミュレーション！」と話題になり LLM 万能説に勢いを付けた印象のある Generative Agents 論文。論文の内容を超え、デモのキャッチーさやコンセプトの分かりやすさから幅広くマスにリーチした印象がある。

ソフトウェアエンジニアとしては（？）「デモをどうやって作ったのか」が気になる。幸いにして Generative Age

もっとみる

kawamou

2023年7月3日 08:19

Unity 内のエージェントに生成 AI で「視覚」を付与する実験

まずはじめに、実験結果が下記である。
エージェントの視界に映る内容をテキストで説明できている。

仕組みとしては単純で、エージェント頭部に設置したカメラ映像から画像を切り出して BLIP（画像 → テキスト変換可能な生成 AI）に食わせた。

BLIP の出力文は英語かつ拙いことがあるので、ChatGPT によってスマートな日本語に変換した上で画面上に出力している。
Unity 歴半月初心者なので

もっとみる

kawamou

2023年6月7日 08:51

二次元画像の口を音声に合わせてパクパクさせたい

まず結論から言うと、SadTalker を利用して音声に合わせパクパク（リップシンク）できた。
SadTalker はリップシンクのみならず、顔や表情も音声に連動できる（README の GIF 見ると分かりやすい）。

実際に使ってみた結果がコレ。織田信長がパクパクしとる！

パクパク動画の作り方手元に機械学習できる環境なくても問題なし。
リポジトリに実行環境（無料）への導線が 2 つ準備されて

もっとみる

記事一覧

LLM のニューロンを可視化し理解する Gemma Scope のススメ

Transformers.js によるブラウザ上で動く「日→英」音声翻訳の実装

MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

LLM 時代のアイデンティティ・クライシスに対する生存戦略

Mac で StreamDiffusion やってみる

結局 llama.cpp とは何者なのか？

LLM をリサーチする際に使っているサイトやツール

LLM に「人格」を付与する研究やツールを調査した

エンジニア視点でまとめる Generative Agents の作り方

Unity 内のエージェントに生成 AI で「視覚」を付与する実験

二次元画像の口を音声に合わせてパクパクさせたい