kawamou

クリエ〜ティブな技術やカルチャー / R&D Engineer @通信会社 R&D

kawamou

クリエ〜ティブな技術やカルチャー / R&D Engineer @通信会社 R&D

記事一覧

LLM のニューロンを可視化し理解する Gemma Scope のススメ

LLM(に限らず NN の多く)は便利だが時にブラックボックス過ぎるキライがある。Google が発表した Gemma Scope は Google の LLM「Gemma」の内部ニューロンを可視化し分析…

kawamou
1日前
4

Transformers.js によるブラウザ上で動く「日→英」音声翻訳の実装

Transformers.js の検証がてらローカルのブラウザで完結する音声翻訳を実装した。下記は実行結果であり、動画上マイク音声が入っていないが「日本語音声入力 → テキスト化…

kawamou
1か月前
4

MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

MotionGPT でモーションを生成し、Blender 上で 3D モデルに適用して動かしてみた。 モーション生成概要 テキストからモーションを生成する技術。 行動を表すテキストを…

kawamou
4か月前
3

LLM 時代のアイデンティティ・クライシスに対する生存戦略

大規模言語モデル(LLM)の登場で大なり小なりアイデンティティ・クライシスの時代がやってきた。 馬車道だったニューヨークの町並みがたった 10 年で自動車文化に様変わり…

kawamou
5か月前
6

Mac で StreamDiffusion やってみる

昨年末頃 100 fps 超えの超高速 Stable Diffusion(SD)として話題になった StreamDiffusion。 CUDA 前提のため Mac では厳しかろうと思われたが結論から言うと動かせた。…

kawamou
6か月前
8

結局 llama.cpp とは何者なのか?

裏側を知らずとも README 通りにやれば Mac でも LLM 動かせる優れモノだが改めて llama.cpp とは何者なのか。 GGML は C/C++ における PyTorchllama.cpp を理解する上で…

kawamou
7か月前
9

LLM をリサーチする際に使っているサイトやツール

最近は LLM アプリケーションを開発するソフトウェアエンジニアとして、モノ作りへの示唆が欲しい意図で技術調査するユースケースが多い。 リサーチは探す / 読む / まと…

kawamou
10か月前
7

LLM に「人格」を付与する研究やツールを調査した

LLM に特定の人格やキャラクターを付与する試み(以降「人格再現」と表現)についてリサーチする機会があり色々調べてたら結構まとまってきたのでメモ代わりに放出する。 …

kawamou
11か月前
30

エンジニア視点でまとめる Generative Agents の作り方

今年 4 月「Google 発!25名の AI が暮らす街のシミュレーション!」と話題になり LLM 万能説に勢いを付けた印象のある Generative Agents 論文。論文の内容を超え、デモの…

kawamou
1年前
48

Unity 内のエージェントに生成 AI で「視覚」を付与する実験

まずはじめに、実験結果が下記である。 エージェントの視界に映る内容をテキストで説明できている。 仕組みとしては単純で、エージェント頭部に設置したカメラ映像から画…

kawamou
1年前
19

二次元画像の口を音声に合わせてパクパクさせたい

まず結論から言うと、SadTalker を利用して音声に合わせパクパク(リップシンク)できた。 SadTalker はリップシンクのみならず、顔や表情も音声に連動できる(README の G…

kawamou
1年前
5
LLM のニューロンを可視化し理解する Gemma Scope のススメ

LLM のニューロンを可視化し理解する Gemma Scope のススメ

LLM(に限らず NN の多く)は便利だが時にブラックボックス過ぎるキライがある。Google が発表した Gemma Scope は Google の LLM「Gemma」の内部ニューロンを可視化し分析することのできるオモシロツールである。

公式が Colab を用意しているため触ってみた備忘録。

LLM の内部を理解する Mechanistic Interpretability(機械論的解

もっとみる
Transformers.js によるブラウザ上で動く「日→英」音声翻訳の実装

Transformers.js によるブラウザ上で動く「日→英」音声翻訳の実装

Transformers.js の検証がてらローカルのブラウザで完結する音声翻訳を実装した。下記は実行結果であり、動画上マイク音声が入っていないが「日本語音声入力 → テキスト化 → 翻訳 → 英語音声出力」ができている ↓

Transformers.jsHugging Face 所属の @xenova 筆頭に開発が進む Transformers.js。

Python の Transforme

もっとみる
MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

MotionGPT で作ったモーションを任意の 3D モデルに割り当てて動かす

MotionGPT でモーションを生成し、Blender 上で 3D モデルに適用して動かしてみた。

モーション生成概要

テキストからモーションを生成する技術。
行動を表すテキストを再現するようなモーションが得られる。

様々な手法

Motion Diffusion Model や text-to-motion 等様々な手法があり、Awesome-Video-Diffusion リポジトリに

もっとみる

LLM 時代のアイデンティティ・クライシスに対する生存戦略

大規模言語モデル(LLM)の登場で大なり小なりアイデンティティ・クライシスの時代がやってきた。
馬車道だったニューヨークの町並みがたった 10 年で自動車文化に様変わりする写真はあまりに有名だが、歴史を顧みて分かる通り技術は労働を劇的に代替する。
単に順番が回って来ただけなのだろう、技術者や知識労働者、クリエイターの職位を脅かす X デー、審判の日がやってきたのだ。
2019 年アルス・エレクトロ

もっとみる
Mac で StreamDiffusion やってみる

Mac で StreamDiffusion やってみる

昨年末頃 100 fps 超えの超高速 Stable Diffusion(SD)として話題になった StreamDiffusion。

CUDA 前提のため Mac では厳しかろうと思われたが結論から言うと動かせた。
下記が実行結果で少々遅くカクツキあるが(GPU 利用で)3〜4 fps くらいで動く。
Web カメラで読み取った手の動作をリアルタイム変換している。

StreamDiffusio

もっとみる
結局 llama.cpp とは何者なのか?

結局 llama.cpp とは何者なのか?

裏側を知らずとも README 通りにやれば Mac でも LLM 動かせる優れモノだが改めて llama.cpp とは何者なのか。

GGML は C/C++ における PyTorchllama.cpp を理解する上で、まず GGML を知る必要がある。

GGML は llama.cpp 作者ジョージ・ゲルガノフが作った機械学習ライブラリで C/C++ における PyTorch に対応するライ

もっとみる
LLM をリサーチする際に使っているサイトやツール

LLM をリサーチする際に使っているサイトやツール

最近は LLM アプリケーションを開発するソフトウェアエンジニアとして、モノ作りへの示唆が欲しい意図で技術調査するユースケースが多い。

リサーチは探す / 読む / まとめるの 3 フェーズに分かれると考えており、LLM 研究(や論文)のリサーチをする際、それぞれのフェーズでどのような工夫を行っているかまとめた。

余談だが「リサーチ」全般の地肩を作った書籍とサイトがあるので先に紹介しておく。こ

もっとみる
LLM に「人格」を付与する研究やツールを調査した

LLM に「人格」を付与する研究やツールを調査した

LLM に特定の人格やキャラクターを付与する試み(以降「人格再現」と表現)についてリサーチする機会があり色々調べてたら結構まとまってきたのでメモ代わりに放出する。

そもそも人格再現して何が嬉しいの?(1) エンタメ領域への適用

最も分かりやすいところだとゲームやメタバース、デジタルなエンターテイメントへの適用が挙げられる。
ゲームに登場する NPC が独自の人格を持っていれば体験が豊かになるだ

もっとみる
エンジニア視点でまとめる Generative Agents の作り方

エンジニア視点でまとめる Generative Agents の作り方

今年 4 月「Google 発!25名の AI が暮らす街のシミュレーション!」と話題になり LLM 万能説に勢いを付けた印象のある Generative Agents 論文。論文の内容を超え、デモのキャッチーさやコンセプトの分かりやすさから幅広くマスにリーチした印象がある。

ソフトウェア エンジニアとしては(?)「デモをどうやって作ったのか」が気になる。幸いにして Generative Age

もっとみる
Unity 内のエージェントに生成 AI で「視覚」を付与する実験

Unity 内のエージェントに生成 AI で「視覚」を付与する実験

まずはじめに、実験結果が下記である。
エージェントの視界に映る内容をテキストで説明できている。

仕組みとしては単純で、エージェント頭部に設置したカメラ映像から画像を切り出して BLIP(画像 → テキスト変換可能な生成 AI)に食わせた。

BLIP の出力文は英語かつ拙いことがあるので、ChatGPT によってスマートな日本語に変換した上で画面上に出力している。
Unity 歴半月初心者なので

もっとみる

二次元画像の口を音声に合わせてパクパクさせたい

まず結論から言うと、SadTalker を利用して音声に合わせパクパク(リップシンク)できた。
SadTalker はリップシンクのみならず、顔や表情も音声に連動できる(README の GIF 見ると分かりやすい)。

実際に使ってみた結果がコレ。織田信長がパクパクしとる!

パクパク動画の作り方手元に機械学習できる環境なくても問題なし。
リポジトリに実行環境(無料)への導線が 2 つ準備されて

もっとみる