マガジンのカバー画像

shi3z note

547
運営しているクリエイター

#LLM

ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp

ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp

科学の世界では、それまでの常識が覆ることを俗に「パラダイムシフト」と呼ぶ。

しかし、もしもAIの世界にパラダイムシフトという言葉があるとしたら、今週の人類は一体何度のパラダイムシフトを経験しただろうか。

そのトドメの一撃とも言えるのが、BitNetのLlama8B版だ。
Lllama-8B構造で学習された最初のBitNetであり、全てを変えてしまうゲームチェンジャーでもある。CPUのみで秒間5

もっとみる
驚異のLLMテクノロジーentropixを8Bに拡張するとどうなったか?

驚異のLLMテクノロジーentropixを8Bに拡張するとどうなったか?

昨日は休もうと思ったのにentropixが衝撃的すぎて結局ずっとコンソールに齧り付いていた。今日は技研スタジオの電気工事があるのだが、技研専属電気技師のふかみんがなかなか他のフロアの作業が終わらないので、その間に誘惑に勝てず、再びentropixを触ってみた。

entropixのオリジナルのコードは1B用なので、これを8Bに拡大してみる。
細かい修正点が多かったのでソースコードをフォークして自分

もっとみる
物理学者の逆襲!?Entropixはわずか3億6000万パラメータで1000億パラメータ級の回答を引き出す!Claude-3でも間違う問題を360Mが正しく解く

物理学者の逆襲!?Entropixはわずか3億6000万パラメータで1000億パラメータ級の回答を引き出す!Claude-3でも間違う問題を360Mが正しく解く

物理学者たちがノーベル物理学賞をホップフィールドとヒントンが受賞すると知った時、まあまあ微妙な気持ちになったことは想像に難くない。

我々コンピュータ科学者にとっては、ノーベル賞は全く無縁なものだった。むしろ「ノーベル賞をコンピュータ科学者が取ることは永久にない」と言い訳することさえできた。コンピュータ科学の世界にはチューリング賞という立派な賞があるし、ノーベル賞よりも賞金が高かった京都賞は、アラ

もっとみる
vllmで70Bモデルを動かすためのメモ

vllmで70Bモデルを動かすためのメモ

長岡のハッカソンでTanuki-8x22Bを動かそうかと思っていたのだが、別件でTanukiでスパムフィルタを作ったけどうまくいかず、Swallow70Bに変えようとしたらつまづいたのでメモ
結論から書く

$ export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128 $ vllm serve "tokyotech-llm/Llama-3.1-Sw

もっとみる
可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme

可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme

こういうのが欲しかったんだよ。マジで。
コマンドラインからLLMを呼び出せるgptmeというツールがアツい

これは、gptmeコマンドを追加するというもの。
環境変数としてOPENAI_API_KEYとかAnthropicのキーとかを設定しておくと勝手にAPIを呼び出してくれる。もちろん、クラウドに送信するとかけしからんという勢にはローカルLLMでも対応できる。

こいつはコマンドライン版Cha

もっとみる
NDIからMLX-VLMに接続して画面にどんなものが写ってるのかリアルタイムに説明させる

NDIからMLX-VLMに接続して画面にどんなものが写ってるのかリアルタイムに説明させる

NDIで遊べるようになった吾輩はいてもたってもいられなくなり、そのままアドレナリンが出っ放しの状態でなんとかNDIとAIをどうにかイングリモングリできないものかと思案した。

Ubuntuに入れようかと思ったのだが、NDIのライブラリがどうもPythonとのバインディングが微妙で上手く行かなかった上に、やはりUbuntu+GPUは高価すぎるのでもう少しセコいマシン構成が通用する世界観はないものかと

もっとみる
ただでネットをクローリングしてJSON形式でデータを取り出す

ただでネットをクローリングしてJSON形式でデータを取り出す

Crawl4aiは、LLM用のクローラーだ。内部ではSeleniumとlitellmを使用していて、任意のWebサイトから情報を抽出できる。

元々のサンプルはOpenAIのAPIを呼んでいたが、金がかかるし、APIの呼び出しリミットが来ると嫌なのでOllama+Reflectionでやれないか試したら、できた。

import osimport timefrom crawl4ai.web_cra

もっとみる
LLama3.1-70BをReflection化するReflectionプロンプトを試す/ついでにTanuki-8Bでも試してみる

LLama3.1-70BをReflection化するReflectionプロンプトを試す/ついでにTanuki-8Bでも試してみる

Reflection的なやり方はシステムプロンプトを変更するとできるそうで、Llama-3.1:70Bにシステムプロンプトを設定してやってみた。

設定すべきプロンプトはこれ

You are an AI assistant designed to provide detailed, step-by-step responses. Your outputs should follow this s

もっとみる
Reflection-70BとLlama-3.1-70Bを比較する

Reflection-70BとLlama-3.1-70Bを比較する

Llama3.1をファインチューニングして性能がすごく良くなったという「Reflection-70B」だが、実はLlama3.1ではなくてLlama3をファインチューニングしたのでは?という疑惑もある。

まあとりあえず百聞は一見に如かず、なので触ってみることにした。
Reflectionの特徴は、その名の通り「反射」という仕組みによって自己批判的に推論していくこと。

まずはReflection

もっとみる
【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す

【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す

東大松尾研がついに真打とも言えるべきオープンな日本語LLMを発表した。その名もTanuki

なぜタヌキなのか?
その謎は謎のままだが、とにかく日本語性能がGemini1.5Proに次ぎ、少し前のGPT-4よりも高い上に商用利用可能という太っ腹仕様なので使わない手はない。むしろこれさえあればもう誰もGPTに課金しなくて済む、そんな未来が来るのかもしれない。

しかし、Tanukiは特殊な何かをして

もっとみる
Macで完全ローカルで1万6千字の記事の作成から日本語訳まで行う

Macで完全ローカルで1万6千字の記事の作成から日本語訳まで行う

今、故あってTGVに乗っている。
TGVは、フランス版新幹線のようなものだが、日本の新幹線に比べると通信のつながりがそんなに良くない。したがって、AIに自由にアクセスするのも一苦労である。こんな時、ローカルで全て完結するLLMがあると非常に便利だ。

ちなみにコーディング支援にはmlx-community--codegemma-7b-it-8bitを使った。原稿生成と日本語訳にはshi3z/mlx

もっとみる
GPU使用率をリアルタイムで監視できるNVITOPが可愛すぎて生きるのが辛い

GPU使用率をリアルタイムで監視できるNVITOPが可愛すぎて生きるのが辛い

もうT/Oでいいくらいなんだけど。
GPU使用率を見るのに毎回nvidia-smiを実行する簡単なお仕事で年収3000万円取ってるプロンプトエンジニアはいねがー?

割と洒落にならないくらい居そうなのでまあそれはさておき。
nvidia-smiがマイ実行コマンド上位ランクに位置しそうなお父さんには朗報です。

それがnvitop。
そう、その名の通り、nvidia-smiとtopを合わせたような便

もっとみる
Macで完全ローカルでLongWriterを動かして1万6千字の原稿を生成する

Macで完全ローカルでLongWriterを動かして1万6千字の原稿を生成する

MLXがすごく簡単に作れてしかもローカルで動くのでここんとこずっと機上だったりインターネットがあまり繋がらなかったりする地域にいる我輩にとってはMLXによるAIがある意味で命綱みたいなものである。

そのMLXで、長文を書かせるLongWriterをMLXに変換して使ってみた。
結果は予想以上のものだった。

最初はちょっと苦戦したのだが、noguchi_shojiさんのヒントのおかげで長文を生成

もっとみる
AMD9950X/128GB DDR5+4090によるvllmベンチマーク

AMD9950X/128GB DDR5+4090によるvllmベンチマーク

AMD9950Xと4090をせっかくインストールしたので、とりあえずvllmでどのくらいのスループットが出るのか確かめてみた。

トルコのイスタンブールから浅草橋の技研にリモートアクセスして確かめる

機材構成としては以下の通り

なのでまあ基本的にGPUのスピードだと思うが、何パターンか試してみた。

まずはvllmのデフォルトのパラメータでやってみる(プロンプト数=2)

python ben

もっとみる