マガジンのカバー画像

shi3z note

571
運営しているクリエイター

#LLM

Llama3.3 128Kコンテキスト長多言語対応オープンLLMと200万トークン対応かつ無料で使えるGemini-exp-1206など

Llama3.3 128Kコンテキスト長多言語対応オープンLLMと200万トークン対応かつ無料で使えるGemini-exp-1206など

OpenAIが平日毎日新機能の説明をするというイベントのために午前2時に起きたが、割と興味のない内容だったので松尾さんと二人で憤慨していたのだが、その裏でMetaがLlama3.3-70Bを公開していた。70BでGPT-4oを上回る性能かつ、Llama3.1 405Bを上回る性能らしい。

早速、昨日試したAttentionにまつわる物語を翻訳してもらうと、確かになかなかいい翻訳になった。

これ

もっとみる
「考えるということを考えるAI」: OpenAI o1と因果推論AI(Causal AI)

「考えるということを考えるAI」: OpenAI o1と因果推論AI(Causal AI)

本記事は、9月12日にOpenAIから発表された新しいAIモデル、o1 シリーズ (o1-preview, o1-mini)についてと、o1 登場によって注目が高まるであろう、生成AI(Generative AI)とは異なるアプローチのAIであり、「考えるということを考える」を実現する、因果推論AI(Causal AI)について概観したものです。AGI(汎用人工知能) の実現に向けたステップにもな

もっとみる
ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp

ついにBitNet Llama8Bが登場! CPUのみで爆速推論するLLM,BitNet.cpp

科学の世界では、それまでの常識が覆ることを俗に「パラダイムシフト」と呼ぶ。

しかし、もしもAIの世界にパラダイムシフトという言葉があるとしたら、今週の人類は一体何度のパラダイムシフトを経験しただろうか。

そのトドメの一撃とも言えるのが、BitNetのLlama8B版だ。
Lllama-8B構造で学習された最初のBitNetであり、全てを変えてしまうゲームチェンジャーでもある。CPUのみで秒間5

もっとみる
驚異のLLMテクノロジーentropixを8Bに拡張するとどうなったか?

驚異のLLMテクノロジーentropixを8Bに拡張するとどうなったか?

昨日は休もうと思ったのにentropixが衝撃的すぎて結局ずっとコンソールに齧り付いていた。今日は技研スタジオの電気工事があるのだが、技研専属電気技師のふかみんがなかなか他のフロアの作業が終わらないので、その間に誘惑に勝てず、再びentropixを触ってみた。

entropixのオリジナルのコードは1B用なので、これを8Bに拡大してみる。
細かい修正点が多かったのでソースコードをフォークして自分

もっとみる
物理学者の逆襲!?Entropixはわずか3億6000万パラメータで1000億パラメータ級の回答を引き出す!Claude-3でも間違う問題を360Mが正しく解く

物理学者の逆襲!?Entropixはわずか3億6000万パラメータで1000億パラメータ級の回答を引き出す!Claude-3でも間違う問題を360Mが正しく解く

物理学者たちがノーベル物理学賞をホップフィールドとヒントンが受賞すると知った時、まあまあ微妙な気持ちになったことは想像に難くない。

我々コンピュータ科学者にとっては、ノーベル賞は全く無縁なものだった。むしろ「ノーベル賞をコンピュータ科学者が取ることは永久にない」と言い訳することさえできた。コンピュータ科学の世界にはチューリング賞という立派な賞があるし、ノーベル賞よりも賞金が高かった京都賞は、アラ

もっとみる
vllmで70Bモデルを動かすためのメモ

vllmで70Bモデルを動かすためのメモ

長岡のハッカソンでTanuki-8x22Bを動かそうかと思っていたのだが、別件でTanukiでスパムフィルタを作ったけどうまくいかず、Swallow70Bに変えようとしたらつまづいたのでメモ
結論から書く

$ export PYTORCH_CUDA_ALLOC_CONF=max_split_size_mb:128 $ vllm serve "tokyotech-llm/Llama-3.1-Sw

もっとみる
可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme

可愛すぎかよ! ハッカーの新しい相棒 コマンドラインからLLMを使えるgptme

こういうのが欲しかったんだよ。マジで。
コマンドラインからLLMを呼び出せるgptmeというツールがアツい

これは、gptmeコマンドを追加するというもの。
環境変数としてOPENAI_API_KEYとかAnthropicのキーとかを設定しておくと勝手にAPIを呼び出してくれる。もちろん、クラウドに送信するとかけしからんという勢にはローカルLLMでも対応できる。

こいつはコマンドライン版Cha

もっとみる
NDIからMLX-VLMに接続して画面にどんなものが写ってるのかリアルタイムに説明させる

NDIからMLX-VLMに接続して画面にどんなものが写ってるのかリアルタイムに説明させる

NDIで遊べるようになった吾輩はいてもたってもいられなくなり、そのままアドレナリンが出っ放しの状態でなんとかNDIとAIをどうにかイングリモングリできないものかと思案した。

Ubuntuに入れようかと思ったのだが、NDIのライブラリがどうもPythonとのバインディングが微妙で上手く行かなかった上に、やはりUbuntu+GPUは高価すぎるのでもう少しセコいマシン構成が通用する世界観はないものかと

もっとみる
ただでネットをクローリングしてJSON形式でデータを取り出す

ただでネットをクローリングしてJSON形式でデータを取り出す

Crawl4aiは、LLM用のクローラーだ。内部ではSeleniumとlitellmを使用していて、任意のWebサイトから情報を抽出できる。

元々のサンプルはOpenAIのAPIを呼んでいたが、金がかかるし、APIの呼び出しリミットが来ると嫌なのでOllama+Reflectionでやれないか試したら、できた。

import osimport timefrom crawl4ai.web_cra

もっとみる
LLama3.1-70BをReflection化するReflectionプロンプトを試す/ついでにTanuki-8Bでも試してみる

LLama3.1-70BをReflection化するReflectionプロンプトを試す/ついでにTanuki-8Bでも試してみる

Reflection的なやり方はシステムプロンプトを変更するとできるそうで、Llama-3.1:70Bにシステムプロンプトを設定してやってみた。

設定すべきプロンプトはこれ

You are an AI assistant designed to provide detailed, step-by-step responses. Your outputs should follow this s

もっとみる
Reflection-70BとLlama-3.1-70Bを比較する

Reflection-70BとLlama-3.1-70Bを比較する

Llama3.1をファインチューニングして性能がすごく良くなったという「Reflection-70B」だが、実はLlama3.1ではなくてLlama3をファインチューニングしたのでは?という疑惑もある。

まあとりあえず百聞は一見に如かず、なので触ってみることにした。
Reflectionの特徴は、その名の通り「反射」という仕組みによって自己批判的に推論していくこと。

まずはReflection

もっとみる
【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す

【これがゲームチェンジャーか!】松尾研のTanuki-8BとTanuki-8x8Bを試す

東大松尾研がついに真打とも言えるべきオープンな日本語LLMを発表した。その名もTanuki

なぜタヌキなのか?
その謎は謎のままだが、とにかく日本語性能がGemini1.5Proに次ぎ、少し前のGPT-4よりも高い上に商用利用可能という太っ腹仕様なので使わない手はない。むしろこれさえあればもう誰もGPTに課金しなくて済む、そんな未来が来るのかもしれない。

しかし、Tanukiは特殊な何かをして

もっとみる
Macで完全ローカルで1万6千字の記事の作成から日本語訳まで行う

Macで完全ローカルで1万6千字の記事の作成から日本語訳まで行う

今、故あってTGVに乗っている。
TGVは、フランス版新幹線のようなものだが、日本の新幹線に比べると通信のつながりがそんなに良くない。したがって、AIに自由にアクセスするのも一苦労である。こんな時、ローカルで全て完結するLLMがあると非常に便利だ。

ちなみにコーディング支援にはmlx-community--codegemma-7b-it-8bitを使った。原稿生成と日本語訳にはshi3z/mlx

もっとみる
GPU使用率をリアルタイムで監視できるNVITOPが可愛すぎて生きるのが辛い

GPU使用率をリアルタイムで監視できるNVITOPが可愛すぎて生きるのが辛い

もうT/Oでいいくらいなんだけど。
GPU使用率を見るのに毎回nvidia-smiを実行する簡単なお仕事で年収3000万円取ってるプロンプトエンジニアはいねがー?

割と洒落にならないくらい居そうなのでまあそれはさておき。
nvidia-smiがマイ実行コマンド上位ランクに位置しそうなお父さんには朗報です。

それがnvitop。
そう、その名の通り、nvidia-smiとtopを合わせたような便

もっとみる