会社で「そうだ、新GPUデータセンターへ行こう!」ということになったので、今回はその顛末記。ちなみに出張報告は不要なので顛末記を書くことにしたけれども、今ではこの顛末記のデータさえあれば生成AIに「出張報告を作成して」と言えば済む。便利な世の中になってきたものです、はい。 (下記のMetaブログ記事によると5万個近いNVIDIA H100を活用して開発中のLlama 3登場も近いようであり、それに間にあって何より、何より) 事の始まり 今回はいきなりな展開なので、まずは背
暇がないので、今回はとりあえず見聞したことだけを報告。しばらく前に紹介した織田病院、商用システムとして本番稼働を開始したとのこと。 念のために申し訳あげておくと、私は本案件の関係者でも関係企業でもない。しかしネットの海を彷徨っていても、なかなかGPT-4やCoplilotといったクラウド経由のサービスではないローカルLLMで商用システムに採用されている公開事例にお目にかかることがない… 皆無に近い。 そういう意味で、無事に実証試験を経て本番稼働に至った本案件に関しては、関
何とかUbuntu Linux 22.04画面操作の実況中継を、Youtube動画として投稿することに成功した。 今回は『犬も全力で走れば棒に当たることがある…かもしれない』という話。 Zoomだけでは無理だった 実際にそんなことを言ったのかは現場にいなかったのでわからないけれども、「パンがなければお菓子を食べれば良いじゃない」という逸話は有名だ。(再現性があるとか、査読済み論文を確認しないと信頼しないが『正しいエンジニア』というものだ) それはさておき、Ubuntu
某社サマがOpenVINO LLM RAGハンズオンを開催して下さり、参加する機会を得た。「おうちに帰ってブログを書くまでがハンズオン」ということで、少し遅くなってしまったけれども報告させて頂くことにする。それにしても気軽にRAG付き生成AIを試せたことには、大いに驚いた次第。 そもそもOpenVINOとは何か? OpenVINOツールキットとは、「推論アプリケーションの開発を手軽に始められる汎用的な推論エンジン」である。 たぶん過去にどこかで接したと思うけれども、今
さて先記事では、当面の生成AI案件は数億円以上が動くような大規模案件ではなくて、身近なところにアシスタント的に導入する形でお客様に食い込むツールとしての役割を担うことが増えそうだ… と書いたつもりだ。 今回は、それを実現するのが実は結構大変なのだという体験記である。 自分にとって理想形の織田病院 言ってしまえば「孤独のグルメ」のように、ちょっとしたところで感動を得るような使い方である。生成AIに100%確実なアウトプットを期待するのは難しいので、今のところはアシスタント
さて生成AIに関係するようになってから、一年が経過した。表向きはGoogleやMicrosoftのようにGAFAMと呼ばれる5社とOracleがNVIDIA GPUを買いまくって話題になっているけど、その裏でHPEやDellは随分と様変わりしてきた。 一年前は「我々も大規模システムを次々と受注できるかもしれない」という夢が膨らんだけれども、結局のところはマッキンゼーなどのコンサルティング企業やIDC/Gartnerといったコンピュータシステム系な調査会社の予想が正しかった
「サルも木から落ちる」ということわざがある。どうも佐賀の織田病院の事例が軽く見られているようだ。 今回は「餅は餅屋」というか、実は佐賀の織田病院の生成AI事例は業界人から見ると大したことなので、関係者ではないけれども紹介させて頂くことにしたい。 間違いではない(正解でもない) 今回の発端は、このX(Twitter)ツイートだ。これを見て、「病院は個人情報を保護することを最優先にするのか…」と思った人は、商売には向いているとは言えないかもしれない。 日経xtech誌はお
けっこう真面目な話。 実は生成AIというのは大量の言葉の繋がるパターンを学習し、人間がプロンプトで入力した内容から出力を作成する。逆に言うとパターン化した出力になる。コンサルティングでアイディア(特定の条件を付けて適当なフレーズを拾ってくる)を求めるとか長文要約は得意だけれども、駄洒落のように非定型パターン&単語決め打ちのように数学計算に近いような処理能力は気になるところだ。 東大の入試問題を解かせてみても英語は良好なものの、数学は一般的に低スコアである。小説を書いて貰
最近はクラウドの向こうにある超大規模GPUクラスタに頼らずとも、社内とか自宅に設置されたマシンでローカル生成AI(LLM)が使い物になりつつある。大きくは数百Bパラメータ版の汎用型と数Bパラメータ版の目的特化型の二系統に分かれているが、我が家で稼働しているCommand R Plus 104B版の場合は、何も教えなくてもフリーザ様のデスビームを知っていることが判明した。 今回は「なんでそんなことを聞いているのか?」とか、どうして二系統が存在するのかを解説させて頂くことにし
記事名は受け狙い。本当に比較してみたら、両陣営の関係者へ盛大な薪を投入するような、盛大な炎上案件となってしまう。 今回はWindows環境でLlama.cppでNVIDIA GPUを使う方法を模索している時に見かけたブログがあり、そこで「CPUのみ」と「GPU利用(cuBLAS)」で数値比較している記事があったので、ド素人が真似をしてみたというだけの話。実はIntel GPUも、2024年4月にLlama.cppがLlama.cpp for SYCLで対応開始したのだ。
今回は某ブログに投稿した構築作業後の出力結果に関する補足記事。 さてInte GPUであるARC A770は、ともかく出力(生成)することは可能となっている。4bit版Command R+ 104B版は実現できていないが、とりあえず4bit量子化版の出力結果を貼っておく。-n や-eを取り除くことにより、とりあえず途中で停止するような事象は発生していない。 (Command R+を使えなくても既存NVIDIA GPU並みの性能を出せたら、自分的には二枚刺しにして32GB
今回もローカルLLMの話 さて先日の記事で、こんなウワサに流されてしまったことを報告した。 そもそもCPUメモリはOS等でも使用されているから、メインメモリとローカルLLMのモデルサイズというのが、今一つ意味不明である。その記事で報告したように、別に64GBメモリしか搭載していない拙者の貧弱PCでも、4bit量子化版Command R+ 改造版160B版は問題なく動作してくれたでござるよ。 記事を投稿した後で、ウワサの出所が紹介されていた。すごい誠実な御方のようで
Intel版GPUやNPUでのLLM利用事例まとめ。もともと技術革新の早い生成AI業界だけれども、最近のIntelは「男子三日会わざれば、刮目して見よ」状態。恐ろしいほどに進行が速いので要注意。 (2024年5月25日更新) 第12世代インテル Core i7 12700H(Alder Lake)での検証例2024年5月26日最終更新 Intel ARC A770 (Intel GPU)での検証例2024年5月26日更新 Intel版GPUに拘る背景2024年5月25
兼業作家は作家業だけでは生計が立たないで、本業も頑張る必要がある。さてその本業に生成AIを活かそうとすると立ち塞がるのが、NVIDIA GPU納期問題である。Supermicroのような存在があるので、納期をお伝えした瞬間に「今日は有意義な打ち合わせでした。それではごきげんよう」で諸々の話は立ち消えとなってしまいかねない。(弊社経由だと納期は…) そうすると僕としてはNVIDIAさんとは長年の付き合いだけれども、NVIDIA以外の道を模索せざるを得なくなる。なんだかAM
SNSで何回も流れて来て、ちょっと何だなあと感じたので自分的感想を掲載しておくことにする。 えっ、こんな記事を書いている暇があったら、さっさとIntel Arc GPU関連の検証結果をレポートしたり小説を書けって? 全くその通りだと思う。 放置しておけば良いじゃないか 大体この手の記事を書く人の半分くらいは、生成AIコンサルタントを名乗る方々だったりする。だから「あ、そうですか」で加齢に、いや華麗にスルーしてしまうのが最適解となる。 別に日本企業の構造的な課題って、ど
生成AI方面だと知らぬ人はいない(だろうと思われる)nitkyさんがCommand R+を160Bパラメータ版化すると同時に、量子化したGGUF版も提供して下さっている。今回はそれ(4bit量子化版)を動かすことに成功したという話。 僕の場合は開発元のCohere社が提供する104B版の4bit量子化版を、VRAM 16GBで主メモリ 64GB環境で利用している。だから別に動作させることに成功したからといって、驚くようなことではない。しかし今回はボケが進んだのか、妙にドタ