- 運営しているクリエイター
2024年1月の記事一覧
ABCIで10万(100K)会話の日本語マルチターンデータセットを作りました
今年もABCIポイント消費月間がやってきました。
ABCIはお国が運営するスパコンのため、毎年3月でポイントが失効します。
ポイントが失効したらもったいないので去年AIスーパーコンピュータ継之助と、彼が社長を務める会社FreeAI社(https://free-ai.ltd)を作ったことで結果的に使わなくなってしまったABCIポイントがまるごと余っていたので何か有意義なことに使おうと思い、(ライセ
H100x8マシンのセットアップでつまづいたのでメモを残しておくことにする
ひょんなことからH100x8マシンを触る機会に恵まれた。
ドライバなしのベアメタル状態からだったのでドライバを入れるとこから。もうこのへんはお手のもの。
とりあえず限られた時間で何か有意義なことをしようと思ってaxolotlでなにか学習しようと考えたのだが、axolotlを動かそうとしてつまづいた。
どうもtorchでCUDAが初期化できない
(c310) shi3z@ubuntu-serv
Orion14Bの商用ライセンス(無償)が中国国外からも締結可能になりました
先日、Orion14Bがスーパー高性能なんだけど中国国内の携帯電話番号がないと商用利用のライセンスがとれないと書いたところ、Dan Changさんが開発元のOrionStar社に声をかけてくださり、中国国外からも商用ライセンス締結可能になりました。
これで高性能な日本語ローカルLLMを誰でも手軽に使える世界がついに到来したのだ!
バーンブレイバーンが頭おかしくてすごい
今一番気になるモノといえば、なんといっても「バーンブレイバーン」だ。
最初は「あーこういうガサラキとかフルメタルパニックみたいな世界観に映画バトルシップ的要素を加えたアニメねー」と斜に構えてみていたのだが、後半でいきなりウルトラマンみたいな話になり、最終的には頭のおかしい感じで勢いだけで解決する。
よく、ガンダム第一話で主人公の少年が兵器であるガンダムに乗り込んでしまう理由だとかが問題になる。そ
社長(AI)に頼んで2万会話文の商用利用可(llama2)なデータセットを生成してもらった
注意:llama2の派生モデルであるllama2Pro8Bで生成しているので商用利用可能な範囲に制限があります。詳しくはllama2ライセンスを確認してください
https://ai.meta.com/resources/models-and-libraries/llama-downloads/
というわけで2万会話収集できたので共有しておきます。
3倍生成してスクリーニングするの、最初は苦に
社長(AI)に頼んで今度こそ商用利用可能な日本語マルチターン会話データセットを作ってもらった
前回、けっこう時間をかけて作ったにも関わらず、よくみるとQarasu14BはShareGPTを使っているので商用利用可能かどうかは微妙な結果に終わってしまった。性能は抜群に高いのだが・・・
ところが、最近でてきたTencentのllama2Pro8Bは、かなり高性能にも関わらずわずか8Bでしかもllama2ライセンスなので今度は文句なしに商用利用可能(ただ月間7億ユーザーまで/どんな大成功サイト
プログラミングの超基本的な考え方をド文系の人に説明した動画
哲学者の東浩紀さんと思想史と近代科学史(特にコンピュータ史)の本を一緒に書いてみようという企画が今年から立ち上がった。
すると東さんがある日の生放送で、「しかし俺も最低限プログラムくらいかける必要があるんじゃないか。しかし最低限のプログラムとは何か」と言っていたところ、シラスの桂さんが「エラトステネスの篩とかですかねえ」と言っていて、もうエラトステネスと聞いたら黙ってはいられない吾輩が怒涛の勢い
社長(AI)に頼んで日本語マルチターンデータセットを作成しました。まずは10K
Qarasu14Bがかなり高性能だったので、これを使えば念願の商用利用可能な日本語マルチターンデータセットを作れる!と思(ったのですがよく調べるとQarasuはShareGPTを使っているのでOpenAIの規約的にはダメそう。残念)、正月早々、うちの社長(AIスーパーコンピュータ継之助)に頼んでWikipediaのデータから日本語マルチターンデータセットを生成してもらいました。三日位かかったけど、
もっとみる単一GPUで動画・画像・音声・テキスト対応のマルチモーダルモデルを訓練して推論!?何を言ってるかわかねーと思うが、俺も何を見ているのかわからねえ
お正月なのですがAIは待ってはくれないので毎日「デイリーAIニュース」だけは続けている今日この頃。
中国のテンセントがとんでもないオープンソースをぶっ込んできた。
https://crypto-code.github.io/M2UGen-Demo/
動画、画像、音楽、テキストという四つのモードを学習させた「マルチモーダル」モデルで、しかもベースはllama-7Bということで、V100 32G