マガジンのカバー画像

wandb

39
wandbを使ってくださっている方々の記事をちょっと使ってみた系からAdvancedなTipsまで幅広くまとめていくマガジンです。 wandbは、エンタープライズグレードのエン…
運営しているクリエイター

#AI

日本語LLMのバイアス評価 - Nejumi LLMリーダーボード開発記

はじめに近年、大規模言語モデル(LLM)の活用が急速に拡大する中で、その安全性と公平性に関する懸念が世界的に高まっています。かつては言語処理能力のみが注目されていましたが、現在では倫理的な配慮や社会的影響を考慮したアライメント能力も、LLMの重要な評価指標となっています。 この潮流を反映し、Weights & Biasesでは、LLMの性能を多角的に評価するNejumi LLMリーダーボードを開発しました。最新版のNejumi LLMリーダーボード3(Nejumi3)では、

Weave による RAGシステム のLLM変更時の精度検証手順

「Weave」による「RAGシステム」のLLM変更時の精度検証手順を解説します。 1. Weave「Weave」は、RAGなどのLLMアプリケーション開発時、および運用時に記録・実験・評価を行い、その性能を高めていくために使われるLLMOpsツールです。「Weights & Biases」が提供する機能の1つになります。 主な機能は、次のとおりです。 2. Weave の使い方はじめに、基本的な「Weave」の使い方を紹介します。 (1) パッケージのインストール。

生成AIを用いたAI創薬の実践 Part2 - BioNeMoを用いたタンパク質言語モデルの事前学習

この記事は、"生成AIを用いたAI創薬の実践 Part1 -タンパク質言語モデル基礎編"の続編です。 生成AIを用いた創薬の可能性についてPart1で解説をしてきましたが、実際に一から実装しようとすると、マルチノードGPUを用いた分散処理や、モデル構造を理解した効率的な計算が求められるなど、高いエンジニアリング力が必要となってきます。このような背景から、創薬領域における基盤モデルを簡単に活用できるフレームワークNVIDIAのBioNeMoが開発・公開されました。 この記事で

生成AIを用いたAI創薬の実践 Part1 -タンパク質言語モデル基礎編

チャットボットやコードアシスタントを中心に生成AIの活用が進んでいますが、生成AIの活用は他の応用分野にも見ることができます。その中でも我々が特に注目するのは創薬分野です。創薬の分野では、膨大な分子の組み合わせから新しい薬を開発するのに多くの時間と資金がかかるため、AIを活用することで創薬サイクルを短縮する試みが日々行われています。Transformerの登場以降、アミノ酸や化学式を学習したタンパク質言語モデルや生化学モデルを用いた研究が、AmgenやGenentech 、日

Nejumi LLMリーダーボード Neo の LLMベンチマークの使い方

この入門記事は、「Weights & Biases」のご支援により提供されています。Weights & Biases JapanのNoteでは他にも多くの有用な記事が掲載されていますので是非ご覧ください。 1. Nejumi LLMリーダーボード Neo「Nejumi LLMリーダーボード Neo」は、日本語LLMの能力評価ランキングです。「llm-jp-eval」「MT-Bench」という2つのLLMベンチマークで評価します。 2. 評価項目評価項目は、次のとおりです。

LangChain のための wandb 入門

この入門記事は、「Weights & Biases」のご支援により提供されています。 1. wandb「wandb」 (Weights & Biases) は、機械学習の実験管理とモデルのパフォーマンス追跡に特化したツールです。 「wandb」の主な機能は、次のとおりです。 「LlamaIndex」「LangChain」では、「wandb」を使うことでトレース情報の自動的記録が可能で、期待する応答が返されなかった場合、処理の流れを視覚化して原因を突き止めることができます

wandb を活用して LangChain を 日本語ローカルLLM 対応させる

この入門記事は、「Weights & Biases」のご支援により提供されています。Weights&Biasesさんは日本語LLMリーダーボードを運営されており、最近のアップデートについてこちらの記事が公開されています: 1. ローカルLLM「ローカルLLM」(Local Large Language Model)は、LLMをローカル環境、つまりユーザーのコンピュータやプライベートサーバーなどに直接インストールして使用できるLLMです。 2022年の頃は不可能と思われた家

OpenAI の ファイチューニングAPI の新機能

以下の記事が面白かったので、簡単にまとめました。 1. ファインチューニングAPI2023年8月、GPT-3.5の「ファインチューニングAPI」をリリースしました。ファインチューニングは、特定のタスクに対するモデルの既存の知識と機能を強化するのに役立ちます。 ファインチューニングの一般的な使用例は、次のとおりです。 ・Indeedの活用例 世界的な求人マッチングサービスであるIndeedは、採用プロセスを簡素化したいと考えています。その一環として、求職者にパーソナライズ

LLMアプリケーションの記録・実験・評価のプラットフォーム Weave を試す

LLMアプリケーションの記録・実験・評価のプラットフォーム「Weave」がリリースされたので、試してみました。 1. Weave「Weave」は、LLMアプリケーションの記録、実験、評価のためのツールです。「Weights & Biases」が提供する機能の1つになります。 主な機能は、次のとおりです。 2. Weave の準備今回は、「Google Colab」で「Weave」を使って「OpenAI」のモデルの記録・実験・評価を行います。 (1) パッケージのインス

Fully Connected Tokyo 速報レポート Part2

2023年10月11日に日本で初めてのWeights & Biases ユーザーカンファレンスである、Fully Connected Tokyo 2023が開催されました。本イベントは、日本をリードするW&Bユーザーの皆様からその最新のML開発・運用のノウハウをご共有いただくことを目的にして東京スクエアガーデンのコンベンションホールで開催され、約300人の参加者が集まり、大盛況となりました。 3つのパートからなる本イベントのパート2では、W&B ML Engineerの鎌田

Fully Connected Tokyo 速報レポート Part3

2023年10月11日に日本で初めてのWeights & Biases ユーザーカンファレンスである、Fully Connected Tokyo 2023が開催されました。本イベントは、日本をリードするW&Bユーザーの皆様からその最新のML開発・運用のノウハウをご共有いただくことを目的にして東京スクエアガーデンのコンベンションホールで開催され、約300人の参加者が集まり、大盛況となりました。 3つのパートからなる本イベントの最後のパートでは、W&B Japanの山本祐也から

Fully Connected Tokyo 速報レポート Part1

2023年10月11日に日本で初めてのWeights & Biases ユーザーカンファレンスである、Fully Connected Tokyo 2023が開催されました。本イベントは、日本をリードするW&Bユーザーの皆様からその最新のML開発・運用のノウハウをご共有いただくことを目的にして東京スクエアガーデンのコンベンションホールで開催され、約300人の参加者が集まり、大盛況となりました。 3つのパートからなる本イベントの最初のパートでは、W&B Japanカントリーマネ

生成AI/LLMから事業価値を創出するための条件とは

Weights & Biases Japan(W&B Japan)では、エヌビディア合同会社と共催で招待制のエグゼクティブラウンドテーブルイベントを9月末に開催しました。このラウンドテーブルでは、生成AI・LLM開発を開始した、または開発を検討中の企業のエグゼクティブの皆様をご招待し、企業が質の高い生成AIモデルを自社開発することからどのように独自の製品・サービスの開発に繋げ、競合優位性を確立できるのか、その最前線から学び、ディスカッションの中か

LLM のベンチマーク まとめ

「LLM」の ベンチマーク をまとめました。 1. マルチモーダルのベンチマークマルチモーダルのベンチマーク。 1-1. Heron VLM リーダーボード (wandb) 【日本語】 「Japanese-Heron-Bench」 「LLaVA-Bench-In-the-Wild (Japanese)」の総合評価。 1-2. JA-VLM-Bench-In-the-Wild (SakanaAI) 【日本語】 42枚の画像に対して計50問の質問。日本に関する知識を要求