マガジンのカバー画像

wandb

39
wandbを使ってくださっている方々の記事をちょっと使ってみた系からAdvancedなTipsまで幅広くまとめていくマガジンです。 wandbは、エンタープライズグレードのエン…
運営しているクリエイター

#WandB

W&B Weave を使ってRAGボットの性能を大幅改善 🤖

このブログでは、Weights & Biasesの製品であるWeaveを使用して、Weights & Biasesが提供するサービスの1つであるwandbotを改善するドッグフーディングの例を紹介します。(ドッグフーディング: 自社の製品を使い、自社のサービスを改善することの例え) 本番環境での生成AIアプリの運用は難しい…便利なツールやライブラリの登場により、生成AIアプリのプロトタイプを構築するのは比較的容易になってきていますが、これらのプロトタイプを本番環境に移行する

日本語LLMのバイアス評価 - Nejumi LLMリーダーボード開発記

はじめに近年、大規模言語モデル(LLM)の活用が急速に拡大する中で、その安全性と公平性に関する懸念が世界的に高まっています。かつては言語処理能力のみが注目されていましたが、現在では倫理的な配慮や社会的影響を考慮したアライメント能力も、LLMの重要な評価指標となっています。 この潮流を反映し、Weights & Biasesでは、LLMの性能を多角的に評価するNejumi LLMリーダーボードを開発しました。最新版のNejumi LLMリーダーボード3(Nejumi3)では、

Weave による RAGシステム のLLM変更時の精度検証手順

「Weave」による「RAGシステム」のLLM変更時の精度検証手順を解説します。 1. Weave「Weave」は、RAGなどのLLMアプリケーション開発時、および運用時に記録・実験・評価を行い、その性能を高めていくために使われるLLMOpsツールです。「Weights & Biases」が提供する機能の1つになります。 主な機能は、次のとおりです。 2. Weave の使い方はじめに、基本的な「Weave」の使い方を紹介します。 (1) パッケージのインストール。

torchtuneとWandBを使ったLlama3.1のファインチューニングと自動評価

Weights & Biases のNoteをフォローしてください はじめにこの一年あまりの間にOpenLLMの性能は飛躍的に向上してきました。その中でも、Meta社のが開発した大規模言語モデル:LlamaシリーズはOpenLLMに非常に強力なベースラインを築き、かつその水準を継続的に向上させてきました。その最新版がLlama3 (Llama3.1)です。本記事では、このLlama3の特徴と可能性、そしてそのポテンシャルを引き出すためのファインチューニング技術について深く掘

生成AIを用いたAI創薬の実践 Part2 - BioNeMoを用いたタンパク質言語モデルの事前学習

この記事は、"生成AIを用いたAI創薬の実践 Part1 -タンパク質言語モデル基礎編"の続編です。 生成AIを用いた創薬の可能性についてPart1で解説をしてきましたが、実際に一から実装しようとすると、マルチノードGPUを用いた分散処理や、モデル構造を理解した効率的な計算が求められるなど、高いエンジニアリング力が必要となってきます。このような背景から、創薬領域における基盤モデルを簡単に活用できるフレームワークNVIDIAのBioNeMoが開発・公開されました。 この記事で

生成AIを用いたAI創薬の実践 Part1 -タンパク質言語モデル基礎編

チャットボットやコードアシスタントを中心に生成AIの活用が進んでいますが、生成AIの活用は他の応用分野にも見ることができます。その中でも我々が特に注目するのは創薬分野です。創薬の分野では、膨大な分子の組み合わせから新しい薬を開発するのに多くの時間と資金がかかるため、AIを活用することで創薬サイクルを短縮する試みが日々行われています。Transformerの登場以降、アミノ酸や化学式を学習したタンパク質言語モデルや生化学モデルを用いた研究が、AmgenやGenentech 、日

Nejumi LLMリーダーボード3開発の経緯とその評価から見えてきたこと

はじめに日本のAI開発コミュニティで広く活用されてきたNejumi LLMリーダーボード。その最新版となる「Nejumi LLMリーダーボード3」が、このたび公開される運びとなりました。日本語対応LLMモデルを対象に網羅的かつ継続的な性能評価と発信を実施してきた本リーダーボードの新バージョンが日本のAI開発者と業界に有用な指標として貢献できることを期待しています。 前バージョンのNejumi LLMリーダーボードNeoは、その登場以来、日本のAI開発企業に広く活用されてき

WandB LaunchのSageMaker連携によるLLMの自動評価

こんにちは、W&Bの山本です。今回は、WandB Launchを使用してAmazon SageMakerでllm-jp-evalの評価を自動化し、LLM勉強会(llm-jp)にご提供したユースケースを紹介したいと思います。 WandB LaunchのSageMaker連携では例えばモデルIDを入力して1クリックするだけ、あるいはレジストリから自動的に評価ジョブをSageMakerに投げることで、LLMモデル評価をインスタンスのプロビジョニングも含めて自動実行することができます

Nejumi LLMリーダーボード Neo の LLMベンチマークの使い方

この入門記事は、「Weights & Biases」のご支援により提供されています。Weights & Biases JapanのNoteでは他にも多くの有用な記事が掲載されていますので是非ご覧ください。 1. Nejumi LLMリーダーボード Neo「Nejumi LLMリーダーボード Neo」は、日本語LLMの能力評価ランキングです。「llm-jp-eval」「MT-Bench」という2つのLLMベンチマークで評価します。 2. 評価項目評価項目は、次のとおりです。

LangChain のための wandb 入門

この入門記事は、「Weights & Biases」のご支援により提供されています。 1. wandb「wandb」 (Weights & Biases) は、機械学習の実験管理とモデルのパフォーマンス追跡に特化したツールです。 「wandb」の主な機能は、次のとおりです。 「LlamaIndex」「LangChain」では、「wandb」を使うことでトレース情報の自動的記録が可能で、期待する応答が返されなかった場合、処理の流れを視覚化して原因を突き止めることができます

wandb を活用して LangChain を 日本語ローカルLLM 対応させる

この入門記事は、「Weights & Biases」のご支援により提供されています。Weights&Biasesさんは日本語LLMリーダーボードを運営されており、最近のアップデートについてこちらの記事が公開されています: 1. ローカルLLM「ローカルLLM」(Local Large Language Model)は、LLMをローカル環境、つまりユーザーのコンピュータやプライベートサーバーなどに直接インストールして使用できるLLMです。 2022年の頃は不可能と思われた家

LLMアプリケーションの記録・実験・評価のプラットフォーム Weave を試す

LLMアプリケーションの記録・実験・評価のプラットフォーム「Weave」がリリースされたので、試してみました。 1. Weave「Weave」は、LLMアプリケーションの記録、実験、評価のためのツールです。「Weights & Biases」が提供する機能の1つになります。 主な機能は、次のとおりです。 2. Weave の準備今回は、「Google Colab」で「Weave」を使って「OpenAI」のモデルの記録・実験・評価を行います。 (1) パッケージのインス

Fully Connected 2024サンフランシスコ イベントカバレージ - メルカリ Teo Narboneta Zosa様

本記事は2024年4月18日にサンフランシスコで開催されたFully Connected 2024: The Era of Generative AIのイベントカバレージです。第1弾は日本のお客様からのご登壇でメルカリのTeo Narboneta Zosa様。ご講演タイトルは「How Mercari Is Using Gen AI To Define The Future Of Japanese C2C E-Commerce(メルカリはどのように生成AIを活用し、日本のC2C

八千代エンジニヤリング様 〜 AIによるインフラ維持管理の高度化への挑戦

日本の社会インフラの設計・施工管理を担う建設コンサルタントの八千代エンジニヤリング様。同社は近年、インフラの維持管理業務におけるAI活用を推進し、建設業界のDX化を牽引している。同社 技術創発研究所のAI解析研究室で室長を務める藤井純一郎氏と研究員の都築幸乃氏に、建設業界におけるAIの活用状況と、同社の取り組みについてインタビューにご回答を頂きました。 建設業界におけるAI活用の障壁とは藤井氏によれば、建設業、特にインフラの維持管理分野におけるAI活用の障壁は「データの質と