はまち

DXとかいうナウい言葉とは無縁の養殖魚。AIを中心に新しい技術をちょっとづつ試食してい…

はまち

DXとかいうナウい言葉とは無縁の養殖魚。AIを中心に新しい技術をちょっとづつ試食しています。

マガジン

  • 大規模言語モデル(LLM)

  • 論文を読む

    気になった論文などを読んでまとめ

  • AIもろもろ

  • LangChain

    LangChain関係の記事まとめ

  • LLMフレームワーク

最近の記事

【論文紹介】TDB: トランスフォーマーデバッガを使ったGPTの内部メカニズムの解析例

Transformerベースの言語モデルの内部動作を確認するためのツールを用いて各層の役割について解析する取り組みを行っている以下論文(Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small。うまく訳せませんが、「GPT-2 smallにおける間接目的語識別の解明:(学習から)自然発生するタスク処理の内部メカニズム」という感じでしょうか…)がとても面白か

    • 1(.58)ビット量子化LLMs(BitNet b1.58)について

      Microsoft Researchが発表した以下論文がXで話題になっていました。少々出遅れた感がありますが、さっそく眺めてみました。 BitNet b1.58全パラメータ(重み)を三項{-1, 0, 1}で量子化。{-1, 0, 1}の3つの値を表現するために必要なビット数は$${log_2​(3)}$$であるため、1パラメータあたり約1.58bitで表現できる。 同じモデルサイズとトレーニングトークンを持つ全精度(FP16またはBF16)のTransformer LL

      • 古い白黒写真をリアルにカラー化🎨DDColorを試す

        学習可能なカラー トークン(つまり、カラー クエリ) を最適化することで、グレースケール画像をリアルなカラー画像をエンドツーエンドで変換する、「DDColor」というモデルが公表されていたので試してみました。 モデル概要まず始めに、画像から重要な情報を抜き出すための「Backbone network」を使い特徴抽出を行います。 次に、この情報を「Pixcel Decoder」に送り、画像の空間構造を復元します。同時に、「Color Decoder」は画像のさまざまな大きさ

        • LangChainの新機能 🕸️LangGraphを試す

          LangGraphというLangChainの新機能が公開されていたので、google colab上でチュートリアルをざっと試してみました。 ライブラリーのインストールなど!pip install -U langchain langgraph langchain_openai langchainhub tavily-python from langchain import hubfrom langchain.agents import create_openai_funct

        【論文紹介】TDB: トランスフォーマーデバッガを使ったGPTの内部メカニズムの解析例

        マガジン

        • 論文を読む
          23本
        • 大規模言語モデル(LLM)
          32本
        • AIもろもろ
          31本
        • LLMフレームワーク
          9本
        • LangChain
          37本
        • LLMの活用
          42本

        記事

          ラジコンカー練習用のラップタイマーをChatGPTでつくる。(Android用 APKファイル公開)

          わたしは最近ラジコンカーにはまっていて、近くのラジコンカーのコースで練習しています。そこのコースの上級者コースには車載ポンダーを使ってタイム計測ができる設備があるのですが、初心者コースとオフロードコースには残念ながらタイム計測設備がありません。ラップタイマーのアプリを探したのですが、自分のニーズにしっくりくるものを見つけられませんでした。そこで、無ければ作ろう!ということで、Androidタブレット/Android携帯の内蔵カメラを使った簡易的なラップタイマーを自作しました。

          ラジコンカー練習用のラップタイマーをChatGPTでつくる。(Android用 APKファイル公開)

          【論文紹介】Meta社の強化学習Agentフレームワーク「Pearl」

          meta社が強化学習Agentの実用向けのフレームワーク「Pearl」を公開していました。論文も投稿されていたので概要をまとめてみました。なお、私の理解不足も多々ありますので、詳細は論文本文ほかをご確認ください。 Pearlの概要「Pearl」は、エージェントが環境との相互作用を通じて最適な行動方針を学習する強化学習において、実世界の複雑な環境での効率的な学習、安全性の確保、そして動的な状況への適応能力を備えることを目標に開発されており、以下の特徴があります。 実用的なR

          【論文紹介】Meta社の強化学習Agentフレームワーク「Pearl」

          ML_Kitで悩んで、結局、機械学習モデルを使わないことにする

          jetracerを作って遊んでいたら、気が付くと自分で運転するのが楽しくなってラジコンカー沼にはまってしまいました。😅 家の近くのラジコンサーキットの上級コースにはラップタイム計測装置が付いているのですが、初心者コースとオフロードコースではタイム計測ができなかったので、flutterでラジコンカー用のラップタイム計測アプリを作ってみました。携帯の内蔵カメラを使って、カメラを横切ったらラップタイム計測して音声読み上げる、ごくごく簡単なものです。 当初はお気楽にgoogle_

          ML_Kitで悩んで、結局、機械学習モデルを使わないことにする

          日本語を含む多様な音声入力に対応したLLM: Qwen-Audio-Chatを試す

          アリババクラウドが、音声入力に対応したLLMであるQwen-Audioを公開していたので早速デモを試してみました。 Qwen-Audioの概要Qwen-Audioは、異なる種類のオーディオ入力やタスクに対応するユニバーサルオーディオ理解モデルを目指して開発されています。主な目的は、既存の音声モデルが持つ限定的なインタラクション能力の問題を解決し、人間の発話、自然音、音楽、歌などを含む幅広いオーディオタイプに対応することです。このモデルは、複数のタスクにわたる知識共有と協調学

          日本語を含む多様な音声入力に対応したLLM: Qwen-Audio-Chatを試す

          PyTorchとJAXに対応したKeras3でMNISTを試す

          バックボーンのフレームワークを、従来のTensorFlowから、デファクトスタンダードになりつつあるPyTorchと、実行効率に優れたJAXも選べるようになったKeras3.0が公開されていたので、さっそくバックボーンをPyTorchやJAXに設定して、手書きアルファベット画像のクラス分け課題のMNISTを試してみました。 23.11.29追記 公式の紹介ページも公開されていました。 https://keras.io/keras_3/ Keras3のインストール、インポー

          PyTorchとJAXに対応したKeras3でMNISTを試す

          GPT4-Vision APIを使ったアプリ draw-a-uiを試す

          gpt4-vison API を使った作例として公開してされている、ポンチ絵をhtmlに変換するアプリdraw-a-uiを試してみました。 アプリの機能まずはgithubの説明にしたがってアプリを起動してみます。 $ git clone https://github.com/SawyerHood/draw-a-ui$ cd araw-a-ui $ npm install$ npm run dev あとは、ブラウザでhttp://localhost:3000を開くとアプ

          GPT4-Vision APIを使ったアプリ draw-a-uiを試す

          ステレオ音声生成 MusicGen-stereo を試す

          meta社からテキストの説明や音声プロンプトに基づいて高品質の音楽サンプルを生成できるテキスト音楽モデルMusicGen のステレオのモデルセットがリリースされていましたので、さっそく試してみました。 モデルはモノラルと同様、musicgen-stereo-large、musicgen-stereo-midium、musicgen-stereo-largeの3種類と、メロディーを入力して生成するmusicgen-stereo-melody、musicgen-stereo-m

          ステレオ音声生成 MusicGen-stereo を試す

          OpenAIの音声テキスト変換whisperの新モデル"large-v3"を試す

          先日OpenAIから音声テキスト変換whisperの新モデル"large-v3"が公開されました。近くAPIも公開されるとのことですが、とりいそぎ google colab の無料GPU(T4)で軽く試してみました。 どの言語もlarge-v2にくらべて全体的にエラー率が下がって性能が向上しているようです。 ともかく試してみます。google colabの無料GPU(T4)で試してみます。 ライブラリーのインストール !pip install -U openai-wh

          OpenAIの音声テキスト変換whisperの新モデル"large-v3"を試す

          画像分析機能を持つオープンソースLLM『LLaVA-1.5』を試す

          gpt-4vのような画像分析機能を持つオープンソースLLM『LLaVA-1.5』が公開されていたのでローカルPC環境(RTX3090 24GB)で試してみました。 LLaVAの特徴ビジョンおよび言語の理解のためのビジョンエンコーダとLLMを接続する、エンドツーエンドで訓練された大規模なマルチモーダルモデル マルチモーダル指示に従うデータセットでGPT-4と比較して85.1%の相対スコアを達成、11 のベンチマークでSoTA性能を達成 オープンソース。ヴィジョン指示チュー

          画像分析機能を持つオープンソースLLM『LLaVA-1.5』を試す

          【論文紹介】アテンション・シンクを用いた効率的なストリーミング言語モデル

          興味深い論文を見つけたので、ざっとまとめました。 私の理解不足は多々ありますので、興味を持たれた方はぜひ原文をご参照ください。 Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis 概要この研究では、大規模な言語モデルを実行するための新しいフレームワークであるStreamingLLMを提案しています。これは、従来のアプローチであるWindow attentionがテキストの長さがキャッシュサイズを超

          【論文紹介】アテンション・シンクを用いた効率的なストリーミング言語モデル

          GPT-4Vの画像認識の機能を試す

          ChatGPTの画像認識の機能が、やっと今朝見たら使えるようになっていたので、遅ればせながら私も試してみました。 ブロック図の解説 数式画像のLaTeX化 宿泊記録の読み取り 災害の要因分析 台風進路図の読み取り 以上、取り急ぎためして、一通り驚いてみました。😄 フェーズが変わった感じです。gpt-4vのAPIが公開されれば応用分野も相当広がりそうですね。

          GPT-4Vの画像認識の機能を試す

          DreamGaussianによる3Dオブジェクト生成を試す

          絵心もなく3DCGなんて、とても立ち入れない領域だと思っているのですが、「DreamGaussian」という3Dオブジェクト生成フレームワークが公開されていました。デモでgoogle colabのノートブックも公開されていたので軽く触ってみました。 DreamGaussian概要従来の3D生成技術は、高品質な結果をもたらすことができる一方で、最適化処理の速度が遅いという課題がありました。この課題に取り組み、3DガウスSplattingモデルを採用することで3Dコンテンツの生

          DreamGaussianによる3Dオブジェクト生成を試す