マガジンのカバー画像

AIもろもろ

38
運営しているクリエイター

記事一覧

PDFからLLMでPodcastをつくる

巷ではNotebookLMでPDFをポッドキャスト形式の音声に変換して出力できる機能が話題みたいです。わたしも試してみたのですが、英語の音声の出力機能はあるのですが、いまのところ日本語音声の出力はまだ対応されていないみたい。 そこでgithubでpdf-to-podcastというそれっぽい名前のプロジェクトを見つけたので早速試してみました。 日本語対応のため、main.py中のダイヤログのプロンプトに日本語風味を少々加えてみます。 def generate_di

OpenAI o1 previewにreflectionプロンプトっぽい動作のエージェントを実装案を考えてもらう

difyを使ってreflectionプロンプトっぽい動作のエージェントを実装しようという想定で、OpenAI o-1 previewに考えてもらいました。いまのところdifyは制御用のwhileループ等はありませんが、LLMの評価結果をユーザー変数に代入してifモジュールとかを使えば、difyでも強化学習的なエージェント動作が試せるのでは、という気がしてきました。 2024.9.17 22:00追記😝 色々試してみたのですが、ユーザー変数をカウンタ代わりにしてwhileルー

HTMLから Markdown コンテンツへの変換に特化したJina Reader-LMを試す

Jina AIからHTMLから Markdown コンテンツへの変換に特化したJina Reader-LMが公表されていたので、ざっと試してみました。 モデル概要ノイズも含む生HTMLから、Markdownへの変換に特化した小型言語モデル(SLM) モデルのバリエーション reader-lm-0.5b と1.54Bのreader-lm-1.5b 多言語、長文脈サポート(256Kトークン) コンパクトなサイズにもかかわらず、このタスクで最先端のパフォーマンスを実現 ラ

Jetson orin nano上のAgent StudioでTanuki-8Bを試す

GENIAC 松尾研 LLM開発プロジェクトの日本語を強化した軽量LLMのTanuki-8Bを、シングルボードコンピュータのJetson orin nano(8GB)で試してみました。 LLMの推論環境は色々ありますが、せっかくJesonを使うのでNVIDIAが公開しているAgent Studio上で試してみました。 実行はターミナル上でjetson-containersを起動後、ブラウザでhttps://IP_ADDRESS:8050を開くとUIが起動します。 jet

大規模言語モデルDeep Learning応用講座2024|Fall

LLMは日常的に利用していますが、LLMを体系的に学んだことがなかったところ、社会人枠で申し込んでいた東大松尾・岩澤研のLLM2024講座を受講できることになりました。 応募時の条件には、 最低でも毎回3時間程度の自習時間が確保できること 大学レベルの線形代数、微分積分、確率論・統計学に関する知識を有すること 機械学習の基礎知識を備え、基礎的な実装が自身でできること (PytorchTensorFlow,JAXなどのフレームワークを使ってモデルの構築・訓練・評価を行っ

Japan Automotive AI Challenge 2024に参加してROS2を勉強しよう

ROS2をベースとしたオープンソースな自動運転システムのAutowareのサブセットを利用した自動運転カーレースのコンペ「Japan Automotive AI Challenge 2024」の参加登録が始まっています。 コンペの予選(2024年7月2日~9月2日)はオンラインのシミュレーション環境でおこなわれ、決勝ラウンド(2024年11月1日~11月3日)では実際のカートコースで電動カートを使ってレースがおこなわれるとのこと。 参加登録参加条件は特になく、誰でも参加登

ChatGPTでデータ眺めて電気代を考える

ChatGPT上の、csvファイルやグラフの扱いが改良されているようです。 ちょうど、日本全国の発電所の時間ごとの発電実績データを全て公開している、興味深いサイトを見つけたので、今回は昨日(2024-05-29)一日分のcsvデータをネタにして、かるく試してみました。 リンク先のユニット別発電実績公開からエリアと期間等を選択してCSV保存する。 保存したCSVファイルをおもむろにChatGPTにぶっこむ。 東京、関西、九州エリアの発電方式・燃料の種類ごとのプロットをし

【論文紹介】TDB: トランスフォーマーデバッガを使ったGPTの内部メカニズムの解析例

Transformerベースの言語モデルの内部動作を確認するためのツールを用いて各層の役割について解析する取り組みを行っている以下論文(Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small。うまく訳せませんが、「GPT-2 smallにおける間接目的語識別の解明:(学習から)自然発生するタスク処理の内部メカニズム」という感じでしょうか…)がとても面白か

古い白黒写真をリアルにカラー化🎨DDColorを試す

学習可能なカラー トークン(つまり、カラー クエリ) を最適化することで、グレースケール画像をリアルなカラー画像をエンドツーエンドで変換する、「DDColor」というモデルが公表されていたので試してみました。 モデル概要まず始めに、画像から重要な情報を抜き出すための「Backbone network」を使い特徴抽出を行います。 次に、この情報を「Pixcel Decoder」に送り、画像の空間構造を復元します。同時に、「Color Decoder」は画像のさまざまな大きさ

【論文紹介】Meta社の強化学習Agentフレームワーク「Pearl」

meta社が強化学習Agentの実用向けのフレームワーク「Pearl」を公開していました。論文も投稿されていたので概要をまとめてみました。なお、私の理解不足も多々ありますので、詳細は論文本文ほかをご確認ください。 Pearlの概要「Pearl」は、エージェントが環境との相互作用を通じて最適な行動方針を学習する強化学習において、実世界の複雑な環境での効率的な学習、安全性の確保、そして動的な状況への適応能力を備えることを目標に開発されており、以下の特徴があります。 実用的なR

PyTorchとJAXに対応したKeras3でMNISTを試す

バックボーンのフレームワークを、従来のTensorFlowから、デファクトスタンダードになりつつあるPyTorchと、実行効率に優れたJAXも選べるようになったKeras3.0が公開されていたので、さっそくバックボーンをPyTorchやJAXに設定して、手書きアルファベット画像のクラス分け課題のMNISTを試してみました。 23.11.29追記 公式の紹介ページも公開されていました。 https://keras.io/keras_3/ Keras3のインストール、インポー

GPT4-Vision APIを使ったアプリ draw-a-uiを試す

gpt4-vison API を使った作例として公開してされている、ポンチ絵をhtmlに変換するアプリdraw-a-uiを試してみました。 アプリの機能まずはgithubの説明にしたがってアプリを起動してみます。 $ git clone https://github.com/SawyerHood/draw-a-ui$ cd araw-a-ui $ npm install$ npm run dev あとは、ブラウザでhttp://localhost:3000を開くとアプ

ステレオ音声生成 MusicGen-stereo を試す

meta社からテキストの説明や音声プロンプトに基づいて高品質の音楽サンプルを生成できるテキスト音楽モデルMusicGen のステレオのモデルセットがリリースされていましたので、さっそく試してみました。 モデルはモノラルと同様、musicgen-stereo-large、musicgen-stereo-midium、musicgen-stereo-largeの3種類と、メロディーを入力して生成するmusicgen-stereo-melody、musicgen-stereo-m

OpenAIの音声テキスト変換whisperの新モデル"large-v3"を試す

先日OpenAIから音声テキスト変換whisperの新モデル"large-v3"が公開されました。近くAPIも公開されるとのことですが、とりいそぎ google colab の無料GPU(T4)で軽く試してみました。 どの言語もlarge-v2にくらべて全体的にエラー率が下がって性能が向上しているようです。 ともかく試してみます。google colabの無料GPU(T4)で試してみます。 ライブラリーのインストール !pip install -U openai-wh