マガジンのカバー画像

AIもろもろ

32
運営しているクリエイター

記事一覧

ChatGPTでデータ眺めて電気代を考える

ChatGPT上の、csvファイルやグラフの扱いが改良されているようです。 ちょうど、日本全国の発電所の時間ごとの発電実績データを全て公開している、興味深いサイトを見つけたので、今回は昨日(2024-05-29)一日分のcsvデータをネタにして、かるく試してみました。 リンク先のユニット別発電実績公開からエリアと期間等を選択してCSV保存する。 保存したCSVファイルをおもむろにChatGPTにぶっこむ。 東京、関西、九州エリアの発電方式・燃料の種類ごとのプロットをし

【論文紹介】TDB: トランスフォーマーデバッガを使ったGPTの内部メカニズムの解析例

Transformerベースの言語モデルの内部動作を確認するためのツールを用いて各層の役割について解析する取り組みを行っている以下論文(Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small。うまく訳せませんが、「GPT-2 smallにおける間接目的語識別の解明:(学習から)自然発生するタスク処理の内部メカニズム」という感じでしょうか…)がとても面白か

古い白黒写真をリアルにカラー化🎨DDColorを試す

学習可能なカラー トークン(つまり、カラー クエリ) を最適化することで、グレースケール画像をリアルなカラー画像をエンドツーエンドで変換する、「DDColor」というモデルが公表されていたので試してみました。 モデル概要まず始めに、画像から重要な情報を抜き出すための「Backbone network」を使い特徴抽出を行います。 次に、この情報を「Pixcel Decoder」に送り、画像の空間構造を復元します。同時に、「Color Decoder」は画像のさまざまな大きさ

【論文紹介】Meta社の強化学習Agentフレームワーク「Pearl」

meta社が強化学習Agentの実用向けのフレームワーク「Pearl」を公開していました。論文も投稿されていたので概要をまとめてみました。なお、私の理解不足も多々ありますので、詳細は論文本文ほかをご確認ください。 Pearlの概要「Pearl」は、エージェントが環境との相互作用を通じて最適な行動方針を学習する強化学習において、実世界の複雑な環境での効率的な学習、安全性の確保、そして動的な状況への適応能力を備えることを目標に開発されており、以下の特徴があります。 実用的なR

PyTorchとJAXに対応したKeras3でMNISTを試す

バックボーンのフレームワークを、従来のTensorFlowから、デファクトスタンダードになりつつあるPyTorchと、実行効率に優れたJAXも選べるようになったKeras3.0が公開されていたので、さっそくバックボーンをPyTorchやJAXに設定して、手書きアルファベット画像のクラス分け課題のMNISTを試してみました。 23.11.29追記 公式の紹介ページも公開されていました。 https://keras.io/keras_3/ Keras3のインストール、インポー

GPT4-Vision APIを使ったアプリ draw-a-uiを試す

gpt4-vison API を使った作例として公開してされている、ポンチ絵をhtmlに変換するアプリdraw-a-uiを試してみました。 アプリの機能まずはgithubの説明にしたがってアプリを起動してみます。 $ git clone https://github.com/SawyerHood/draw-a-ui$ cd araw-a-ui $ npm install$ npm run dev あとは、ブラウザでhttp://localhost:3000を開くとアプ

ステレオ音声生成 MusicGen-stereo を試す

meta社からテキストの説明や音声プロンプトに基づいて高品質の音楽サンプルを生成できるテキスト音楽モデルMusicGen のステレオのモデルセットがリリースされていましたので、さっそく試してみました。 モデルはモノラルと同様、musicgen-stereo-large、musicgen-stereo-midium、musicgen-stereo-largeの3種類と、メロディーを入力して生成するmusicgen-stereo-melody、musicgen-stereo-m

OpenAIの音声テキスト変換whisperの新モデル"large-v3"を試す

先日OpenAIから音声テキスト変換whisperの新モデル"large-v3"が公開されました。近くAPIも公開されるとのことですが、とりいそぎ google colab の無料GPU(T4)で軽く試してみました。 どの言語もlarge-v2にくらべて全体的にエラー率が下がって性能が向上しているようです。 ともかく試してみます。google colabの無料GPU(T4)で試してみます。 ライブラリーのインストール !pip install -U openai-wh

画像分析機能を持つオープンソースLLM『LLaVA-1.5』を試す

gpt-4vのような画像分析機能を持つオープンソースLLM『LLaVA-1.5』が公開されていたのでローカルPC環境(RTX3090 24GB)で試してみました。 LLaVAの特徴ビジョンおよび言語の理解のためのビジョンエンコーダとLLMを接続する、エンドツーエンドで訓練された大規模なマルチモーダルモデル マルチモーダル指示に従うデータセットでGPT-4と比較して85.1%の相対スコアを達成、11 のベンチマークでSoTA性能を達成 オープンソース。ヴィジョン指示チュー

GPT-4Vの画像認識の機能を試す

ChatGPTの画像認識の機能が、やっと今朝見たら使えるようになっていたので、遅ればせながら私も試してみました。 ブロック図の解説 数式画像のLaTeX化 宿泊記録の読み取り 災害の要因分析 台風進路図の読み取り 以上、取り急ぎためして、一通り驚いてみました。😄 フェーズが変わった感じです。gpt-4vのAPIが公開されれば応用分野も相当広がりそうですね。

DreamGaussianによる3Dオブジェクト生成を試す

絵心もなく3DCGなんて、とても立ち入れない領域だと思っているのですが、「DreamGaussian」という3Dオブジェクト生成フレームワークが公開されていました。デモでgoogle colabのノートブックも公開されていたので軽く触ってみました。 DreamGaussian概要従来の3D生成技術は、高品質な結果をもたらすことができる一方で、最適化処理の速度が遅いという課題がありました。この課題に取り組み、3DガウスSplattingモデルを採用することで3Dコンテンツの生

オーディオ超解像技術 AudioSR を試す

低解像度の音声データを超解像化をする拡散ベースの生成モデル AudioSR が公表されていました。リンク先に変換サンプルなどもあり、音声や自然音、音楽など幅広いジャンルの例が示されています。高い再現度であるようなので、さっそく試してみました。 早速ためしてみます。以下サンプルコードを試してみます。 インストール !pip install git+https://github.com/haoheliu/versatile_audio_super_resolution 実

Stable Diffusionモデルを応用した超解像技術 DiffBIRを試す

テキストから画像への生成モデルであるStable Diffusionの事前学習モデルを活用して、劣化画像のブラインド画像復元タスク(超解像タスク)を行うDiffBIRというフレームワークが提案されています。サンプルコートも公開されているので早速試してみました。 DiffBIRはBSR(Blind Image Super-Resolution ブラインド画像復元)、およびBFR(Blind Face Restoration 顔画像の復元)の先行研究と比較して優れた結果を示して

ローカルPCのターミナル上でLLM生成コードを実行できるOpen Interpreterを試す

ChatGPTのコードインタープリター(Advanced Data Analysis)と同様な機能をローカル環境で実行可能な Open Interpreter が公開されていました。ターミナル上で、チャットインターフェイスを介して、LLMがPython、JavaScript、Shellなどのコードを実行できるもののようです。 Google Colabでの実行デモも公開されています。 ローカル環境で試す対話環境の起動はターミナルで以下を入力します。  $ interpre