マガジンのカバー画像

LLMの活用

43
運営しているクリエイター

記事一覧

ChatGPTでデータ眺めて電気代を考える

ChatGPT上の、csvファイルやグラフの扱いが改良されているようです。 ちょうど、日本全国の発電所の時間ごとの発電実績データを全て公開している、興味深いサイトを見つけたので、今回は昨日(2024-05-29)一日分のcsvデータをネタにして、かるく試してみました。 リンク先のユニット別発電実績公開からエリアと期間等を選択してCSV保存する。 保存したCSVファイルをおもむろにChatGPTにぶっこむ。 東京、関西、九州エリアの発電方式・燃料の種類ごとのプロットをし

日本語を含む多様な音声入力に対応したLLM: Qwen-Audio-Chatを試す

アリババクラウドが、音声入力に対応したLLMであるQwen-Audioを公開していたので早速デモを試してみました。 Qwen-Audioの概要Qwen-Audioは、異なる種類のオーディオ入力やタスクに対応するユニバーサルオーディオ理解モデルを目指して開発されています。主な目的は、既存の音声モデルが持つ限定的なインタラクション能力の問題を解決し、人間の発話、自然音、音楽、歌などを含む幅広いオーディオタイプに対応することです。このモデルは、複数のタスクにわたる知識共有と協調学

GPT4-Vision APIを使ったアプリ draw-a-uiを試す

gpt4-vison API を使った作例として公開してされている、ポンチ絵をhtmlに変換するアプリdraw-a-uiを試してみました。 アプリの機能まずはgithubの説明にしたがってアプリを起動してみます。 $ git clone https://github.com/SawyerHood/draw-a-ui$ cd araw-a-ui $ npm install$ npm run dev あとは、ブラウザでhttp://localhost:3000を開くとアプ

【論文紹介】アテンション・シンクを用いた効率的なストリーミング言語モデル

興味深い論文を見つけたので、ざっとまとめました。 私の理解不足は多々ありますので、興味を持たれた方はぜひ原文をご参照ください。 Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, Mike Lewis 概要この研究では、大規模な言語モデルを実行するための新しいフレームワークであるStreamingLLMを提案しています。これは、従来のアプローチであるWindow attentionがテキストの長さがキャッシュサイズを超

GPT-4Vの画像認識の機能を試す

ChatGPTの画像認識の機能が、やっと今朝見たら使えるようになっていたので、遅ればせながら私も試してみました。 ブロック図の解説 数式画像のLaTeX化 宿泊記録の読み取り 災害の要因分析 台風進路図の読み取り 以上、取り急ぎためして、一通り驚いてみました。😄 フェーズが変わった感じです。gpt-4vのAPIが公開されれば応用分野も相当広がりそうですね。

kani: 軽量LLMフレームワーク

kani (カニ) は、ツールの使用/関数呼び出しを備えたチャットベースの言語モデルのための軽量でハッキング可能なフレームワークです。 LLM用のフレームワークとしてはLangchainが圧倒的にメジャーですが、若干肥大化した印象もありますよね。というわけで、ざっと試食してみます。 kaniの主な特徴軽量設計 最小限のフットプリントで高レベル機能 モデル非依存 OpenAIモデルのほか、LLaMA v2、Vicunaなど 関数呼び出し ロバストなFunction Cal

ローカルPCのターミナル上でLLM生成コードを実行できるOpen Interpreterを試す

ChatGPTのコードインタープリター(Advanced Data Analysis)と同様な機能をローカル環境で実行可能な Open Interpreter が公開されていました。ターミナル上で、チャットインターフェイスを介して、LLMがPython、JavaScript、Shellなどのコードを実行できるもののようです。 Google Colabでの実行デモも公開されています。 ローカル環境で試す対話環境の起動はターミナルで以下を入力します。  $ interpre

CodeInterpreterを使ってChatGPTに微分積分の宿題をしてもらう

コードインタープリターを使ってChatGPTに微分積分の問題を解いてもらいました。 積分の問題微分の問題たしか高校で習ったはずなのに恥ずかしながら頭がさび付いてしまって、ほとんど忘れてしまいましたが、そんな時も(人類たるプライドを捨てて)さくっとChatGPTにお願いすれば、ほぼいい感じです。今回はChatGPTがすごいというか、数式処理ライブラリsympyがすごいのですが…。なにせ楽。 豊富なpythonライブラリーを活用すると、コードインタープリターは数学以外でもいろ

画像説明するアプリ「ViLT-GPT」でLLMと他のTransferモデルの組み合わせ方を学ぶ

面白そうなサンプルアプリをGitHubで見つけたので遊んでみました。 README.md の日本語訳ViLT-GPTは、会話型AI ChatGPTに「見る」機能を与える革新的なアプリケーションです。OpenAIの言語モデル(LLM)とLangChainをVision-and-Languageモデルと統合することで、このアプリは画像の内容に基づいて質問に答えることができます。これで、画像と対話したり、質問をしたり、有益な回答を得たりすることができます。 とにかく試してみます

Function calling に対応したLlama API(llama2)

OpenAI互換のAPIでllama2モデルをホストする、LLamaAPIが公開されていたので、さっそく試してみました。 Llama API のページでユーザー登録してAPIキーを取得します。 OpenAIのFunction Callingのサンプルを入力してみます。 !pip install llamaapi -q from llamaapi import LlamaAPI# Replace 'Your_API_Token' with your actual API

LangChainによるCode Interpreterオープンソース実装を試す

先日OpenAIからChatGPTのCode Interpreter が公開されて、その能力の高さと応用範囲の広さから界隈で大騒ぎになっていますね。そのコードインタープリター機能をFunction Callingを利用して、LangChainでオープンソース実装を行う試みも始まったようです。 というわけで、さっそく簡単に試食してみます。なお、技術的な詳細などはLangChainの公式ブログやGitHubリポジトリなどをご参照ください。 概要LangChainエージェント用

時系列データをChatGPTのCode Interpreterに解析してもらう

ChatGPTのCode Interpreterで時系列データのデータ解析を試してみます。ネタは定番のAir Passengersのデータを使います。 実行結果は、スクリーンショットをコピペしたので文字がつぶれて見ずらい場合は、画像を開いてご覧ください。 データの読み込み訓練データ、テストデータの分割予測モデルの作成ARIMAモデル LSTMモデルのプログラム LSTMモデルでの予測結果 google colabで実行して出力されたファイルをChatGPTに入力します

ChatGPTのCode Interpreterに基本的な画像処理を教えてもらう

ChatGPTのCode Interpreterになって画像ファイルも入力できるようになったようなので、何ができるか対話的に試してみました。

ChatGPT のCode Interpreterにシンセサイザーの基本を教わってみる

今回はChatGPTに音の合成の基本を教えてもらいます。 クラリネットの音色の合成昔の電子オルガンのクラリネットの音みたい? サックスの音色の合成まとめ実際のシンセサイザーでの音の合成は、もっともっと複雑な処理をしていると思いますが、初歩の初歩として単純なサイン波の合成で音色が変わることを実感できて、とても興味深かったです。 Code Interpreterはシンプルなコードで例示してくれて、実際にファイルの出力を得ることが出来るようになったことは大きなメリットだと思い