マガジンのカバー画像

#エンジニア 系記事まとめ

1,102
noteに投稿されたエンジニア系の記事のまとめ。コーディングTIPSよりは、考察や意見などを中心に。
運営しているクリエイター

#人工知能

GPT-4o の概要

以下の記事が面白かったので、簡単にまとめました。 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわずか232ミリ秒 (平均320ミリ秒) で応答できます。これは、人間の会話における応答時間とほぼ同じです。英語のテキストおよびコードでは「GPT-4 Turbo」のパフォー

『生成AIカンファレンス2024』に現地参加したイベントレポート

はじめにスマートラウンドでエンジニアをしている福本です! 2024/05/08(水)に開催された『生成AIカンファレンス2024』に現地参加したので、メモの公開RTAをしたいと思います。 厳密な文字起こしではないので、足りてないところ・読みづらいところがたくさんあります(スマン)。前提として自分がWebエンジニアなので、アプリケーションレイヤー寄りの話に興味が湧きがちだったりします。 ちなみに、参加申し込みをされた方は、後からアーカイブが見れるのでそちらもあわせてどう

いちばんやさしいローカル LLM

概要ローカル LLM 初めましての方でも動かせるチュートリアル 最近の公開されている大規模言語モデルの性能向上がすごい Ollama を使えば簡単に LLM をローカル環境で動かせる Enchanted や Open WebUI を使えばローカル LLM を ChatGPT を使う感覚で使うことができる quantkit を使えば簡単に LLM を量子化でき、ローカルでも実行可能なサイズに小さくできる 1. はじめに大規模言語モデル(LLM)の数は数年前と比べてたく

OpenAI DevDay で発表された新モデルと新開発ツール まとめ

以下の記事が面白かったので、かるくまとめました。 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。 開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Callin

ChatGPT API の使い方

「OpenAI」の 記事「Chat completions」が面白かったので、軽くまとめました。 1. ChatGPT API「ChatGPT」は、OpenAIの最も先進的な言語モデルである「gpt-3.5-turbo」を搭載しています。「OpenAI API」から「gpt-3.5-turbo」を使用して独自アプリケーションを作成できます。 2. 使用料金使用料金は、以下で確認できます。 3. Colab での実行「gpt-3.5-turbo」は、マルチターンの会話を簡

GPT Index で専門知識を必要とする質問応答チャットボットを簡単作成

「GPT Index」を試したので、まとめました。 1. GPT Index「GPT Index」は、専門知識を必要とする質問応答チャットボットを簡単に作成できるライブラリです。 同様のチャットボットは「LangChain」でも作成できますが、「GPT Index」は、コード数行で完成してお手軽なのが特徴になります。 2. ドキュメントの準備はじめに、チャットボットに教える専門知識を記述したドキュメントを用意します。 今回は、マンガペディアの「ぼっち・ざ・ろっく!」の

Google Colab で はじめる Stable Diffusion v1.4

「Google Colab」で「Stable Diffusion」を試してみました。 【最新版の情報は以下で紹介】 1. Stable Diffusion「Stable Diffusion」は、テキストから画像を生成する、高性能な画像生成AIです。 2. ライセンスの確認以下のモデルカードにアクセスして、ライセンスを確認し、「Access Repository」を押し、「Hugging Face」にログインして(アカウントがない場合は作成)、同意します。 3. Hug

Google Colab で はじめる NEUTRINO v1.2.0

「Google Colab」で「NEUTRINO」を試してみました。 1. NEUTRINO とは「NEUTRINO」は、「楽譜」から発声タイミング・音の高さ・声質・声のかすれ具合などをニューラルネットワークで推論して、「歌声のwavファイル」を出力するツールです。2022年4月22日より「NEUTRINO-Electron」として正式リリースが開始されました。 2. NEUTRINO-Online版の準備以下のサイトから「NEUTRINO-Online版」をダウンロード

人工培養された脳細胞によるゲームプレイの仕組み 〜自由エネルギー原理について〜

イントロ「実験室内で培養した人の「ミニ脳」にゲームをプレイさせることに成功、AIよりも速いわずか5分で習得」というニュースが話題になっています。 脳細胞をトレーの中で人工培養させて、その細胞に卓球ゲームの「Pong」をプレイさせたところ、たった5分で学習し、ラリーが続くようになったと報告されています。まるで、マトリックスの映画のようで、この技術を使った未来がワクワクすると同時にちょっと怖くもあります。一体、どんな技術を使って、脳細胞に卓球ゲームを学習させたのでしょうか。このニ

ルービックキューブを解くAIを作ってみた

こんにちは、にゃにゃんです。 この記事はSpeedcubing Advent Calendar 2021の19日目の記事です。 18日はSinpei Arakiさんの地域団体についてでした。 20日はタニシさんのFB100本ノックです。 ルービックキューブを解くプログラムを主に"AI"の視点から解説し、私独自のアルゴリズムを紹介し、最後に性能を見てみます。 技術的な話はなるべく平易に書きました。気楽にお読みください。 はじめに ルービックキューブを解く"AI"と言え

メタマテリアルから考える今後10年の設計のゆくえ

本稿の概要 本稿では人類が新たに獲得しようとしている設計対象としてメタマテリアルを紹介し、メタマテリアルが新たに開拓する設計手法や製造業の進化を展望します。まずメタマテリアルとは何かについて述べ、その後メタマテリアルを産業に適用するための課題を述べます。その後、メタマテリアルを設計するためにはどのようなコンセプトや手法が必要なのかを述べ、今後の設計の在り方について展望します。 メタマテリアルとは何か? メタマテリアルという用語にはいくつかの定義が存在しますが、最も広い意味で

iOS による姿勢推定

以下の記事を参考にして書いてます。 ・Detecting Human Body Poses in an Image 1. はじめにこのサンプルは、PoseNetモデル を使用してカメラ画像から姿勢推定を行う方法を示しています。PoseNetモデル は、17の異なる身体パーツまたは関節(目、耳、鼻、肩、腰、肘、膝、手首、足首)を検出します。 サンプルは、画像内の各人の17関節の位置を見つけ、その上にワイヤーフレームを描画ています。 【注意】 「iOS 13以降」が必要で

HER : 失敗から学ぶ強化学習アルゴリズム

以下の記事が面白かったので、ざっくり訳してみました。 ・Ingredients for Robotics Research 1. はじめにOpenAIでは、8つの「Robotics環境」と、「HER」(Hindsight Experience Replay)のベースライン実装をリリースしました。過去1年間の研究用に開発されましたものになります。これらの環境を使用して、実際のロボットで動作するモデルを訓練しました。 2. Robotics環境このリリースには、「MuJoC

マンガでわかるHCI: 今週のコンピュータサイエンス研究 140字での論文解説 まとめ 7/27-8/2

このnoteでは、最新のコンピュータサイエンスの研究を140字でゆるく解説しつつ、気になる論文にはこういう研究もあるよと2-3個似てる研究を紹介しています。 分野の中の人も外の人も、実務で忙しい人もそうでない人も、小学生も大学生も、「なるほど、最先端ではこんなことがおきてるんだな。ふむふむ」と感じてもらえたらと思います。 --- 今週は、SIGGRAPH 2019があったということで、先週に引き続きSIGGRAPHの論文が多めです。Emerging Technologi