Nappage

HWエンジニア。新しい技術を求めて、勉強したことをまとめていきます。 海外の会社と仕事…

Nappage

HWエンジニア。新しい技術を求めて、勉強したことをまとめていきます。 海外の会社と仕事をすることが増えてきたので、英語も勉強しています。 記事を読んで、気に入っていただけたら、いいねやフォローをおねがいいたします。

最近の記事

遂にGemini Advancedがリリース!

Gemini Advancedとは 2024年2月8日にGemini Advanced発表されました。Gemini Advancedとは、Googleが2023年末に発表したAIモデルのうち、最も規模が大きく、かつ最も複雑なタスクを実行できるといわれているGemini Ultraが搭載されたサービスです。 サービス名称: Gemini Advanced AIモデル: Gemini Ultra BardからGeminiへ 2023年末の時点では、Gemini Pro

    • 話題のSunoを使って5分で作曲してみた。

      Sunoを使ってみた。 Microsoft Copilotに統合されたことで、さらなる盛り上がりを見せているSunoを使って簡単なMVを作ってみました。Sunoは、任意のプロンプトから手軽に作詞作曲が可能なツールです。できあがったものはこちらです。 添付の動画では、作詞作曲すべてをSunoが行っていますが、冒頭に記載した通り、Microsoft Copilotに統合されているため、作詞はBing(Chat-GPT)と会話形式で行い、その歌詞を用いて、Sunoで曲のみを生成

      • Appleが、LLM in a flashを発表した。

        Appleが、限られたメモリ容量における効率的な大規模言語モデルの推論に関する論文をarxivにて発表しました。 本論文は、大規模言語モデル (LLM) が抱えるメモリ不足問題を解決する方法を提案しています。提案手法は、モデルパラメータをフラッシュメモリに格納し、必要に応じて DRAM に読み込むことで、制限された DRAM 容量でも効率的に LLM を実行することを可能にします。 モバイルデバイス等のDRAM 容量が限られたデバイスにおいて、効果的なアプローチとなることが

        • AI x 論文検索~要約 3選 

          生成AIの発展に伴って、AIを用いた論文検索ツールも充実してきたということで、まとめてみました。 Elicit ユーザの質問から、関連する論文を検索し、それぞれの論文の要約および概要、ならびに各論文をまとめた要約をテキストで出力します。また、PDFのアップロード機能により、手元にあるPDF形式の論文の要約のみを行うことも可能です。 特徴的な機能 無料でアクセス可能な論文のみを表示するフィルタリング機能 引用数の表示 PDF形式の論文のアップロードと要約 Cons

        遂にGemini Advancedがリリース!

          Gemini Pro APIが公開された。

          Gemini ProのAPIが公開されました。 Gemini UltraとGemini Nanoは、まだ公開されていません。 Gemini ProのAPIは以下のようなバリエーションがあります(2023/12/15時点)。 Gemini Pro: 入出力はテキストとなっており、複数回のやりとりによる会話ができます。 Gemini Pro Vision: 入力はテキストと画像のマルチモーダルとなっており、出力はテキストのみとなっています。 また、上記発表に合わせて、Goog

          Gemini Pro APIが公開された。

          プロンプト・エンジニアリングによってGPT-4がGemini Ultraのパフォーマンスを上回ったと聞いて。

          基盤モデルの性能 x プロンプト・エンジニアリング 2023年12月6日に、Googleより新しいAIモデルであるGeminiが発表されました。その中でも、最も性能が高いとされるGemini Ultraは、GPT-4の性能を上回ったとして、話題になりました。 ところが、Microsoftは、それに対抗するかのごとく、プロンプト・エンジニアリングによって、GPT-4がGemini Ultraの性能を上回ったと、2023年12月12日に発表した記事において報告しました。 内

          プロンプト・エンジニアリングによってGPT-4がGemini Ultraのパフォーマンスを上回ったと聞いて。

          Gemini Pro APIがリリースされる前に既存のモデルを理解しておく。

          上記リリースに備えて、事前に既存のAIモデルを理解しておく。 PaLM2 PaLM2 for Text 分類、要約、エンティティ抽出などの言語タスク用モデル PaLM2 for Chat  チャット用モデル チャット内の以前のメッセージを追跡し、それを新しいレスポンスを生成するためのコンテキストとして使用する。 Codey Codey for Code Completion コード補完用モデル コードプロンプトに基づいてコードを生成する。 コードの提案や

          Gemini Pro APIがリリースされる前に既存のモデルを理解しておく。

          Bard with Gemini Proで画像ファイルから、雑に書いた文字を抽出してみる。

          Bard with Gemini Proにて、テキストが記載されている画像ファイルから、文字情報を読みだして、テキストデータとして、出力できるかためしてみた。 検証 次の画像は、テキストエディタに適当に文字列を入力して、キャプチャスクリーンで画像データとして切り取って、そのままBardに貼り付けた様子である。 結果、問題なく、適切に文字列が読みだされた。 次に、ペイントで太さや色を変えて、文字列を書いてみた。 こちらも問題なく、適切に文字列が読みだされた。 1文字のな

          Bard with Gemini Proで画像ファイルから、雑に書いた文字を抽出してみる。

          Google Gemini Ultraは、まだ使えない。

          Gemini 3種類の公開状況 Geminiは、Gemini Ultra, Gemini Pro, Gemini Nanoの3種類のモデルがあります。 Gemini Ultra - 最も規模が大きく、かつ最も複雑なタスクを実行できるモデル Gemini Pro - 幅広いタスクをスケーリングするために最適なモデル Gemini Nano - on-device向けの最も効率的なモデル。 Gemini Ultraは、Geminiの性能を示すために、紹介ページのベンチマ

          Google Gemini Ultraは、まだ使えない。

          Googleの新AIモデル”Gemini”とは

          Geminiとは 2023年12月6日に、Googleが新たなAIモデル Gemini を発表しました。Geminiは、テキスト、コード、オーディオ、画像、ビデオなど、さまざまな形式のデータの処理が可能なマルチモーダルモデルです。また、Geminiは、データセンターからモバイルデバイスまで、あらゆるもので効率良く、実行できます。 今回のGemini1.0では、下記3種類のモデルが発表されました。 Gemini Ultra - 最も規模が大きく、かつ最も複雑なタスクを実行で

          Googleの新AIモデル”Gemini”とは