見出し画像

【プロが1万文字で解説】最近の生成AIニュース❗️史上最高の文系ローカルLLM「Phi-3 Medium」、美少女AIと会話できる「SillyTavern」、Stable Diffusion高速化&Linart生成が進化 など🎈

どうも皆さん!ケーキは角から食べるタイプの女、葉加瀬あいです!

今回は、最近生成AI界隈で話題の、オープンソース自然言語処理画像生成AIプロジェクトについて、たっぷりとご紹介していきたいと思います!

こんな便利AIツールあったんだ…」という、隠れた便利ツールから生成AIの界隈では誰もが注目している超優秀なツールまで初心者向けに紹介して行きます❗️

無料のものや低価格で利用できるものをメインに解説して行くので少し試してみたいといった方もご安心ください✨

  1. マイクロソフト社の日本語特化モデル「Phi-3 Medium

  2. AI美少女とチャットできる「SillyTavern

  3. ウェブコンテンツのポッドキャスト化ツール「Audio Native

  4. 画像生成AIの「Stable Diffusion」とそのアドオン

など、皆さんのクリエイティビティを刺激する最新技術が勢ぞろいです!

これらの革新的な技術は、マイクロソフト社ElevenLabs社、そしてオープンソースコミュニティによって開発されているんです。 
マイクロソフト社は皆さんご存知のとうり世界的なテクノロジー企業であり、AI分野でも先駆的な研究を行っています。 
一方、ElevenLabs社は音声合成技術に特化したスタートアップで、自然な音声合成を可能にしているんです!

そして生成AIのオープンソースコミュニティは、世界中の開発者が協力して革新的なソフトウェアを作り上げています。 
オープンソースとは、誰でも自由にソフトウェアの設計図(ソースコード)を見たり、改良したりできる仕組みのことなんです。 

つまり多くの天才たちが協力して開発されているため、日々良いものになっていくんです!

でも、AIやオープンソースプロジェクトに関する知識がないと、クリエイティブな作業の効率化や自動化のチャンスを逃してしまうかもしれません。 

「プログラミングの知識がないから、せっかくの技術を活用できない...」なんて思っている人もいるのではないでしょうか。

そんな不利益や将来の損失を回避するために、この記事で紹介する今話題のオープンソースプロジェクトを活用してみましょう!

今回は、プログラミングの知識がなくても、簡単に、効率的に様々なツールを使って簡単にAIを活用できちゃう方法の手助けになればと思って解説して行きます!
(こんな感じのツールを使って、1クリックで準備を完了していったりして行きます!)

この記事では、以下の3つのポイントについて解説していきます:

  1. LLMにおける最新のオープンソースプロジェクト(前半)

  2. 画像生成AI「Stable Diffusion」とそのアドオンによる創造性の拡張(中盤)

  3. オープンソースのAIベース画像編集ツール「Invoke AI」など(後半)

最近の生成AIのニュースって本当に目まぐるしいですよね。 「こんな技術が出てきたの!?」って驚くことばかりです。 
でも、そういった最新情報をキャッチアップしていくのって大切だと思うんです。 
だから、私もこの記事で皆さんに役立つ情報をお届けできたらいいなと思っています!

もし、もっと深掘りしてほしい内容やこんなことも解説してほしいというリクエストがあれば、ぜひコメントで教えてください!頑張って記事を書いていきたいと思います!

⚠️私の記事を読む上での注意点⚠️

私の記事を読む際の留意点などをこちらの記事でまとめておりますので、以下のプロフィール記事を一読いただいてから閲覧していただけると幸いです。

それでは、引き続き解説を進めていきましょう!

⚡️今回の記事の動画版⚡️

この記事の内容を動画で視聴したい方は、以下のマガジンにYouTube動画のリンクを掲載しておりますので、そちらからご覧ください!

https://note.com/ai_hakase/m/m093618cdf79

例えば、このような使い分けができます!

  • 通勤・移動中:動画で概要を把握する。

  • AI技術を実践する際:テキストを参照しながらコピペ・リサーチを行う。

特に、技術関連の事項については動画よりもNoteなどのテキスト形式でお伝えする方が、皆さんが実際に技術を体験してキャッチアップしやすくなるかと思います!

私の記事を読んでくださっている情報感度の高い皆さんが、よりスムーズにAIについての理解を深められるよう『ユーザーエクスペリエンス』を最大限に高められるよう工夫してみました!

ぜひこちらのマガジンを有効活用して効果的な学習を進めてください!

※ 動画コンテンツは私の以下のNoteメンバーシップの会員限定となります。

それでは、早速見ていきましょう!


Phi-3 Medium:日本語に特化したローカルLLM

マイクロソフト社が開発したオープンソースモデル

Phi-3 Mediumは、最近マイクロソフト社が発表した最新のオープンソースNLMモデルなんです。
文字の処理に特化したもので、実用レベルで使える文系LLMとも呼ばれているんです!
現時点では、市場最高のローカルLLMと言われているほどの性能なんです!

ちなみに、LLM(Large Language Model)は、大量のテキストデータを学習して、人間のような自然な文章を生成できるAI技術のことです。
LLMを使うと、質問に対する回答や、文章の要約、翻訳など、様々なタスクを行うことができるんです!

Phi-3 Mediumは、ChatGPTよりも少し性能が低い位のチャットAIが無料で使えるし、カスタマイズや簡単なプログラミングへ組み込むこともできる、現時点で最広報のローカルLLMということになります。
ベンチマークはこんな感じですね。

(ベンチマーク画像の説明)

ベンチマークとは、コンピュータやソフトウェアの性能を測定し、比較するための基準やテストのことです。
例えば、AIモデルのベンチマークテストを行うことで、そのモデルの精度や速度を他のモデルと比較することができるんです。
ベンチマークは、製品やサービスの品質を評価するための重要な指標の一つなんです!

市場最高性能を誇るローカルLLMの特徴

ローカルLLMというのは、ChatGPTってウェブブラウザやアプリに接続しないと使えないと思うんですけど、それのローカル版(自分のPCなどで使えるもの)といったことになるんです。
つまり、ChatGPTのようなものがインターネットに接続しなくても、皆さんのPC上で使えるということなんです!

ローカル環境とは、インターネットに接続せずに自分のコンピュータだけで動作する環境のことです。
クラウドサービスを使わずに、自分のコンピュータにソフトウェアをインストールして使う場合、それはローカル環境で動作しているといいます。
ローカル環境で動作するソフトウェアは、インターネット接続が不要で、プライバシーが保護されるというメリットがあるんです!

そして、そのローカルLLMの現在の最高峰がPhi-3 Mediumというわけですね。
こちらの使用方法などについては、また今度別の記事で解説していきたいと思います!

(Phi-3 Mediumのモデル画像の説明)

モデルはこちらになります。
https://huggingface.co/microsoft/Phi-3-medium-4k-instruct

ちなみに、こちらを使用して量子化などを行っても良いみたいですね。
exllamav2-0.0.21+cu118.torch2.2.0-cp311-cp311-win_amd64.whl

量子化とは、データを圧縮する技術の一つです。
例えば、画像データを量子化すると、画質を大きく損なわずにデータサイズを小さくすることができるんです。
AIモデルを量子化することで、モデルのサイズを小さくし、実行速度を上げることができるんです!

こちらに関しては以下の記事が参考になりますので、ぜひ見てみてください!


SillyTavern:AI美少女とチャットできるシステム

美少女との会話が可能になりました!
この技術は、ローカル環境(皆さんのPC上)でLLMを動かして、美少女とチャットすることができるんです!

皆さんが用意したAI美女VTube StudioなどのLive2Dモデルをおしゃべり相手にできるものなんですよ!

つまり、こんな感じで、ChatGPTの応答を美少女がチャットや音声ありの声などで返してくれるといったものになるんです!

使えるモデルの種類に関しては、Phi-3 MediumLlama 38Bといった最新でとても使い勝手の良い有名どころのLLMは大体使えるみたいです! そして、ChatGPT等のAPIキーを入力すると、ChatGPTの応答をしてくれたりするみたいですよ。

なお、この美少女が行ってくれることに関しては、回答と表情の変化とテキストの合成音声による読み上げになります。 キャラクターは複数人出すことができるみたいで、症状などについては、表情差分の画像を自分で作成してアップロードする必要があるんです。 ChatGPTみたいな感じでそれとも立てることができるみたいですね。

(SillyTavernの使用例画像の説明)

詳しい情報は以下のリンクからご覧ください!
https://sillytavernai.com/
https://github.com/SillyTavern/SillyTavern


ちなみに、なぜこれをご紹介したかというと、ピノキオコンピューターで利用できるようになったからですね! こちらのように、ピノキオコンピューターをインストールしてもらうと、ワンクリックでインストールすることができるんです!

(ピノキオコンピューター)

以上が、「SillyTavern:AI美少女とチャットできるシステム」のセクションになります。 いかがでしょうか?もし修正や追加の要望がありましたら、おっしゃってください!次のセクションに進む前に、ご確認いただけますと幸いです。


ChatGPT API × VRM × VOICEVOXを使って、おしゃべりできるAI彼女AI彼氏が作れるようになりました!

こちらは、先ほどご紹介したSillyTavernVRMで動くバージョンになりますね!

ChatGPT等のAPIキーを入力すると、ChatGPTの応答をしてくれたりするみたいです!

 API(Application Programming Interface)は、ソフトウェア同士が情報をやり取りするための仕組みのことです。 例えば、天気予報のアプリが気象庁のAPIを使って最新の天気情報を取得するように、APIを通じてデータや機能を簡単に利用できるんです!

そして、Apple Storeで現在配信中ということで、iPhoneからも動かせる感じになります!

VRMファイルを使用する際の注意点としては、モーションを作るのが少し面倒なので、ぎこちないモーションになることが多いのですが、きちんとそこら辺も改善してくれてるみたいです!


Audio Native:ウェブコンテンツのポッドキャスト化

ElevenLabs社が開発した革新的なツール

ElevenLabs社が、ウェブページのコンテンツを自動的にポッドキャスト(音声による解説)に変換できる埋め込み型のオーディオプレーヤー「Audio Native」をリリースしました!

Audio Nativeは、短いプロンプトを挿入するだけで、どのようなウェブページやコンテンツにも組み込むことができ、コンテンツに合わせて自動的に音声ナレーションを生成するんです!

ブログ記事やニュース記事などを音声コンテンツに変換することで、ユーザーにとってより便利で魅力的なコンテンツ配信が可能になるでしょう!

記事を音声コンテンツに変換し、魅力的に

例えば、こんな感じです!

Audio Nativeには、以下のような特徴があるんです。

  • 自動音声生成: ウェブページのコンテンツを自動的に音声ナレーションに変換します。

  • 簡単な導入: 短いコードを挿入するだけで、どのようなウェブページにも組み込むことができます。

  • メトリクス機能: リスニングダッシュボードを通じて、オーディエンスのエンゲージメントを追跡できます。

※ElevenLabs - Audio Nativeの利用には、月額10ドルの料金がかかります。

Audio Nativeの詳細については、以下のリンクをご覧ください。


それでは、ここからはAI技術の悪用防止なども踏まえて、私のノートメンバーシップの会員限定でお届けしていきます!

私のノートメンバーシップでは、AIの初心者でも便利に活用できるようサポートしています!(現在、皆さんの周りの100名以上の方が参加中🎉)

ぜひ仕事や副業に役立てたり、友人と一緒に活用して信頼関係を深めたりといった用途に使ってみてください!多数のAIプロジェクトを率いるプロフェッショナルが、リーズナブルで、安全かつ、幅広い情報量で詳細に解説しています!

続きをお読みになりたい方は、ぜひこちらのリンクからメンバー登録をしてご覧ください!

それでは引き続き解説を進めてまいりましょう!


Stable Diffusionの高速化とアドオン

画像生成速度が40%向上するPRバンドル登場

Stable Diffusion WebUIautomatic1111版で、

ここから先は

4,640字 / 13画像

この記事が参加している募集

#AIとやってみた

27,620件

この記事が気に入ったらサポートをしてみませんか?