【プロが1万文字で解説】最近の生成AIニュース❗️史上最高の文系ローカルLLM「Phi-3 Medium」、美少女AIと会話できる「SillyTavern」、Stable Diffusion高速化＆Linart生成が進化など🎈

ハカセアイ🎧“動画 + Note” でAI技術を裏研修🔥あいラボの詳細はプロフィール欄まで⟡.·🎈

2024年5月26日 22:13

どうも皆さん！ケーキは角から食べるタイプの女、葉加瀬あいです！

今回は、最近生成AI界隈で話題の、オープンソースの自然言語処理や画像生成AIプロジェクトについて、たっぷりとご紹介していきたいと思います！

「こんな便利AIツールあったんだ…」という、隠れた便利ツールから生成AIの界隈では誰もが注目している超優秀なツールまで初心者向けに紹介して行きます❗️

無料のものや低価格で利用できるものをメインに解説して行くので少し試してみたいといった方もご安心ください✨

マイクロソフト社の日本語特化モデル「Phi-3 Medium」
AI美少女とチャットできる「SillyTavern」
ウェブコンテンツのポッドキャスト化ツール「Audio Native」
画像生成AIの「Stable Diffusion」とそのアドオン

など、皆さんのクリエイティビティを刺激する最新技術が勢ぞろいです！

これらの革新的な技術は、マイクロソフト社やElevenLabs社、そしてオープンソースコミュニティによって開発されているんです。　
マイクロソフト社は皆さんご存知のとうり世界的なテクノロジー企業であり、AI分野でも先駆的な研究を行っています。　
一方、ElevenLabs社は音声合成技術に特化したスタートアップで、自然な音声合成を可能にしているんです！

そして生成AIのオープンソースコミュニティは、世界中の開発者が協力して革新的なソフトウェアを作り上げています。　
オープンソースとは、誰でも自由にソフトウェアの設計図（ソースコード）を見たり、改良したりできる仕組みのことなんです。　

つまり多くの天才たちが協力して開発されているため、日々良いものになっていくんです！

でも、AIやオープンソースプロジェクトに関する知識がないと、クリエイティブな作業の効率化や自動化のチャンスを逃してしまうかもしれません。　

「プログラミングの知識がないから、せっかくの技術を活用できない...」なんて思っている人もいるのではないでしょうか。

そんな不利益や将来の損失を回避するために、この記事で紹介する今話題のオープンソースプロジェクトを活用してみましょう！

今回は、プログラミングの知識がなくても、簡単に、効率的に様々なツールを使って簡単にAIを活用できちゃう方法の手助けになればと思って解説して行きます！
（こんな感じのツールを使って、1クリックで準備を完了していったりして行きます！）

この記事では、以下の3つのポイントについて解説していきます：

LLMにおける最新のオープンソースプロジェクト（前半）
画像生成AI「Stable Diffusion」とそのアドオンによる創造性の拡張（中盤）
オープンソースのAIベース画像編集ツール「Invoke AI」など（後半）

最近の生成AIのニュースって本当に目まぐるしいですよね。　「こんな技術が出てきたの!?」って驚くことばかりです。　
でも、そういった最新情報をキャッチアップしていくのって大切だと思うんです。　
だから、私もこの記事で皆さんに役立つ情報をお届けできたらいいなと思っています！

もし、もっと深掘りしてほしい内容やこんなことも解説してほしいというリクエストがあれば、ぜひコメントで教えてください！頑張って記事を書いていきたいと思います！

⚠️私の記事を読む上での注意点⚠️

私の記事を読む際の留意点などをこちらの記事でまとめておりますので、以下のプロフィール記事を一読いただいてから閲覧していただけると幸いです。

それでは、引き続き解説を進めていきましょう！

⚡️今回の記事の動画版⚡️

この記事の内容を動画で視聴したい方は、以下のマガジンにYouTube動画のリンクを掲載しておりますので、そちらからご覧ください！

https://note.com/ai_hakase/m/m093618cdf79

例えば、このような使い分けができます！

通勤・移動中：動画で概要を把握する。
AI技術を実践する際：テキストを参照しながらコピペ・リサーチを行う。

特に、技術関連の事項については動画よりもNoteなどのテキスト形式でお伝えする方が、皆さんが実際に技術を体験してキャッチアップしやすくなるかと思います！

私の記事を読んでくださっている情報感度の高い皆さんが、よりスムーズにAIについての理解を深められるよう『ユーザーエクスペリエンス』を最大限に高められるよう工夫してみました！

ぜひこちらのマガジンを有効活用して効果的な学習を進めてください！

※ 動画コンテンツは私の以下のNoteメンバーシップの会員限定となります。

それでは、早速見ていきましょう！

Phi-3 Medium：日本語に特化したローカルLLM

マイクロソフト社が開発したオープンソースモデル

Phi-3 Mediumは、最近マイクロソフト社が発表した最新のオープンソースNLMモデルなんです。
文字の処理に特化したもので、実用レベルで使える文系LLMとも呼ばれているんです！
現時点では、市場最高のローカルLLMと言われているほどの性能なんです！

ちなみに、LLM（Large Language Model）は、大量のテキストデータを学習して、人間のような自然な文章を生成できるAI技術のことです。
LLMを使うと、質問に対する回答や、文章の要約、翻訳など、様々なタスクを行うことができるんです！

Phi-3 Mediumは、ChatGPTよりも少し性能が低い位のチャットAIが無料で使えるし、カスタマイズや簡単なプログラミングへ組み込むこともできる、現時点で最広報のローカルLLMということになります。
ベンチマークはこんな感じですね。

（ベンチマーク画像の説明）

ベンチマークとは、コンピュータやソフトウェアの性能を測定し、比較するための基準やテストのことです。
例えば、AIモデルのベンチマークテストを行うことで、そのモデルの精度や速度を他のモデルと比較することができるんです。
ベンチマークは、製品やサービスの品質を評価するための重要な指標の一つなんです！

市場最高性能を誇るローカルLLMの特徴

ローカルLLMというのは、ChatGPTってウェブブラウザやアプリに接続しないと使えないと思うんですけど、それのローカル版（自分のPCなどで使えるもの）といったことになるんです。
つまり、ChatGPTのようなものがインターネットに接続しなくても、皆さんのPC上で使えるということなんです！

ローカル環境とは、インターネットに接続せずに自分のコンピュータだけで動作する環境のことです。
クラウドサービスを使わずに、自分のコンピュータにソフトウェアをインストールして使う場合、それはローカル環境で動作しているといいます。
ローカル環境で動作するソフトウェアは、インターネット接続が不要で、プライバシーが保護されるというメリットがあるんです！

そして、そのローカルLLMの現在の最高峰がPhi-3 Mediumというわけですね。
こちらの使用方法などについては、また今度別の記事で解説していきたいと思います！

（Phi-3 Mediumのモデル画像の説明）

モデルはこちらになります。
https://huggingface.co/microsoft/Phi-3-medium-4k-instruct

ちなみに、こちらを使用して量子化などを行っても良いみたいですね。
exllamav2-0.0.21+cu118.torch2.2.0-cp311-cp311-win_amd64.whl

量子化とは、データを圧縮する技術の一つです。
例えば、画像データを量子化すると、画質を大きく損なわずにデータサイズを小さくすることができるんです。
AIモデルを量子化することで、モデルのサイズを小さくし、実行速度を上げることができるんです！

こちらに関しては以下の記事が参考になりますので、ぜひ見てみてください！

SillyTavern：AI美少女とチャットできるシステム

美少女との会話が可能になりました！
この技術は、ローカル環境（皆さんのPC上）でLLMを動かして、美少女とチャットすることができるんです！

皆さんが用意したAI美女やVTube StudioなどのLive2Dモデルをおしゃべり相手にできるものなんですよ！

つまり、こんな感じで、ChatGPTの応答を美少女がチャットや音声ありの声などで返してくれるといったものになるんです！

使えるモデルの種類に関しては、Phi-3 Medium、Llama 38Bといった最新でとても使い勝手の良い有名どころのLLMは大体使えるみたいです！そして、ChatGPT等のAPIキーを入力すると、ChatGPTの応答をしてくれたりするみたいですよ。

なお、この美少女が行ってくれることに関しては、回答と表情の変化とテキストの合成音声による読み上げになります。キャラクターは複数人出すことができるみたいで、症状などについては、表情差分の画像を自分で作成してアップロードする必要があるんです。 ChatGPTみたいな感じでそれとも立てることができるみたいですね。

（SillyTavernの使用例画像の説明）

詳しい情報は以下のリンクからご覧ください！
https://sillytavernai.com/
https://github.com/SillyTavern/SillyTavern

ちなみに、なぜこれをご紹介したかというと、ピノキオコンピューターで利用できるようになったからですね！こちらのように、ピノキオコンピューターをインストールしてもらうと、ワンクリックでインストールすることができるんです！

（ピノキオコンピューター）

以上が、「SillyTavern：AI美少女とチャットできるシステム」のセクションになります。いかがでしょうか？もし修正や追加の要望がありましたら、おっしゃってください！次のセクションに進む前に、ご確認いただけますと幸いです。

ChatGPT API × VRM × VOICEVOXを使って、おしゃべりできるAI彼女、AI彼氏が作れるようになりました！

こちらは、先ほどご紹介したSillyTavernのVRMで動くバージョンになりますね！

ChatGPT等のAPIキーを入力すると、ChatGPTの応答をしてくれたりするみたいです！

API（Application Programming Interface）は、ソフトウェア同士が情報をやり取りするための仕組みのことです。例えば、天気予報のアプリが気象庁のAPIを使って最新の天気情報を取得するように、APIを通じてデータや機能を簡単に利用できるんです！

そして、Apple Storeで現在配信中ということで、iPhoneからも動かせる感じになります！

VRMファイルを使用する際の注意点としては、モーションを作るのが少し面倒なので、ぎこちないモーションになることが多いのですが、きちんとそこら辺も改善してくれてるみたいです！

これいいですね…
VRMってモーションを作るのが少し面倒なんですけど、キレイに動いています！pic.twitter.com/RDhEXqS8ND
— 葉加瀬あい🎼AItuber事業マネージャー始めました🎉･:*:･｡ (@ai_hakase_) May 26, 2024

Audio Native：ウェブコンテンツのポッドキャスト化

ElevenLabs社が開発した革新的なツール

ElevenLabs社が、ウェブページのコンテンツを自動的にポッドキャスト（音声による解説）に変換できる埋め込み型のオーディオプレーヤー「Audio Native」をリリースしました！

Audio Nativeは、短いプロンプトを挿入するだけで、どのようなウェブページやコンテンツにも組み込むことができ、コンテンツに合わせて自動的に音声ナレーションを生成するんです！

ブログ記事やニュース記事などを音声コンテンツに変換することで、ユーザーにとってより便利で魅力的なコンテンツ配信が可能になるでしょう！

記事を音声コンテンツに変換し、魅力的に

例えば、こんな感じです！

ElevenLabs社が、ウェブページのコンテンツを自動的にポッドキャスト（音声による解説）に変換できる埋め込み型のオーディオプレーヤー「Audio Native」をリリースpic.twitter.com/k9TjKvCxc1
— 葉加瀬あい🎼AItuber事業マネージャー始めました🎉･:*:･｡ (@ai_hakase_) May 26, 2024

Audio Nativeには、以下のような特徴があるんです。

自動音声生成: ウェブページのコンテンツを自動的に音声ナレーションに変換します。
簡単な導入: 短いコードを挿入するだけで、どのようなウェブページにも組み込むことができます。
メトリクス機能: リスニングダッシュボードを通じて、オーディエンスのエンゲージメントを追跡できます。

※ElevenLabs - Audio Nativeの利用には、月額10ドルの料金がかかります。

Audio Nativeの詳細については、以下のリンクをご覧ください。

それでは、ここからはAI技術の悪用防止なども踏まえて、私のノートメンバーシップの会員限定でお届けしていきます！

私のノートメンバーシップでは、AIの初心者でも便利に活用できるようサポートしています！（現在、皆さんの周りの100名以上の方が参加中🎉）

ぜひ仕事や副業に役立てたり、友人と一緒に活用して信頼関係を深めたりといった用途に使ってみてください！多数のAIプロジェクトを率いるプロフェッショナルが、リーズナブルで、安全かつ、幅広い情報量で詳細に解説しています！

続きをお読みになりたい方は、ぜひこちらのリンクからメンバー登録をしてご覧ください！

それでは引き続き解説を進めてまいりましょう！

Stable Diffusionの高速化とアドオン

画像生成速度が40%向上するPRバンドル登場

Stable Diffusion WebUIのautomatic1111版で、

ここから先は

4,640字 / 13画像

🚨AI時代に損をする確実な未来を変えるために、私達ができることはAI知識を手に入れることだけです。…

このメンバーシップの詳細

ほぼ全ての有料記事が見放題❗スタンダードプラン

¥980 / 月

☑３つの特徴１．一部を除く、ほぼすべての記事が読み放題！２．32円 / 日の高コスパ！３．あなたの周りの１００名以上の会員様が購読！ ※技術的な質問・アドバイスは、プレミアムプランの会員限定となります。 👇️詳細はこちらから！ https://x.gd/4bmQx

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

読むだけで簡単にAIのプロに？！あいラボ：プレミアムプラン✨

¥4,980 / 月

あと2人募集中

☑３つの特徴１．技術的な質問・アドバイスが自由！２．本当は教えたくない、希少な技術やワークフローを惜しみなく公開！３．参加人数を30人に制限！さらに、私の記事の内容や画像を使用した動画作成許諾の特典も⭕️ 👇️詳細はこちらから！ https://x.gd/4bmQx

メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

ログイン

この記事が参加している募集

#AIとやってみた

31,145件

この記事が気に入ったらサポートをしてみませんか？