見出し画像

AIの最新動向まとめ:基礎知識から最新トレンドまでまるっとキャッチアップ!

AIの世界は進みが非常に早いため、すぐに情報が古くなってしまいます。なので、状況が変わったらできるだけ追記していこうかなと思っています。

2024/05/10:初版公開。
2024/05/14:GPT-4oについて追記。
2024/05/18:松尾教授の動画を追記。
2024/07/02:最新情報をもろもろ追記。
2024/09/01:最新情報をもろもろ追記。

1. はじめに

こんにちは!最近、AI(人工知能)という言葉をあちこちで耳にするようになりましたね。特に、ChatGPTの登場以降、AIブームが加速しています。でも、「AIってすごいらしいけど、具体的になにができるの?」「どんなサービスがあるの?」と思っている方も多いのではないでしょうか。

AIの世界はまさに日進月歩。ものすごい早さで次々と新しいものが出てくるので、そろそろ調べなきゃ、追いつかなきゃとは思ってはいても、何から調べればいいのかわからない!という気持ち、よくわかります。

そこでこの記事では、AI初学者の方向けに、AIの基礎知識から最新のプロダクトまで幅広く紹介します。この記事を読み終えるころには、AIの現状がなんとなく掴めて、興味をもったプロダクトを実際に触ってみたくなっているはずです。それでは、世界を変えつつあるAIの最新動向を一緒に見ていきましょう!


2. AIの基礎知識

まず、AIとは何でしょうか? 一言で言えば、「人間の知的な振る舞いをコンピュータ上で実現しようとする技術」です。AIの歴史は古く、1950年代にさかのぼるのですが、近年は機械学習、特にディープラーニングの発展により、飛躍的な進歩を遂げています。

ディープラーニングは、人間の脳内にある神経細胞(ニューロン)のつながりを模倣した人工ニューラルネットワークを用いた機械学習の手法です。大量のデータを使って学習することで、画像認識や音声認識、機械翻訳など、複雑なタスクを高い精度でこなせるようになりました。

そして、2017年にGoogleの研究者らによって発表された「Transformer」という深層学習モデルの登場により、自然言語処理の分野に大きな革新がもたらされました。Transformerを用いたGPT(Generative Pre-trained Transformer)モデルは、大量のテキストデータを学習することで、人間のような自然な文章を生成できるようになったのです。

2022年11月にOpenAIが公開した「ChatGPT」は、GPT-3.5をベースに対話形式のインターフェースを実装したもので、その高い会話能力が大きな話題となりました。ChatGPTの登場は、一般の人々にAIの可能性を示す大きな契機となり、今日のAIブームの火付け役となったのです。

ChatGPTには「ChatGPT Plus」と呼ばれる有料サービスがあります。無料版との大きな違いは、GPT-3.5を大幅に上回る性能を持つ「GPT-4」というモデルが使えることでしょう。比べてみると、違いにびっくりすると思います。ChatGPTの無料版を使ってみて、「あれ?思ったより賢くなくない?」と思った方は、ぜひ一度GPT-4に触れてみてください。

では次に、ChatGPT以外の注目チャットサービスを見ていきましょう。

(2024/5/18追記)
AI研究の第一人者である松尾教授の生成AIについての会見が非常にわかりやすかったのでご紹介します。1時間半くらいあるので少々長いですが、AIに興味がある方は必見だと思います!

3. 注目のチャットサービス

ChatGPTの成功を受けて、各社がしのぎを削る形で様々なチャットサービスを開発・公開しています。ここでは、代表的なサービスをいくつか紹介します。

まず、Anthropic社の「Claude3」は、GPT-4と同等以上の対話能力を持つとされ、特に最上位モデルのOpusは現在リリースされている生成AIの中で最強とも言われています。ConstitutionalAIと呼ばれる独自の学習手法により、ユーザーとの対話を重ねるほど、より良い方向へと成長していくのが特徴とされています。

なお蛇足ですが、この記事を書くにあたってはキーワードだけ自分で用意して、下書きはOpusに書いてもらいました。ただ、特に最新技術に関してはかなり適当なことを書いてくるので、大部分を書き直すことにはなりましたが、それでも何もないよりは大分楽になります。

Google DeepMindが開発したチャットAI「Gemini」も、非常に高い性能を誇ります。Geminiは、大規模言語モデルPaLMをベースとしており、GPT-4やAnthropicのClaude3と同等以上の性能を持つとされています。また、Geminiは検索エンジンとの統合も進めており、ユーザーの質問に対して、インターネット上の情報を検索し、関連する回答を生成できる点が大きな特徴です。

他にも、Perplexity AIが開発した「Perplexity」は、従来の検索エンジンとAIアシスタントの長所を組み合わせた次世代型のサービスとして注目されています。この記事を書く際にも、大いに活用しました。個人的には無料版でも十分役に立つと思っています。

このように、OpenAIだけでなく、様々な企業が競合しており、今後も新たなサービスが登場することでしょう。「Chatbot Arena」というサイトでは、それらのモデルを試したり、性能のランキングを見ることができるのでぜひ参考にしてみてください。

ますます盛り上がっているチャットサービスですが、これらを支えているのが、大規模言語モデル(LLM:Large Language Model)です。次の章では、最新のLLMモデルについて見ていきましょう。

(2024/5/14追記)
OpenAIから新しいチャットモデルについての発表がありました。その名もGPT-4o。末尾のoはOmniという言葉から来ており、「全ての」という意味を持ちます。これはおそらくマルチモーダル(複数の情報をまとめて扱える)AIのことを指しているのだと思われますが、デモでは感情を持っているかのような音声会話や、同時通訳、PC画面をリアルタイムで見せながらのアドバイスなど、テキストだけでなく画像や音声、動画までをもうまく扱う様子が見て取れました。

純粋にLLMとしての性能も向上しており、ベンチマークでは他のモデルから頭一つ抜け出した格好です。また、応答速度が爆速になっているのも大きな進化です。そしてなんと、この新しいモデルは一定時間毎の回数制限はあるものの、無料ユーザーにも開放されるようです。ぜひ一度、最先端のAIに触れてみてください。

(2024/7/2追記)
いよいよチャットサービスも競争が激化してきました。今回の震源地はAnthropic社です。2024/6/20に、突如Claude 3.5 Sonnetというモデルが登場しました。まずこのモデルについてですが、ベンチマーク結果によるとGTP-4oに匹敵する性能とのこと。リリースされて以来、使い倒してますが、使っている感じでは現段階での最高のモデルではないかと思います。おそらく今後Claude 3.5 Opusという最上位モデルも出てくると思いますので、どんな性能になるのか楽しみです。

また、Artifactsという新機能もリリースされました。これは対話をしながらWebサイトやWebアプリ、画像やMarkdown、チャートなどの視覚的なコンテンツをリアルタイムで生成し、プレビューできる機能です。この体験は素晴らしく、簡単なコードを生成してもらい、すぐに動かすことができます。

さらに地味に嬉しいのは、プロジェクト機能が追加されたことです。プロジェクトとは、チャットのセッションを分類・整理するディレクトリのようなもので、共通の情報をあらかじめアップロードしておくことができます。例えば、あるプロジェクトの資料をアップしておけば、複数のチャットにまたがったとしてもコンテキストを共有できるようになります。これもすごく便利。いよいよチャットだけでなく、+αの戦いになってきたなと感じます。

なお、Googleも負けてはいません。Gemini 1.5 Proという超ロングコンテキスト(最大100万トークン!)なモデルは、資料や動画を丸ごとアップして要約させたり、そこからコンテンツを生成させることを可能にしています。また、NotebookLMというサービスでは、自分の資料をガンガンアップロードし、それを元にAIが回答してくれるという、パーソナルAIを簡単に構築できるようになっています。このあたりはまさにAIの主戦場なので、今後ますます目が離せません。

(2024/9/1追記)
予想通り、主要プレイヤーのモデル競争が激化しています。OpenAIのGTP-4o、AnthropicのClaude 3.5 Sonnet、GoogleのGeminiがそれぞれアップデート重ねながら、性能を競っているような状況です。ただ全体の傾向として、フラッグシップモデルをどんどん追加するのではなく、より高速で、低コストなモデルを拡充させているような印象を受けます。GPT-4が登場してから1年半ほど経過していますが、そろそろ新しいフラッグシップモデルが出てきてもおかしくないかも知れません。

関連する動きですが、8/29に「OpenAIとAnthropic、AIの安全性で米政府と協力」というニュースが流れました。ここには、

両社は、主要な新しいモデルを一般提供する前後でリスクの評価・軽減が可能になるよう、USAISI(米国人工知能安全研究所)にアクセスを与えることに合意している。

ZDNET Japan

と書かれており、素直に読めば新しいモデルをリリースする前に米政府のチェックが入る、ということになりそうです。フラッグシップモデルがしばらく更新されていない背景には、こういったことも関係しているのかも知れません。

厳密にはチャットサービスではないですが、「Genspark」というサービスにも触れておきましょう。これはAI搭載検索エンジンというジャンルで、既にご紹介したPerplexityによく似ていますが、より広範囲にリサーチをしていそうなこと、ユーザーからの質問に基づいてリアルタイムでカスタムページを作るなど、検索体験の向上という意味で非常に注目されています。現在はベータ版として無料で提供されているので、興味がある方は是非試してみてください。

4. 最新のLLMモデル

チャットサービスやAIアプリケーションの根幹となるLLMは、日進月歩で進化を続けています。GPTやClaudeだけでなく、様々なモデルがどんどん作られています。ここでは、まだ紹介していない最新のLLMモデルをいくつか紹介します。

Llama3」は、Meta(旧Facebook)が開発したLLMです。オープンソースとして公開されており、無償で商用利用が可能です。性能についても、複数のベンチマークでGPT-3.5を上回るなど、高い性能を示しています。

Microsoftが開発した「Phi-3」は、正確にはLLMではなく小規模言語モデル(SLM)だそうですが、LLMに匹敵する高い性能を発揮します。小規模なため、スマートフォンやIoTデバイスなどのリソースが限られた環境でも動作します。

Command R+」は、CohereForAIが開発した大規模言語モデルです。GPT-4と同等以上の高い性能を発揮するとされており、さらになんとオープンソースで公開されています。ただしライセンスがCC-BY-NCなので、今のところ商用利用はNGです。

以上、最近話題になっている最新のLLMモデルを見てきました。どのモデルも、従来のLLMの課題を克服し、より高度な自然言語処理を可能にしています。今後も、さらなる進化を遂げていくことでしょう。

一方で、LLMの発展には課題もあります。モデルの巨大化に伴う学習コストの増大や、プライバシーの問題などが指摘されています。技術の進歩と、倫理的な配慮のバランスを取ることが、今後ますます重要になってくるはずです。

次の章では、ローカル環境でLLMを活用する方法を見ていきましょう。

(2024/9/1追記)
2024/07/23にMetaがLlama-3.1-405Bという巨大モデルを発表しました。パラメータの数が非常に大きく、とても個人のPCでは動かすことはできませんが、GPT-4oやClaude 3.5 Sonnetに匹敵するような性能が出ているようです。これがオープンソースで提供されている、というのはすごいことですね。

また、Llamaなどのオープンソースモデルを独自にチューニングする動きも活発になってきてます。

5. ローカル環境でのLLM活用

大規模なモデルを扱うには高性能なマシン(特にGPU)が必要であり、クラウド上で動かすことが一般的です。しかし、プライバシーなどの理由から、ローカル環境でAIを動かしたいというニーズも高まっています。前述したLlama3などのオープンソースモデルであればモデルをダウンロードし、自身のローカル環境で動作させることが可能です。

そこで活用したいのが、「LM Studio」「Ollama」「llama.cpp」などのツールです。「LM Studio」は、ユーザーフレンドリーなGUIを備えたデスクトップアプリケーションで、様々なモデルを簡単にダウンロード、実行することが可能です。

Ollama」は、Pythonベースのツールで主にLlama互換のモデルをローカルで動作させることができます。C++で実装された「llama.cpp」というライブラリも有名で、CPUのみで高速な推論が可能です。

ローカル環境でLLMを活用する大きな利点は、プライバシーとコストです。クラウドにデータを預ける必要がないので、機密情報を扱う場合も安心です。また、クラウドの利用料金がかからないので、長期的にはコストメリットがあります。

一方デメリットとしては、モデルの性能がクラウド版に劣ることが挙げられます。ローカルのGPUリソースには限りがあるため、最新鋭のモデルを使うのは難しいかもしれません。前述の通りLLMの実行にはGPU、特にVRAMと呼ばれるメモリの量が非常に重要なため、LLMをローカルで動かすために192GBのメモリを積んだMac Studioを購入する猛者も現れているとか。僕も密かに購入を考えていたりします。

ただ現実的には、用途に応じてクラウドとローカルを使い分けることになるのでしょう。機密性の高いタスクや大量のデータを扱う場合はローカル環境を、より高度な性能を求める場合はクラウドサービスを活用するなど。クラウドの利用料金が下がってきたり、ローカルモデルのサイズが小さくなったりすればまた状況は変わるかも知れません。

次は、LLMを簡単に使いこなすためのフレームワークを紹介します。

6. LLMフレームワークの活用

LLMを手軽に使えるようにするためのフレームワークも、様々なものが開発されています。ここでは、代表的なLLMフレームワークを紹介します。

LangChain」は、LLMを使ったアプリケーション開発を支援するPythonライブラリです。プロンプトテンプレートの管理、外部データとの連携、エージェントの実装など、便利な機能が盛りだくさんです。LLMを使う上で必要な機能を体系化してまとめているので、開発者の負担を大幅に軽減できます。

LangChainを、よりわかりやすくGUIベースで使えるようにしたのが「Langflow」です。ノードを繋げてフローを作るだけで、LLMを活用したワークフローが構築できるので、プログラミングの知識がなくても簡単に使い始められます。

他にも、「LangSmith」というLLMアプリケーションのDevOpsプラットフォームもあります。プロンプトのログ取得、監視、デバッグ、テストなどの機能を提供しており、LangChainで構築したLLMアプリケーションを本番環境に移行するのに適しています。

APIとの連携を容易にする「LangServe」は、LangChainのREST APIサーバとして機能します。WebアプリケーションからLangChainの機能を呼び出せるので、フロントエンド開発者にとって魅力的なフレームワークと言えるでしょう。

個人的に非常に注目しているのが「Dify」です。Difyは、ローコード・ノーコードでAIアプリケーションを作るためのプラットフォームです。ノードを繋げていくだけで視覚的にアプリを構築でき、APIを通じてGPTやClaude、Llamaなどの様々なLLMを柔軟に統合できます。また、RAG(LLMの知識を拡張する技術)やGoogle検索など、さまざまな便利ツールが予め用意されているのも特徴です。

LLMを活用する際は、これらのツールを上手く使い分けることが重要です。用途に合わせて最適なツールを選択し、開発効率を高めていきましょう。どれも比較的簡単に試せるようになっているため、どんどん試してみることをおすすめします。

さて、AIが得意とするのは自然言語処理だけではありません。次の章では、AIによる画像生成の話題に移ります。

7. AIによる画像生成

AIは、テキストだけでなく画像の生成も可能です。SNS等でも非常に話題になっていますが、その中心となっているのが、「Stable Diffusion」です。Stable Diffusionは、テキストから画像を生成するText-to-Imageと呼ばれる技術を用いたオープンソースのモデルで、2022年8月に公開されました。

Stable Diffusionでは、ユーザーがテキストで指示するだけで、その内容を反映した画像を生成できます。例えば、「on a beach at dusk, a boy stands still, holding a surfboard(夕暮れの海岸で、サーフボードを抱えた少年が佇んでいる)」と入力すれば、その情景を描いたリアルな画像が出力されるといった具合です。

実際に生成した画像(アニメ調のモデルを使用)

Stable Diffusionはオープンソースなので、自身のPCで動作させることができます。ただし、ある程度高性能なGPUが必要になるため、そんなPC持ってないよ!という場合はGoogle Colabなどのクラウド上で使うことも可能です。様々な拡張機能、追加学習されたモデル等がユーザーによって次々とリリースされており、自身でモデルの追加学習を行うことも可能です。それらを駆使することで、かなり作り込んだ画像も生成できるようになってきました。

また、Stable DiffusionのGUIツールである「ComfyUI」も注目です。Stable DiffusionにはAutomatic1111氏が開発した「Stable Diffusion web UI」がありとても人気ですが、ComfyUIはノードベースのエディタを備えており、より柔軟に画像生成のワークフローを組み立てることができます。動作も非常に高速です。

Stable DiffusionやComfyUIは、個人的にはだいぶハマっています。「ボタン押したら勝手に生成されるんでしょ?」と思うかも知れませんが、思った通りの画像を生成するのはそれなりに奥が深く、様々なテクニックや拡張機能などを駆使して良いと思える画像が生成できると、とても楽しいです。

有料の画像生成サービスも、続々と登場しています。「Midjourney」は、非常に高い品質の画像を生成できるサービスで、ユーザーはコミュニケーションツールであるDiscordを通じて生成コマンドを送信するだけで、手軽に画像生成を体験できます。個人的にはDiscordでの生成が少々使いにくいと感じてしまうので、現状一部のユーザーにのみ公開されているWebでの生成機能に期待しています。

NovelAI」は、その名の通り小説や二次元イラストの生成に特化したサービスです。アニメ調のキャラクターや背景に特に強みがあります。

また、OpenAIにも「DALL·E 3」という画像生成モデルがあります。DALL·E 3は、Stable Diffusionと同じくText-to-Imageの手法を用いて、リアルでディテールに富んだ高品質な画像を生成できます。ChatGPTに組み込まれており、簡単に使うことができます。

新しいツールだけでなく、AdobeのPhotoshopも負けていません。生成塗りつぶしという機能は、画像を拡張したり、不要なものを消したり、新しく書き加えたりといった作業をかなり高い精度で行ってくれます。仕事で使っても全く問題ないレベルになっていると思います。

今やAIは、私たちの創造力を拡張する新しいツールとして、画像の世界でも大きな可能性を秘めています。プロのクリエイターだけでなく、誰もが自由に画像を生み出せる時代が到来しつつあります。

一方で、AIによる画像生成には課題もあります。著作権やプライバシーの問題、倫理的な懸念など、技術の発展に伴って解決すべき問題は少なくありません。特に学習データに関わる著作権については様々な議論を呼んでいます。AIの力を正しく活用していくためには、技術的な進歩と並行して、社会的な議論も深めていく必要がありそうです。

画像に続いて、AIは音楽や動画の分野にも進出しつつあります。次は、その最新事情に迫ります。

(2024/7/2追記)
画像生成領域では、Stable Diffusion 3(以下SD3)が登場しています。従来のStable Diffusionはモデルそのものを公開していましたが、 SD3は先行してAPIを通じてのみ利用可能になっていました。それが6/12にミドルスペックと思われるStable Diffusion 3 Mediumというモデルが公開されました。実は僕はまだ触れていないのですが、ライセンスの解釈で不明確な部分があるようで、一部では若干炎上しています。今後の動向を見守りたいと思います。出力サンプルを見た限りでは、クオリティは確実に上がっていますし、文字が崩れずに出せるようになったのが大きいですね。

(2024/9/1追記)
画像生成領域では、かなり大きな動きがありました。まず、2024/8/1にBlack Forest Labsという会社からFLUX.1という画像生成AIモデルが発表されました。FLUX.1にはschnell、dev、proという3つのモデルがあり、最高性能のproはAPIのみを通じて提供されます。が、devは非商用であればダウンロードしてローカルで使用できます。このFLUXが非常にクオリティが高く、Stable DiffusionやMidjourneyなどの主要モデルの性能を上回るのでは、という意見もあります。

さらに、個人的にはすごく嬉しいニュースなのですが、MidjourneyがWebからの画像生成に正式に対応しました!インペイント(修正)のような機能もあるので、かなり使いやすくなったと思います。

続いて、GoogleからリリースされたImageFXという画像生成サービスが話題になっています。このサービスから出力される写真のクオリティがすさまじく、もはや本物の写真と区別がつかないくらいの品質になってきています。Googleアカウントがあれば無料で試せるはずなので、気になった方は是非試してみて下さい。

8. 音楽・動画生成AIの登場

テキストや画像だけでなく、音楽や動画の生成までもがAIの手に委ねられる時代になってきました。ここでは、話題の音楽・動画生成AIを紹介します。

Suno AI」や「Udio」は、いずれも音楽を生成してくれるAIです。ユーザーが歌詞やメロディーのヒントを与えると、それをもとにオリジナルの曲を作ってくれます。作曲のセンスがなくても、AIとコラボすることで自分だけの曲が作れるようになるかもしれません。

どちらも実際に試してみましたが、ボーカルも含めて「これホントにAIで作ったの?」と驚くようなクオリティの曲がサクッと作れてしまいました。ただ、作曲を少しかじった身からすると、作曲の体験とは少し異なるかも知れません。自分好みの曲をザッピングしている感覚に近いでしょうか。

動画の分野では、「Runway」が人気を集めています。テキストから動画を生成するText-to-Videoの機能を搭載しており、クリエイターの意図に沿った高品質な動画コンテンツを短時間で作れます。

さらに、最近AI界隈をざわつかせたのがOpenAIの「Sora」です。こちらもテキストの指示からリアルな動画を生成できる動画生成AIモデルです。

動画の生成は前述したStable Diffusionなどでもできたのですが、一貫性を保つのが非常に難しく、人物の顔や服装が動画の途中で変わってしまったり、不自然な動きをしたりするのが避けられませんでした。そのため様々な工夫をこらして安定した動画を生成できる方法が編み出されてきたのですが、その努力をあざ笑うかのように登場したSoraのデモは記憶に新しいです。

Soraはまだ一般には公開されていないので詳細は不明ですが、デモを見る限り、非常に高品質な動画が短いプロンプトで生成できるようです。映像制作ソフトのデファクトであるAdobe Premiereにも、Soraの機能が組み込まれる予定だそうです。実際にSoraを触るのが楽しみです。

このように、AI技術は私たちの創作活動の幅を大きく広げてくれそうです。音楽や動画の世界でも、AIとのコラボレーションが当たり前になる日が来るかもしれません。

ただし、創作物の著作権や肖像権など、法律面での整備も必要になってくるでしょう。各方面のクリエイターが、AIをうまく使って今後どのような創作文化を築いていくのか、注目していきたいですね。

さて、ここまで紹介してきたサービスやツールの他にも、AIの活用シーンは無数に存在します。次は、その他の注目ツール・サービスを見ていきましょう。

(2024/7/2追記)
動画領域でも、新しいサービスが登場しています。Luma Labsが6/13に公開したDream Machineというサービスは、動画の始点と終点をつなぐ高品質な動画が生成できると話題になっています。また、以前紹介したRunwayの新しいモデル、Gen-3 Alphaが7/1から利用可能になりました。OpenAIのSoraがなかなかリリースされない間に、他のサービスがSoraを超えてきているのではないか、という声も聞こえるようになってきました。

(2024/9/1追記)
2024/7/30、Runwayの最新モデルであるGen-3 Alphaにおいて、Image to Videoを使えるようにしたとの発表がありました。これは既存の画像から動画を生成する技術なのですが、かなり自然に動画化されます。そしてこの機能が真価を発揮するのは、最新の画像生成AIとの組み合わせでしょう。画像生成モデルの性能がものすごく上がっているので、まず静止画を生成し、それを動画化するというワークフローがSNSを賑わしています。

9. その他の注目ツール・サービス

ここまで、チャットサービスや画像生成AI、LLMフレームワークなど、様々なAI関連ツールを紹介してきました。最後に、その他の注目ツールやサービスを見ていきましょう。

Anysphere社の「Cursor」は、AIベースのコードエディタです。OpenAIのGPTモデルを使って、コーディング中に質問したり、コードの生成を依頼したりすることができます。Cursorは人気のコードエディタであるVisual Studio Codeをベースに開発されており、使い勝手や拡張機能等に互換性があるため、気軽に試すことができると思います。

MicrosoftとGitHubが共同開発した「GitHub Copilot」は、ソースコードの自動生成機能を備えたプログラミング支援ツールです。コメントから関数の実装を提案してくれたり、APIの使い方を教えてくれたりと、開発者の強力な味方となります。たまに的外れな提案もしてきますが、書こうと思っていたコードがそのまんま提案されてくることも多く、コーディングの時短に貢献してくれています。

さらに「GitHub Copilot Workspace」という、より広範囲に開発をサポートしてくれる機能も発表されており、これが使えるようになると開発プロセスそのものが大きく変わる可能性があります。

開発関連だと、OpenAIのAssistants APIに含まれる「Code Interpreter」、オープンソースの「Open Interpreter」、「OpenDevin」なども非常に注目です。いずれもLLMを使って対話形式で環境構築やコーディングを自動で行ってくれるツールで、全て試しましたがどれも非常に可能性を感じさせてくれるものでした。

僕はシステム開発の受注案件において、できる限りの作業をChatGPTにやらせてみたことがあります。設計からコードの生成、エラーの解消など、かなり幅広く使えましたし、コードに至っては80%〜90%くらいはChatGPTが書いたような気がします。ただあくまで主体は自分で、ChatGPTは細切れになったタスクをこなす、という構図でした。上記のような技術が実用的になってくると、いよいよ丸投げできる未来がくるのかも知れません。

Microsoftからは「Microsoft Copilot」というAIアシスタントがリリースされています。OpenAIのGPT-4をベースとしたサービスで、チャットを通じて文書作成、データ分析、コーディング、デザインなど、様々なタスクをサポートします。大きな特徴は、Word、Excel、PowerPointなどのOfficeアプリに組み込まれており、それぞれのアプリに応じた様々なタスクをこなせることです。

以上、駆け足で最新のAIツール・サービスを見てきました。他にも無数のAI関連プロジェクトがありますし、日々追いつけないようなスピードで新しいツールやサービスが続々とリリースされています。引き続きキャッチアップしていきたいと思います。次は、AIがもたらす未来について考えてみましょう。

(2024/9/1追記)
以前まではあまり詳しく書いてきませんでしたが、AIを使ったシステム開発領域も色々動きが出てきています。既にご紹介したCursorというエディタに、Composerという機能が追加されました。これは、AIに指示を出すと複数のファイルをまとめて編集してくれる機能です。開発などをされない方はふーん、という感じかも知れませんが、これは実は結構なインパクトがあります。

今までのツールでももちろんプログラムは書けたんですが、複数ファイルの扱いが非常に苦手でした。実際の開発では、プロジェクトの規模が大きくなればファイルは何十、何百という数になってきます。今までだと影響がありそうなファイルを自分でコピペしてAIに情報として与えたりしなければならなかったのが、かなり効率化できそうです。待望の書籍も出たので、今後も目が離せません。

あともう一つ。こちらも以前からあったのですが、「v0」というサービスが話題を呼んでいます。開発元は、Next.jsというJavaScript界隈では非常に有名なフレームワークの開発元でもある、Vercelという会社です。このサービスはチャットインターフェースを備えたUI生成サービスなのですが、非常に性能が上がってきました。UIだけでなくWebサイト、スライドデザインなどへの活用事例もあります。

10. AIの今後の展望

AIは、今や社会のあらゆる分野に浸透しつつあります。ここ数年の目覚ましい発展を振り返ると、今後も私たちの生活を大きく変えていくことは間違いなさそうです。

これからのAIの活用シーンとして真っ先に想像されるのは、ビジネスの効率化です。チャットサービスを活用したカスタマーサポートの自動化、画像生成AIを使ったデザイン業務の効率化、システム開発の自動化など、様々な場面でAIが人間の仕事を代替していくでしょう。これにより、人手不足の解消や、創造的な仕事へのシフトが期待できます。

また、教育の分野でもAIの活用が進みそうです。AIを活用したパーソナライズド学習により、一人ひとりの習熟度に合わせた最適な学習プランが提供されるかもしれません。言語学習や、プログラミング学習などでは、AIが個別指導の役割を果たしてくれるでしょう。

医療や福祉の分野でも、AIによる革新が期待されています。画像診断の精度向上や、創薬プロセスの効率化など、AIが医療の質を大きく向上させる可能性があります。介護の現場では、AIロボットが人手不足を補うことになるかもしれません。

一方で、AIの発展に伴う課題も指摘されています。AIによる雇用の代替が進むことで、失業者が増加するのではないかという懸念があります。倫理的な問題も議論の的となっており、AIが人間の価値観をゆがめてしまう危険性も指摘されています。

技術の発展は、常に光と影の両面を持つものです。AIという強力なツールをどのように活用していくか。私たち一人ひとりが真剣に考えていく必要がありそうです。

11. AIとの付き合い方

AIは、確かに私たちの生活を豊かにしてくれる存在です。しかし、だからと言って過度に依存してしまうのは危険です。AIに頼りすぎず、あくまで人間の創造性を拡張するためのツールとして活用することが大切だと思います。

AIを使いこなすためには、まずAIの特性を正しく理解することが重要です。AIはあくまで統計的なモデルであり、完璧ではありません。時にはバイアスのかかった回答をすることもあれば、事実と異なる情報を出力することもあります。そうしたAIの限界を知った上で、適切に利用していく必要があります。

前述の通りこの記事は下書きをAIに書いてもらったのですが、実際にかなり嘘が多かったです。しかも、自信がない感じではなく超もっともらしく書いてくるので、何も知らない人が読んだら信じてしまうでしょう。これをハルシネーション(幻覚)と言います。

真っ当なメディアであればきちんとチェックを入れるでしょうが、AIに大量生成させたテキストを自動的にWebやSNSに掲載、なんてこともどんどん増えてくると思います。直接AIを使う人はもちろん、情報収集する側も気をつけなくてはいけませんね。

強調したいのは、AIはあくまでツールであるということ。AIに任せられることは積極的に任せつつ、人間にしかできないことは人間がしっかりとこなすことが求められます。機械的な作業はAIに任せ、人間は創造的な仕事に専念する。そんな棲み分けが理想的だと言えるでしょう。

このあたりは、以前「AI時代をどう生きるか」という記事に書いたので、もし興味がある方は読んでみていただけると嬉しいです。

12. まとめ

この記事では、AIの基礎知識から最新のプロダクトまで、幅広く紹介してきました。ChatGPTに代表されるチャットサービス、Stable Diffusionなどの画像生成AI、LangChainなどのLLMフレームワーク、Llamaなどの最新モデルなど、AIの世界は急激に進歩しており、非常に幅広く、また奥深いものがあります。

これからのAIの発展は、私たちの生活やビジネスに大きな変革をもたらすことでしょう。一方で、AIとどう付き合っていくかは、私たち一人ひとりに問われる重要な課題でもあります。人間 vs AIという構図はSFなどでは定番のテーマで、映画「ターミネーター」や「マトリックス」のように、悲観的な未来が語られることも少なくありません。

ただ僕個人はそこまでネガティブに捉えてはいません。むしろ、この過渡期に立ち会えたことを楽しみたいと思っていますし、5年後、10年後、この世界がどうなっているかを想像するととてもわくわくします。AIは使いよう。うまく活用してより豊かな未来を創っていきましょう!

この記事を通じて、AIの現状を理解し、AIに興味を持っていただけたら幸いです。ここで紹介したサービスを実際に触ってみたり、AIについてさらに学んでみたりと、一歩ずつAIの世界に足を踏み入れてみてください。新しいものを理解するには、実際に触ってみるのが一番だと思います。きっと、新しい発見や驚きが待っているはずです。

長文を最後までお読みくださり、ありがとうございます。この記事の執筆にあたっては、なるべく正確な情報を平易な文章でお届けできるよう気をつけたつもりですが、根本的に僕の理解が誤っている部分や、噛み砕きすぎて正確性が損なわれてしまっている部分があるかも知れません。その場合は是非、コメントにてご指摘いただけるとありがたいです。また、こんなツールもあるよ!という情報がありましたら教えていただけると嬉しいです。


この記事が気に入ったらサポートをしてみませんか?