見出し画像

LLM関連ブックマーク(週毎)をまとめる作業をLLMにやらせてみる

はじめに

X(旧twitter)で、気になるLLM関連のツイートをブックマークして、これを週末に、まとめる作業を1年ぐらい続けている、完全にボケ防止であるが、進展の早いLLM業界をせめて表層だけでも追っていくと何か変わるのか、変わらないのか、と、思い、続けている。元となるポスト(ツイート)に載ってる情報を1段ぐらいリンクをたどって情報を追加することはたまにあるが、すべてオープンな情報である。

ずっと人力で、表面的な情報の、まとめのパラグラフを書いていたのだが、なんか、目も悪くなり、疲れてきた。そこでLLM(gpt-4o)でこれが代替できないかやってみた。

サンプルブックマーク

2024年7月15日版(その前の週のブックマーク)が今回の入力

LLM(gpt-4o)にお願いしてみた

以下のLLM関連ブックマーク集より、LLMの最新動向をまとめる文章を作って。箇条書きは避けること、話しかける口調で、ときどきユーモアを交えて。

LLM(gpt-4o)の回答は、、

最近のLLM(大規模言語モデル)の進展はめまぐるしく、そのおかげで私たちはたくさんの新しい技術やコンセプトに出会うことができました。最新の動向をいくつかご紹介しますね。

まずは、「GraphRAG」についてです。これは一見、初めて聞いたときには図書館の司書さんのように思えるかもしれませんが、実際にはAIにとって画期的な技術なんです。GraphRAGは、検索強化型生成(RAG)とクエリに焦点を当てた要約(QFS)を組み合わせ、これまでの技術が大規模な文書群に対する全体的な質問にうまく対応できなかった問題を解決します。まるでAIが賢い図書館員になったかのようですね。

次に、「MInference 1.0」。こちらも非常に興味深い技術です。Microsoftが開発したこの手法は、長い文脈を持つLLMの推論高速化に特化しており、動的な疎アクセス(Dynamic Sparse Attention)を用いることで、精度も速度も犠牲にしません。一台のA100 GPUで100万トークンを処理する際に10倍ものスピードアップが可能なんです。一言で言えば、AIにとっては「速足の忍者」という感じですね。

また、Google Cloud TPUsがHugging Faceのユーザーに提供されるようになったというニュースも注目です。これにより、機械学習のデモや簡単なトレーニングがますます手軽になるでしょう。そして、TPUメモリは16GBから128GBまでと、かなり頼もしいです。これでAiが作るアートプロジェクトも更にレベルアップするかも?

ユニークなトピックとしては、「TerifAI」というAIも話題です。これは、声のフィッシング詐欺を実演する教育的なAIなんです。その名も「Terrify(怖がらせる)」という恐ろしげな名前がついていますが、正しく使えば非常に教育的で、有害な行為に対する意識を高めるのに役立ちます。

さらに、Gemma2のトークナイザーにまだ不具合があるという話もありました。これを報告したのは、画像生成AIで有名な「stable-diffusion-webui」の作者で、一部の人たちは彼のことを「AUTO」や「AUTOMATIC」と呼びます。ちょっと「自動販売機」みたいな愛称ですね。

最新の研究では、「RankRAG」も注目です。これはNVIDIAが開発したもので、GPT-4モデルを9つの知識集約型ベンチマークで大きく上回りました。その秘密は、新しいインストラクションファインチューニングのフレームワーク「RankRAG」にあります。これにより、従来のRAGが持っていた問題、すなわち上位Kコンテキストのみを活用するという問題を解決します。

また、「Language-Guided World Models」というアプローチも登場しました。これは、AI制御に対するモデルベースのアプローチであり、多数のエンティティ相互作用を含む概念での構成的な一般化を実証するものです。

最後に、スポーツ愛好家には特に興味深いかもしれませんが、「Football Analytics with Python and R」という書籍もあります。これを使えば、スポーツを通してデータサイエンスを学ぶことができ、しかも面白いデータセットや実践的な問題解決方法が含まれています。

これらの進展により、LLMの可能性はますます広がりつつあります。技術者も研究者も、もちろんユーザーも、これからの進化を楽しみにしていきましょう。そして、時にはちょっとしたユーモアも交えながら、技術の世界をもっと楽しくしていければと思います。

gpt-4o(2024.7.14)

改良

これで十分な感じもしますが、もう少し、いじってみます。

すこしユーモアを控えめにして、それから、メイントピック→各社の動き→理論面の進展→哲学的あるいは人文的な話題というような順番にまとめなおせないか、最後は、何かのオチで結ぶようなのがいいな。

得られたまとめ

最近のLLM(大規模言語モデル)の進展は目まぐるしく、そのおかげで私たちはたくさんの新しい技術やコンセプトに出会うことができています。ここで、その最新動向をいくつかの観点からご紹介します。

まず、メイントピックとして注目すべきは、「GraphRAG」です。これは、検索強化型生成(RAG)とクエリに焦点を当てた要約(QFS)を融合した新しいアプローチで、従来の方法が大規模な文書群に対する全体的な質問にうまく対応できなかった問題を解決します。また、NVIDIAの「RankRAG」も特徴的で、GPT-4モデルよりも大きな成功を収めています。これは新しいインストラクションファインチューニングのフレームワークを採用しており、モデルがコンテキストランキングと回答生成を同時に行えるようになっています。

次に、各社の動きを見てみましょう。Microsoftが発表した「MInference 1.0」は、長い文脈を扱うLLMの推論速度を劇的に向上させる技術です。A100 GPUで100万トークンの処理速度を10倍にすることができ、既存のモデルにそのまま適用できる点でも注目されています。また、Google Cloud TPUsがHugging Faceのユーザーに提供されるようになり、これにより機械学習のデモやトレーニングが一層手軽になります。TPUメモリは16GBから128GBまで選べるため、多様なニーズに対応可能です。

次に、理論面の進展について触れてみます。「Dynamic Sparse Attention」や「RankRAG」の技術は、計算効率と精度の両立を目指しており、現実の応用においても大きな可能性を秘めています。また、「Mixture of A Million Experts」という技術も、エキスパートを小さく数多くすることで性能を向上させる新しいアプローチです。このように、理論的な進展は実用的な応用と密接に結びついています。

最後に、哲学的あるいは人文的な話題として、AIの知能レベルに関する議論も興味深いです。Google DeepMindのデミス・ハサビスCEOは、「現時点での汎用AIは猫程度のIQしかない」と主張しています。これに対して、OpenAIもAIの進歩についてレベル分けを行い、現在の技術は「レベル1」にあり、博士レベルの教育を受けた人間と同等の基本的な問題解決能力を持つ「レベル2」に近づいていると述べています。こうした視点は、AIが人間とどのように共存し、発展していくのかを考える上で重要です。

さて、ここまで多くの技術とその進展について触れてきましたが、一つ言えることがあります。AIやLLMの発展は技術を超えて、私たちの日々の生活に直接影響を与えるものです。それは、まるでSF映画が現実化するようなもので、驚きと興奮をもたらします。そして、技術だけでなくそれを支える理論や哲学的な議論も欠かせない要素です。最終的に、私たちがこれからどうAIと向き合っていくか、そうした選択が未来を形作るのかもしれません。

最後に少しのユーモアを交えて締めくくりましょう。最新のAI技術には、まさに「新しい冒険」が詰まっていますが、どうか皆さん、AIが次に何を「思いつく」のか、しっかり見届けてください。誰もが予想しなかったアイデアが、ふと生まれるかもしれませんよ。

gpt-4o(2024.7.14)

人の書きし物との比較と、改良(メタ認知能力の活用)

さて、このブクマに対する、私の手書きまとめはこちら。

先週公開された、GraphRAG関連の、チュートリアル公表や評価がすすんでいます。RAGとQFSのギャップをうめる一手法であるというのはなんか納得。Gemma-2:9bでもGraphRAGが動くという報告も。Gemma2は、tokenizerに不具合があるらしいが、AUTOMATIC1111さんが動いているなら、治るのは時間の問題。さてRAGの対抗馬?としてすぐに話題になるのは、ロングコンテキスト、マイクロソフトからは1Mトークン処理を10倍とうたうMInference 1.0が登場、Dynamic Sparse Attentionって魔球のような技術を使うのね、デモサイトで試してみるのもよいかも。Interface 8月号特集は「生成AI」、LoRaもこれで手を動かして理解が進む。NVIDIAからは、RankRAGが登場、context rankingという仕掛けをLLMに埋め込んだということらしい。ローカルな知識を高精度で使えるから、オンプレでGPUどんどん買ってねということか。Unslothからはgemma-2(9b)でファインチューニングの速度が2倍になったと、、colabでも試せるのか?。Transformerの次のアーキテクチャの1つだとされる、Mamba-based Language Modelsの定量的な評価が出てきた、相当期待がもてそう。先週の自然な会話ができるオープンソースのMoshiもすごかったのだけど、TerifAI (terrify) ってのも、自分声をまねることができるなんて、もうオレオレ詐欺LLMの登場は時間の問題だ、最初に「オレオレだけど、、」と発する規制が必要。Artifactsで快進撃のClaude、今度は作ったArtifctsのライブプレビューにURL公開機能が搭載って、これはすごすぎでしょう、どういうエコシステムができるんだろうか?。プロンプトの自動生成や評価機能を備えて、1世紀分のプログラミングの歴史をおそらく1年でトレースするというのも納得な動き。アルトマン氏とハフィントン氏によるThrive AI Health、行動を変えることにより健康になるというのは、なんか耳が痛いが、期待できそう。Ollama 0.2、gemma-2対応のバグとかも治ったみたいだど、複数のモデルを並列に動作可能とのこと、これって、モデルとLlamaGuardのようなLLMによるセーフガード実装を同時に動かすことができるということだ。理論面では、強化学習の概念を取り入れたQ*アルゴリズム、またまた話題になる。LLMの多段推論をマルコフ決定過程でモデル化し、A-starサーチで探索するってどれだけ計算コストがかかるのか。岡野原さんの、非平衡熱力学と拡散モデルの接点の論文の紹介、大学生(3年生)との共著というのが、驚きだ。MoEはエキスパートを小さく数を増やすほど性能が改善されるのか、それにしても100万のエキスパートってどうやって作るの?llamaindexからは、llama-agentsを発表、そういえば、Claudeが5月に発表したサービス「Tool Use」って自律的に動くエージェントに備えたという話も、今週あった。DeepMindのハサビス氏、「現時点での汎用AIは猫程度のIQしかない」と、歩調をあわせるように、OpenAIからは、人間の知能にどれだけ近づいたか」を評価する5段階のレベルの基準を公開、現在のAIはレベル1でもうすぐ「Reasoners」と呼ぶ第2レベルに到達できそうとのこと。猫でも十分な気もするが。。地味ですが新刊「Pythonで学ぶ実験計画法入門」、みなさんタイトルは控えめですが、ガウス過程回帰や、ベイズ最適化の本ですよ。

gpt-4o(2024.7.14)

これとの比較をお願いしてみた

以下は、同じLLMブックマークに対して、A氏のまとめである。これと先ほど生成されたまとめとを比較し、プロコン分析してみて。

##A氏のまとめ

gpt-40様のお答えは、、、

総じて、A氏のまとめはテンポが良く、読みやすいスタイルで多くの技術的細部を網羅しています。一方、先ほど生成されたまとめは、構造が明確で哲学的な背景までカバーしており、全体として非常に包括的です。

何を重視するかで評価は変わります。技術的な詳細や実用性、軽快なリズムを求める読者にはA氏のまとめが適しているでしょう。逆に、全体のバランスや深い理解、そして信頼性を重視する読者には、先ほど生成されたまとめがより適しています。

最後に、どちらのアプローチが優れているかは、読者のニーズによって異なります。しかし、どちらもAIと、人間がどのように共存し、発展していくのかを考える上で、非常に有用な情報を提供していることに変わりありません。これからも技術の進展を見届け、次にAIが何を「思いつく」のか楽しみにしていきましょう。

gpt-4o(2024.7.14)

つぎに、このプロコン分析の結果をもとに、まとめを直してもらった。

このプロコン分析の結果を踏まえて、まとめを修正してみて。

結果は、

最近のLLM(大規模言語モデル)の進展はめまぐるしく、そのおかげで私たちはたくさんの新しい技術やコンセプトに出会うことができています。ここで、最新の動向をいくつかの観点から整理してみましょう。

まず、メイントピックとして注目すべきは「GraphRAG」です。これは、検索強化型生成(RAG)とクエリに焦点を当てた要約(QFS)を融合した新しいアプローチで、従来の方法が大規模な文書群に対する全体的な質問にうまく対応できなかった問題を解決します。さらに、NVIDIAの「RankRAG」は、GPT-4モデルを超える性能を示しており、LLMにコンテキストランキング機能を統合することで、より高精度な回答を提供します。

次に、企業の動向を見てみましょう。Microsoftが発表した「MInference 1.0」は、長い文脈を持つLLMの推論速度を劇的に向上させる技術です。A100 GPUで100万トークンの処理速度を10倍にすることができ、既存のモデルにそのまま適用可能である点が特筆されます。また、Google Cloud TPUsがHugging Faceのユーザーに提供されるようになり、これにより機械学習のデモやトレーニングが一層手軽になります。TPUメモリは16GBから128GBまで選べ、多様なニーズに対応可能です。

さらに、実用性重視の技術進展も見逃せません。例えば、UnslothからはGemma-2(9b)でのファインチューニング速度が2倍に向上した報告があり、これによりより効率的なモデル学習が可能となります。また、「TerifAI」は、AIが声を模倣する技術で、教育的な側面と同時にフィッシング詐欺への注意喚起も兼ねています。軽いユーモアを交えて取り組むこの技術は、実務に即した問題解決に役立つでしょう。

理論的な進展では、「Dynamic Sparse Attention」や「RankRAG」の技術が、計算効率と精度のバランスを取る新たな手法として注目されています。また、「Mixture of a Million Experts」は、エキスパートを小規模に分割し性能を向上させるアプローチで、エキスパート数を100万にまで増やすことが可能です。これらの理論的進展は、実務的な応用へと橋渡しする重要な要素です。

哲学的および人文的な話題として、AIの知能レベルに関する議論も興味深いです。Google DeepMindのデミス・ハサビスCEOは、「現時点での汎用AIは猫程度のIQしかない」と主張しています。これに対して、OpenAIはAIの進歩を5段階に分けて評価し、現在の技術が「レベル1」で、博士レベルの基本的な問題解決能力を持つ「レベル2」に近づいていると述べています。こうした視点は、AIが人間とどのように共存し、発展していくのかを考える上で重要です。

総じて、最近のLLMの進展は技術を超えて、私たちの日常生活に直接的な影響を及ぼしています。技術者も研究者も、そしてユーザーも、この進化を楽しみながら未来を見据える必要があります。しかし、AI技術の進展を見守るだけでなく、それをどのように利用し、適応させるかも重要な課題です。これからも技術の進歩を見届け、次にAIが何を「思いつく」のか、しっかり注目していきましょう。最も予想外のアイデアが、ふと生まれるかもしれませんから。

メタ認知的な反省

今の答えは、どのような観点から何を修正した?

答えは、

今の答えでは、以下の観点から修正を行いました:
### 観点
1. **情報の一貫性とバランス** - 各トピックがどのように連携し、全体的なストーリーとして一貫性を持っているかを意識しました。
2. **情報の深さと幅** - 技術的な詳細と哲学的・人文的背景のバランスをより良く取りました。技術的な詳細と同時に、その意義や背景も説明することで、読み手が文脈を理解しやすくします。
3. **読者の多様性** - 専門家から一般読者まで、さまざまな読者層に対応できる内容にしました。技術的側面と哲学的側面の両方をカバーすることで、幅広い読者にとって有益な情報にします。

### 修正点
1. **メイントピックの強調**
- GraphRAGとRankRAGをメイントピックとして取り上げ、その意義と技術的背景を詳しく説明しました。
2. **企業の動向**
- MicrosoftのMInference 1.0やGoogle Cloud TPUsの提供といった各社の取り組みを具体的に説明し、実用性と技術的な進展を強調しました。
3. **実用的な技術進展**
- UnslothのファインチューニングやTerifAIといったすぐに試せる実用的な技術にも言及し、読者が実際に試せる情報を提供しました。
4. **理論的進展**
- Dynamic Sparse AttentionやMixture of a Million Expertsといった理論的な進展に触れ、その計算効率や性能向上のポイントを説明しました。
5. **哲学的・人文的な視点**
- AIの知能レベルに関するGoogle DeepMindやOpenAIの視点を紹介し、技術の背景にある哲学的な問題にも言及しました。
6. **ユーモアのバランス**
- ユーモアを控えめにしつつも、結びとして少し軽いタッチを加え、全体のトーンを和らげました。
以上の修正により、情報の一貫性と深さを持ち、多様な読者層に対応する内容とすることができました。同時に、技術的な詳細と背景をバランス良く取り入れ、読者の理解を促進することを目指しました。

恐れいいりました



この記事が気に入ったらサポートをしてみませんか?