大規模言語モデル(LLM)やそのツールの情報整理2024.12版

2024年12月1日 22:54

Claude/Anthropicはデータ分析・視覚化ツールとかの進化で前回も取り上げたけど、ビジネス的にも広げているようで

Claudeに新機能「分析ツール」　csvを読み込みデータ分析・視覚化 Anthropicは24日、AIサービスのClaude.aiに新機能「analysis tool(分析ツール)」を追加した www.watch.impress.co.jp

AnthropicとPalantir、AWSとの提携で米国防衛機関に「Claude 3」提供を開始 | Ledge.ai AIに関するニュースや記事を独自の切り口から発信します。 ledge.ai

機能としては「Model Context Protocol」、前回紹介した機能の延長線上で想像できる人もいるかもだけど、そこまでできましたかと僕は驚き。個人的にはBraveのSearch APIを使うところなんか好感度アップ

Anthropic、AIシステムと外部データソースを統合する「Model Context Protocol」を発表 | Ledge.ai AIに関するニュースや記事を独自の切り口から発信します。 ledge.ai

Anthropic’s Claude Agents —Simple demo of building powerful AI multi-agents using Claude Model… Wanna drive your business with AI Agents? ajay-arunachalam08.medium.com

APIもプロンプトライブラリも充実してるし、日本語でも提供してるし、文書生成AIとしてはAnthropicになりつつあるなぁ

Home - Anthropic docs.anthropic.com

ライブラリ - Anthropic docs.anthropic.com

OpenAIも「ChatGPT Search」でリアルタイム検索をできるようにしてきているけれど、

「ChatGPT Search」は実際なにができるのか？ | ライフハッカー・ジャパン OpenAIがChat GPTに検索機能を搭載。果たして、何ができて、検索結果はどんな感じなのか。 www.lifehacker.jp

ChatGPTにリアルタイム検索機能がやってきたヤァ！ヤァ！ヤァ！ やっとChatGPTに真の｢使える感｣が…。生成AIのChatGPTに感じてきた不満のひとつが｢正確なソースを示してくれ www.gizmodo.jp

そこはPerplexity AIやFeloといったサービスの方がまだ優秀なのよね

Perplexity AIとChatGPTの違いは何なのか？今話題の対話型検索AI「Perplexity」を徹底解説 Perplexity AIとChatGPTの違いは何なのか？今話題のPerplexityを解説 www.mdn.co.jp

「SNSに強い」AI検索エンジン・Feloがかなり優秀だった！たった10秒で検索結果がスライドに | ライフハッカー・ジャパン 国産AI検索エンジン・Feloならスライド作成が10秒で完了。SNSから最新情報を取得できてかなり優秀です。 www.lifehacker.jp

あなたの作業を超効率化する、すごいAIサービス10選【2024年最新版】 (1/5) ChatGPTは使っているけど、他のAIサービスについてはどれを使えば何ができるのかわからない。そんな人に向けて、いま注目 ascii.jp

もちろんChatGPTは先行者としていろいろできるのは認めた上でです

大規模言語モデルとチェスAIで対決させるとほとんどの大規模言語モデルがズタボロに負ける中なぜか「gpt-3.5-turbo-instruct」だけが圧倒的勝利 AIが興隆を迎える近年、さまざまな企業が独自の大規模言語モデルをリリースしています。こうした大規模言語モデルをチェスの標準 gigazine.net

ただビジネスの最前線においては競合はどんどん出てくる訳で

DeepL翻訳やGoogle翻訳を超える精度の無料翻訳サービス「Kagi Translate」が登場 新たな翻訳サービス「Kagi Translate」が登場しました。無料で使えてページ全体の翻訳も可能なうえ、DeepL翻訳 gigazine.net

SB Intuitions、日本語に特化した4,000億クラスのパラメータを持つモデルを公開アカデミアや産業界の研究開発に資するために、4,000億クラスのパラメータを持つ日本語LLMを公開 | プレスリリース | SB Intuitions株式会社 SB Intuitions、日本語に特化した4,000億クラスのパラメータを持つモデルを公開アカデミアや産業界の研究開発 www.sbintuitions.co.jp

自社開発のマルチモーダル基盤モデルを用いたYahoo!オークションの出品審査効率化 LINEヤフー Advent Calendar 2024の参加記事です。こんにちは。LINEヤフーのFoundati techblog.lycorp.co.jp

オープンソースのコード生成LLMが商用LLMに追いつく Qwen2.5-Coderの能力値全容 | AIDB 本記事では、コード生成に特化したLLM「Qwen2.5-Coder」の研究成果を紹介します。 ai-data-base.com

アカデミアの最先端においてもAI活用の話は出てくるわけで。googleはコッチでは今でも強いな、ビジネス側だと誤った多様性に毒されてか出力とかビミョーなことは今でもあるけど。

A new golden age of discovery In this essay, we take a tour of how AI is transforming scien deepmind.google

世の中のあらゆる“未知の物理現象”を予測できるAI「Newton」　元Googleの研究チームが開発 元Googleの研究者らが立ち上げたAIチーム「Archetype AI」は、あらゆる物理現象を理解し予測するAIモデルを www.itmedia.co.jp

東京大学とGoogleがAI分野の社会連携講座を設置 | 東京大学 www.u-tokyo.ac.jp

2024-08-13 The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 技術レポート この技術レポートは、Sakana.ai社の The AI Scientist: Towards Fully Automat automation.jp

FrontierMath衝撃の結果：GPT-4やGemini 1.5も歯が立たない、AIの数学的推論能力の現在地 - イノベトピア 研究グループEpoch AIは2024年11月11日、最新のAI数学能力評価ベンチマーク「FrontierMa innovatopia.jp

LLMの活用で時系列データの予測制度を向上：ニュース記事やイベント情報などのテキストデータと数値データを統合する新手法 | Ledge.ai AIに関するニュースや記事を独自の切り口から発信します。 ledge.ai

LLMの概念空間の構造解明：脳のような機能別「領域」仮説　MITの研究チームが発表 | Ledge.ai AIに関するニュースや記事を独自の切り口から発信します。 ledge.ai

SLM（Small Language Models）もいろいろ出てるのでサーベイ論文を

A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness Large language models (LLM) have demonstrated emergent abilit arxiv.org

と様々なAIが出てくると比較評価も大変になる訳で、以前もベンチマークは取り上げたけど、こちらも事実性評価とか日本語対応LLM性能評価とかいろいろ出てきた

日本語対応LLM性能を可視化する「オープン日本語LLMリーダーボード」公開 | Ledge.ai AIに関するニュースや記事を独自の切り口から発信します。 ledge.ai

OpenAIが新しくLLMの事実性評価ベンチマーク『SimpleQA』をリリース実用に役立つ知見も得られる | AIDB 本記事では、OpenAIが新しく開発した、LLMが事実に基づいて回答する能力を評価するための新しいベンチマーク「Simpl ai-data-base.com

世界が注目したAppleのAI性能評価論文、MistralやOpenAIの新画像モデルにも脚光 　2024年10月のSNS言及数で世界首位だったのは、米Appleのデータサイエンティストチームが大規模言語モデル（LLM xtech.nikkei.com

プロンプトとかRAGとか実装テクニックの記事で面白そうなものを。

Chain-of-Thought Reasoning Without Prompting In enhancing the reasoning capabilities of large language mod arxiv.org

グーグルも注目プロンプトエンジニアリングの最前線「Prompt Poet」が示す可能性 | AMP[アンプ] - ビジネスインスピレーションメディア ampmedia.jp

System Prompt Engineering Guide - Qiita 今回は真面目に、生成AI（LLM）に設定する「システムプロンプト」についてまとめてみました。現在日本では、複雑な論理構造の qiita.com

Prompt Style（プロンプトスタイル）
プロンプトエンジニアリング入門
令和トラベル Dify講座（社内イベント資料）

WebページをRAGしたい時の精度向上手法「HtmlRAG」 zenn.dev

書評『LangChainとLangGraphによるRAG・AIエージェント入門』 - Algomatic Tech Blog こんにちは。NEO(x) の宮脇（@catshun_）です。 2024年もあとひと月程となりましたね。今年は多くの企業か tech.algomatic.jp

AIエージェントのしくみと技術：RAGベースとワークフローベース | gihyo.jp 今回の記事では、『図解即戦力　ChatGPTのしくみと技術がこれ1冊でしっかりわかる教科書』では触れられなかった「AIエー gihyo.jp

Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning Autoregressive language models, despite their impressive capa arxiv.org

AHP-Powered LLM Reasoning for Multi-Criteria Evaluation of Open-Ended Responses Question answering (QA) tasks have been extensively studied i arxiv.org

AHPを使うと評価能力が上がるって本当か試してみたくなるなww

いいなと思ったら応援しよう！

#生成AI
#LLM
#Claude
#ベンチマーク
#Anthropic
#SLM
#AHP

くすぐったがり

データ利活用まわりでサービス企画してるチーフなんたらサイエンティスト。なおX/twitterもnoteも私個人の意見であり、所属する組織の見解ではありません。匿名垢のくせしてですが一応ww