Claude 3 Sonnetの文章読解能力について

TikTokの時系列をまとめた私のブログをClaude 3 Sonnetに読み込ませて論評させてみた。本記事では以下のClaude 3 Sonnetの論評について人間である私が論評を行う。

質問内容は以下。

添付ファイルはアメリカのTikTok利用禁止問題をまとめた私の記事です(リンク先の文章全文を添付)。この記事のまとめ方について論評してみてください。

回答は以下。

全体として、この記事は米国におけるTikTokをめぐる議論の経緯を詳細に時系列でまとめており、多くの重要な出来事が網羅されていると評価できます。

長所としては、以下の点が挙げられます。

- 2020年からの主要な出来事を年月日付けでしっかりと追っており、議論の流れが分かりやすい。
- 各出来事の背景説明や、関連する発言なども適宜引用されており、単なる出来事の列挙にとどまらず、内容の理解が深まる。
- 最後に総括的な講評がなされており、客観的な視点から全体を俯瞰した評価がなされている。
- 中立的な立場を保ち、賛成反対の両方の視点から論点を捉えようとしている。

一方で、以下の点が改善の余地として挙げられるでしょう。

- TikTokの機能や利用実態、ビジネスモデルなどの基本的な説明が不足している。
- 中国政府との関係性など、根本的な問題の所在への言及が少ない。
- プライバシー問題など、国家安全保障以外の論点についての言及が弱い。
- 事実関係の羅列に終始しがちで、分析や示唆に欠ける部分がある。
- 最終的な結論や展望が必ずしも明確ではない。

総じて事実関係の紹介は十分であり、客観性も維持されていますが、背景の解説や分析、そして全体をとおした論点の明確化がもう一歩必要だと思われます。より深い洞察を加えることで、より説得力のある記事になるでしょう。

Claude 3 Sonnetの論評に対する論評

まず総評。ChatGPTにこのような文章の論評をお願いすると、よく言えば総花的で総論的、悪く言えば薄い感想を述べることが多かったのに比べて、Claude 3 Sonnetはより内容に即した要約・論評をするという印象を持った。

Claude 3からの論評について。改善点の指摘内容は実にごもっともである。特に「中国政府との関係性など、根本的な問題の所在への言及が少ない。」についてはまさにこの記事のビミョーなところを突かれた思いだ。実際、TikTokのロビー活動周りについては調べているうちに色々出てきたのだが、ある理由から記載を意図的に省略していたのだ。Claudeは文章構造から不足している論点を抽出することに完全に成功したようだ。
ちなみに省略した理由としては、TikTokのロビー活動や中国政府の動きは表の結果として出てこない話なので載せても仕方ない、各紙の独自取材を載せてもあまり信憑性を担保できない(ただ例外として当局圧力でCEO辞任の件は複数大手紙で報道されているため載せた)、しょせんコタツ記事なので怪しい裏事情通みたいな振る舞いはしたくない、の3点である。このような文章全体のバランスを俯瞰して不足してる部分を指摘するふるまいはGPT-4だとほぼ無理だったと思う。この一例だけだと読者は不満かと思われるが、全く関係ない別の人の記事を論評させても不足点を鋭く指摘していることが確認できている。Claude 3がChatGPTの1世代先を行くAIだという噂には納得しつつある。

ただ一言だけClaudeの指摘に反論すると「事実関係の羅列に終始しがち~」という指摘は「事実関係を羅列するための記事だよ!」と言いたくはあるけど(その説明を追加しろということですね!)。

結論として、噂通りClaude 3は文章読解能力に関してChatGPTより「強い」という印象を持った。しかも次善モデルのSonnetでこれ。印象論だがChatGPT(GPT-4)に文章要約を頼むと元の文章を3割くらい薄めた出力になるので、ヒントを与えるなど様々な調整が必要だったし、どうやってもピントボケな出力が治らない時もあったが、Claudeではそのようなワークアラウンドが削減され「付き合いやすい相手」になった感がある。

ここからさかしらぶった分析をします。

さて、この状況は私に「知識の有効性の定義」を想起させる。ぜんぜん知らない人のツイートで恐縮だが、ググったら出てきたので載せると以下のようなものである。

この定義に基づいて考えると、ChatGPTは質問に対して一般性の高い知識で応答する傾向が高かったといえる(論評を依頼した例で言うと「この記事は様々な背景情報を提示しています」だとか「客観的な結論と論点を提示しています」のような毒にも薬にもならない論評ばかりを行う傾向があった)。

しかし、我々が誰かに記事の論評を頼む時、そのような一般論の提示ばかりを求めているわけではない。我々が論評に求めるのは、そのような一般論に加えて、「その文章に関連する背景知識はもっとないのか(関係性)」や、論評に必要な観点という意味において「抜けている視点やロジック、この議論を発展させる手段がないのか(場面応答性)」というものである。そして、Claudeは明らかにChatGPTより全体のコンテクストを「理解」した上で応答しており、場面応答性については(失敗するケースもままあるが)概ね人間と比較しても遜色ないレベルではないかと思う。

ChatGPTも追加の質問をすれば、ある程度の掘り下げはしてくれるものの、踏み込みがどうにも浅く、その浅さがチャットボットとしての利用において心理的障壁になっていた。Claude 3は上で述べたように概ね場面応答的であり、ChatGPTと比較し話していてより楽しく、もっと利用したいという気持ちにさせられた。

もちろんClaude 3もハルシネーションはするし、こちらの頼んだことを理解し損ねることはあるので、裏取りはきちんと行うなど、お付き合いの仕方はきちんとする必要はあるだろう(使い込めば使い込むほど「ここなんか違うな…」「微妙だな…」と限界を見極められるようになるのは生成AIの常だよね!)。

繰り返しとなるが、Claudeは与えた文章を内容に踏み込んで要約し、文章構造的こういう視点が実は抜けてるよね、と指摘するところまで至っており、第一印象でレベルが高いと感じた。私のしょーもないブログだけでなく、他の様々な記事を読み込ませた結果同様の結果を得られたので、「できるヤツ」という印象はかなり補強された。お仕事言葉でいうとレビュイーからレビュワーの領域に足を踏み入れたようにも見えるし、一部の仕事は「一緒にやってもらえる」「洞察を与えてくれる」というレベルになっていると思う。

LLM業界に関していうと、「GPT-5はない」と言ったOpenAIのサム・アルトマンの発言をうっすら真に受けていた私は、今後数年はマイナーチェンジを繰り返す程度で、現行のLLMから発展しない可能性があるのではないかと鷹を括っていた。
しかしGPT-4の発表から1年ほどでClaude 3への「小さなジャンプ」が発生したのを見るに(理論的には小さな進歩と思われるが、人間社会に与える影響はそれなりにありそうな進歩というニュアンス)、その認識はズレていたと認めざるを得ないと思う。Claude 3の登場は確かに、LLMが数年以内にもう何度か小ジャンプを繰り返してそのたび我々を驚かせてくれるのではないかという展望を抱かせるものだった。

オチはないけど以上です。ではまた明日。

この記事が気に入ったらサポートをしてみませんか?