見出し画像

XのAI「Grok」を使ってみた感想

【結論】GPT-4が使いやすいわ

誰がおっさんやねん

以上。と締めくくりたいところですが、少しお話を。

Grokとは、イーロン・マスク氏率いるxAI社が昨年11月に発表したもので、X上で使用できるAIです。

それが、今年の5月8日頃、Xの課金グレード「プレミアム」以上で使用できるようになりました。将来的にはベーシックプランでも使えるようになるらしいです。

他社有料AI性能との比較はほぼ全敗だが・・・

他有料AIに軒並み負けてる

『負けてると言っても数%の違いやから、日常生活レベルなら問題ない。しかもGPT-4やClaude3 Opusは月額$20(3000円程度)やけど、Grokはプレミアム料金980円やからこれはお得!』

実際使うまでは、こう思っていました。この数%の差がここまでストレスを生むとは思いもよらなかったのです。

正しく日本語を理解してくれない

どのくらい日本語を理解しているか計測するために、実際の大学生を対象とした調査「大学生数学基本調査報告書(2013)」のある問題を、Grok、ChatGPT(GPT-4)Claude3 Sonnet、リートン(GPT-4)、Gemini 1.0に解かせてみました。

論理的文章を理解する力、論理を組み立てて表現する力を測る目的で出題されたものなので、これが解けると一目置かれるAIと言えるのではないでしょうか。

日本の大学生もかなり間違えたみたいですし笑

問題
 次の報告から、確実に正しいと言える番号とそうでないものの番号に分けてください。

『公園に子どもたちが集まっています。男の子も女の子もいます。よく観察すると、帽子を被っていない子どもは、みんな女の子です。そして、スニーカーを履いている男の子は一人もいません。』

1)男の子はみんな帽子を被っている。
2)帽子を被っている女の子はいない。
3)帽子を被っていて、しかもスニーカーを履いている子どもは、一人もいない。

https://mathsoc.jp/publication/tushin/1801/chousa-houkoku.pdf

答え言ってもいいですか?笑

・・・

・・

正解は1が確実に正しく、2と3が確実に正しいとは言えない、です。

解説は端折りますが、逆裏対偶の考え方があれば比較的楽にわかるのではないでしょうか。

それでは各AIの回答です。


Grok 不正解

Grok 不正解

確実に正しいと言える番号は、1と3です。

1)男の子はみんな帽子を被っている。
3)帽子を被っていて、しかもスニーカーを履いている子どもは、一人もいない。

そうでないものは、2)帽子を被っている女の子はいない、です。


Claude 3 sonnet 正解

Claude3 Sonnet 正解

確実に正しいと言える番号と、そうでない番号に分けると以下のようになります。

確実に正しい番号:
1) 男の子はみんな帽子を被っている。

そうでない番号:
2) 帽子を被っている女の子はいない。(報告からは確認できない)
3) 帽子を被っていて、しかもスニーカーを履いている子どもは、一人もいない。(報告からは確認できない)

報告によると、「帽子を被っていない子どもは、みんな女の子です」と述べられています。つまり、男の子は皆帽子を被っているということが確実に言えます。

一方で、帽子を被っている女の子がいるかどうか、また、帽子を被っていてスニーカーを履いている子どもがいるかどうかについては、報告からは確認できません。そのため、2)と3)については正しいか正しくないかを判断することはできません。


ChatGPT(GPT-3.5) 不正解

ChatGPT(GPT-3.5) 不正解

1) 正しいと言える番号: 3)帽子を被っていて、しかもスニーカーを履いている子どもは、一人もいない。

2) 確実に正しくないと言える番号: 1)男の子はみんな帽子を被っている。


リートン(GPT-4.0 Turbo) 正解

リートン(GPT-4)正解

この問題を解くためには、与えられた情報を慎重に分析する必要があります。以下がその分析です:

- 「帽子を被っていない子どもは、みんな女の子です。」という情報から、男の子は全員帽子を被っていると推測できます。従って、1)は確実に正しいと言えます。
- 同じく、「帽子を被っていない子どもは、みんな女の子です。」という情報から、帽子を被っている女の子がいる可能性を排除することはできません。つまり、2)は確実に正しいとは言えません。
- 「スニーカーを履いている男の子は一人もいません。」という情報だけでは、スニーカーを履いている女の子がいるかどうか、または帽子を被ってスニーカーを履いている子どもがいるかどうかは判断できません。従って、3)も確実に正しいとは言えません。

結論として、
- 確実に正しい番号:1)
- 確実に正しいと言えない番号:2)、3)


Gemini1.0 正解

Gemini1.0 正解

報告から確実に正しいと言える番号とそうでないものの番号

報告から確実に正しいと言える番号は 1番だけ です。

1番:男の子はみんな帽子を被っている。

これは、報告の中で明確に述べられているからです。「よく観察すると、帽子を被っていない子どもは、みんな女の子です。」という文から、帽子を被っていない子供は女の子しかいないことがわかります。そして、「公園に子どもたちが集まっています。男の子も女の子もいます。」という文から、公園には男の子も女の子もいることがわかります。よって、帽子を被っている子供は男の子だけということになります。

2番:帽子を被っている女の子はいない。

これは、報告からは確実にわかりません。

報告文では、帽子を被っていない子供は女の子しかいないとは述べられていますが、帽子を被っている女の子がいるかどうかは明記されていません。可能性としては、帽子を被っている女の子がいてもいなくても矛盾は生じません。

3番:帽子を被っていて、しかもスニーカーを履いている子どもは、一人もいない。

これは、報告からは確実にわかりません。

報告文では、スニーカーを履いている男の子は一人もいないとは述べられていますが、帽子を被っていてスニーカーを履いている女の子がいるかどうかは明記されていません。可能性としては、帽子を被っていてスニーカーを履いている女の子がいてもいなくても矛盾は生じません。

結論

報告から確実に正しいと言えるのは、1番:男の子はみんな帽子を被っている。 だけです。

2番と3番は、報告文からは確実な判断ができません。より多くの情報が必要となります。


正解したClaude3 Sonnet、リートン、Gemini1.0は無料というから驚きです。

公式発表の性能では、GrokはClaude3 Sonnetより賢い項目が多数あったので、せめて正解はしておいてほしかったです。

理解力不足によるストレス

オウム返しやめぃ

Xのポストを読み取るとのことでしたので、「下記のポストに対するリプライの反応をまとめてください。」と指示を出しました。

すると、適当なリプライを抽出して、それぞれの内容を微妙な日本語で説明しだしました。全体の動向を把握したかったので、画像の質問をしたのですが、当たり障りのない反応。

具体的に聞くと、キャパオーバーしたのかオウムになりました

なぜか急に英語

また、それまで日本語で会話していたにも関わらず英語で返したり、

怖い

ユーモアを超えてちょっと不気味な回答をしたり、

会話しようぜ

一個前の会話を覚えていないポンコツぶりなど、ChatGPTに課金していたときには味わったことのないストレスに、多々直面しました。

課金ならChatGPTかClaude3がよさげ

ChatGPTも課金して1ヶ月試しました。Grokで経験したような理解力不足のストレスはほとんどなく、商用利用可能のDALL-E3を使ったイラスト作成も非常に便利でした。

また、Claude3はまだ課金していませんが、無料のClaude 3 sonnetでもGPT-3.5より性能が良いです。専門的な使い方をしないのであれば、Sonnetでも十分な気がします。

現在の感覚では、ChatGPTに課金して、サブでClaude 3 sonnetを使う感じがベストかなと思います。

GeminiはGemini1.5 proが日本で利用可能になったら試してみようと思います。確か無料期間があったはず・・・。

この記事が気に入ったらサポートをしてみませんか?