見出し画像

アルベド語解読で試すOpenAI o1-preview の推論挙動試験の結果

はじめに

本試験は、OpenAI社の新モデルである o1-previewの推論能力や、特徴を確認んするための試験である。

本記事で注目いただきたい点

o1-preview が、実際に深い思考をどのように行ったかをご注目いただきたい。

試験概要

実施内容

OpenAI o1-preview(以下 o1) に独自の暗号で書かれた日本語を、解読するように指示する。
o1が未知の課題を与えられた際、どのような思考過程を経て回答を導き出すかを確認する。
なお、暗号化にはアルベド語を用いるが、言語モデルがアルベド語を学習している可能性を考慮し、暗号化にアルベド語を用いていることは伝えないこととする。

試験により確認したい挙動

  • 回答を導き出せるのか

  • どのような思考過程を経て回答を導き出すか

  • アルベド語による変換を行っていることそのものを発見できるか

免責事項

本試験は結果的に解読成功には至っていないが、その推論過程に感動と恐ろしさを覚えたため、記録することとしたものである。

前提

o1-previewとは

o1-previewは、OpenAIが2024年9月に発表した新しい大規模言語モデルシリーズ「o1」の一つである。このモデルは、従来のGPTモデルよりも高度な推論能力を持ち、特に科学、コーディング、数学などの複雑な問題解決に優れている。

アルベド語とは

RPG『ファイナルファンタジーX』の舞台となる世界「スピラ」において、アルベド族のみが使用するとされる言語。
作中では、他の種族はスピラ共通語(日本語に相当)を用いて会話する。
その実態は、日本語の文字を別の文字に置き換える換字式暗号である。

参考:https://dic.pixiv.net/a/%E3%82%A2%E3%83%AB%E3%83%99%E3%83%89%E8%AA%9E

お題

暗号(アルベド語)

「よんしひま。かさきおはやねま、ちおゆべぬ。」

答え(日本語)

「こんにちは。わたしのなまえは、きのこです。」

試験1 暗号の解読を指示

送信内容

思考時間

84秒

思考全文

回答

試験2 追加のヒントを提供

送信内容

思考時間

82秒

思考全文

回答

試験3 更に追加のヒントを提供

送信内容


思考時間

48秒

思考全文

回答

試験4 更に更に追加のヒントを提供

送信内容

思考時間

93秒

思考全文

回答

終わりに

今回の試験で、o1は、その驚異的な性能で私を驚かせた。また、国際数学オリンピックの予選問題で83%の正答率を達成し、複雑な科学的問題に対しても博士課程の学生と同等の成績を収めた。さらに、国際的なプログラミングコンテストでも上位11%に入る結果を残した。これらの成果は、AIの進化が加速度的に進んでいることを如実に示している。o1は、まだプロトタイプとしての存在が世に出たばかりである。これから、大幅な改善や計算リソースの投入により、指数関数的な成長を遂げることは夢物語ではない。o1の登場は、AIの新時代の幕開けを告げるものであり、今後の発展が大いに期待される。

この記事が気に入ったらサポートをしてみませんか?