プロンプトエンジニアリング:ReActとCoTの違い
プロンプトエンジニアリングのReActとCoTの違いをお話しします。
自律ソフトウェアエージェントのプロンプトOpenAIが2021年にプログラミングに関して提案したベンチマークがHumanEvalです。これはプログラミングの課題ですが今では易しすぎると言われています。Claude 3.5 Sonnetなら92%を解くことができます([anthoropic])。
より難しい実世界でのバグ修正問題としてプリンストン大学が2023年に提案したのがSWE-benchです([swe