ジョン・J・ミアシャイマー、スティーブン・M・ウォルト「リービング・セオリー・ビハインド: なぜ単純な仮説検証は国際関係に悪影響を及ぼすのか。」

2022年3月10日 03:11

概要

理論構築と仮説検証は、どちらも社会科学の重要な要素であるが、最終的には前者の方がより重要である。しかし、近年の国際関係学の研究者は、理論の構築や改良、あるいは理論を実証研究の指針とすることにあまり力を入れておらず、実証的な規則性を発見することを重視する「単純化された仮説検証」を重視している。しかし、理論への配慮が不十分だと、経験モデルの仕様が間違っていたり、重要な概念の測定値が間違っていたりするため、単純な仮説検証を重視するのは間違いである。また、国際関係学のデータの多くは質が低いため、これらの努力が蓄積された知識を生み出す可能性は低くなる。このように、理論から離れて単純な仮説検証に向かう傾向は、国際関係学の分野を専門化して拡大したいという長年の願望と、個々の研究者の短期的なキャリアインセンティブを反映している。この傾向は、象牙の塔と現実の世界との間のギャップを広げ、国際関係学の研究が政策立案者や関心のある市民にとって有用ではなくなってきている。残念ながら、このような傾向は、一般的な学術的インセンティブを変えるための集団的な決定がなされない限り、今後も続くと思われる。

はじめに

国際関係学の分野では、理論が重要な役割を果たしている。その理論家たちは、この分野で最も有名で権威のある学者たちである。例えば、2009年に発表された「TRIP Survey of International Relations Scholars」では、「過去20年間でIR(国際関係論)の分野に最も大きな影響を与えた学者」として、ロバート・コヘイン、ケネス・ウォルツ、アレクサンダー・ウェントの3人が挙げられている。この3人はいずれも主要な理論家であり、その評判は実証的な研究というよりも、彼らが提唱したアイデアに基づいている。ブルース・ブエノ・デ・メスキータ、バリー・ブザン、マーサ・フィネモア、サミュエル・ハンティントン、ロバート・ジャービス、ピーター・カッツェンスタイン、スティーブン・クラズナー、スーザン・ストレンジをはじめとする他の学者は、IRの研究課題を形成し、場合によっては政策論争に影響を与えるようなアイデアを開発した人物である（Jordan et al., 2009: 43, 45, 47）。

さらに、IRの古典的な書籍は、ハンス・モーゲンソーの『国際政治』、ケネス・ウォルツの『国際政治の理論』、トーマス・シェリングの『紛争の戦略』、ヘドリー・ブルの『国際社会論』、ロバート・コヘインの『覇権後の国際政治経済学』、アレクサンダー・ウェントの『国際政治の社会理論』など、事実上、理論を盛り込んだ作品ばかりである。論文についても同様で、1982年にジョン・ラギーが『International Organization』誌に寄稿した「embedded liberalism（埋め込まれた自由主義）」、1983年にマイケル・ドイルが『Philosophy and Public Affairs』誌に寄稿した「Kant, Liberal Legacies and Foreign Affairs（カント、リベラルな遺産と外交）」、1995年にジェームズ・フィアロンが『International Organization』誌に寄稿した「戦争の合理主義的説明」などの有名な論文が主流となっている。

最後に、一連の壮大な理論、あるいは「イズム」と呼ばれるものは、長い間、国際政治の研究を形成してきた。その中でも最も著名なものは、構成主義、自由主義、マルクス主義、現実主義である。TRIP（Teaching, Research, and International Policy）調査の著者数名による最近の論文は、これらの理論群の影響をうまくまとめている。「米国の大学院セミナーでは、IR理論におけるさまざまな『イズム』を前進させたり批判したりする読み物が散見される…同様に、IRの入門コースや学部生向けの教科書も、これらのパラダイムを中心に構成されていることが多い」。さらに、「この分野が主にパラダイムによって組織されているという見方は、教室でも再現されている」。今日、米国の大学やカレッジでは、IR入門コースの内容の40％以上がリアリズムとリベラリズムで構成されているという。つまり、IRの世界では理論が最も重要なのだ。

しかし、逆説的ではあるが、米国のIR研究者が理論に真剣に注目する度合いは低下しており、今後もさらに低下する可能性が高い。具体的には、理論を構築したり、慎重に採用したりすることから離れ、いわゆる単純な仮説検証を重視するようになってきている。この分野では、理論の役割はほとんどなく、データの収集と実証的な仮説の検証に労力が割かれている。

この傾向は、TRIP調査にも反映されている。IR研究者のうち、定量的手法を主に採用しているのは半数にも満たないが、「主要ジャーナルに掲載された論文のうち、定量的手法を採用しているものは、他のどの手法よりも多い」という。実際、「定量的手法を用いた論文の割合は、統計的手法を主要な方法論としている学者の実際の数とは大きく異なっている」という。最近のアメリカ政治学会（APSA）のIR関連の求人情報を見ると、方法論の専門家が強く求められており、理論家の求人情報はほとんどない。TRIP調査の著者は、定量的手法を好む「強い偏見」が、「若手研究者が統計学を主要な方法論として使うように訓練されることが多くなった理由を説明できるかもしれない」と指摘している(Maliniak et al., 2011: 439, 453)。

理論を犠牲にして方法を重視する傾向は、特に国際政治経済学（IPE）のサブフィールドで顕著である。ベンジャミン・コーエン（Benjamin Cohen）（2010: 887）は、過去40年間のIPEの歴史を振り返って、「米国の主要ジャーナルに掲載される内容の特徴は…劇的に変化した」と指摘している。現在、これらの雑誌のページを埋め尽くしているのは、「最も厳密で最新の統計的方法論を用いた」研究である（Oatley, 2011; Weaver et al.）かつてIPEの文献の中で重要な役割を果たしていた理論的な議論は、重要性を失っている。

実際、上級IR研究者の中には、この分野の壮大な理論に反発する人もいる。例えば、デビッド・レイクは、2010年の国際学会（ISA）会長講演で、「イズム」を「宗派」や「病理学」と表現し、「重要なことを研究する」ことから注意をそらすと述べている（Lake, 2011: 471）。したがって、「パラダイムにとらわれない研究の割合が、1980年の30％から2006年の50％へと着実に増加している」ことは驚くべきことではない（Maliniak et al.2011: 439）。もちろん、グランドセオリーを軽蔑しつつ、ミドルレンジのセオリーを提唱することは可能であり、実際にレイクはそのようにしている。しかし、この分野はそのような方向には進んでいない。また、形式的な理論や数学的な理論に注目しているわけでもない(Bennett et al., 2003: 373-374)。むしろ、あらゆる種類の理論に注意を払わず、単純な仮説検証に向かっている。

この傾向は、理論に対する方法の勝利を意味している。ここ数十年、IRをどのように研究するかについての議論は、主に質的アプローチと量的アプローチのメリット、あるいは新しい方法論的手法の美点に焦点が当てられてきた。このように理論よりも方法を重視するのは、IR研究者が意識的に決定したわけではなく、学術界の重要な構造的特徴が意図せずにもたらした結果である。

破滅への道

私たちは、理論を軽視し、仮説検証を重んじることは間違いだと考えている。仮説を立てて検証することが重要でないということではない。適切に行われれば、それは社会科学の中核的な活動の一つだ。とはいえ、理論の構築と改良は、この事業における最も重要な活動である。国際システムには固有の複雑さと多様性があり、利用可能なデータの多くが問題を抱えているため、IRにおいては特にそうである。もちろん、学者は独自の理論を生み出す必要はないし、既存の理論を改良する必要もない。しかし、社会科学者が理論をしっかりと理解し、研究の指針として賢く利用することは必要なことである。

著名な方法論学者であるクリストファー・アッシェンは、政治学者が理論を軽視して「退屈な仮説検証」を行うとどうなるかをまとめている。この分野の現状は憂慮すべきものである」と彼は書いている。「我々は懸命に努力してきたにもかかわらず、新しい統計的手続きのほとんどに正当な理論的ミクロの基礎を与えられておらず、量的作業の真の課題である信頼できる経験的一般化の発見が困難になっている」(Achen, 2002: 424, 443; Braumoeller and Sartori, 2004; Schrodt, 2006, 2010; Signorino, 1999)。

理論が貴重なのには多くの理由がある。世界は無限に複雑であるため、人間の活動のさまざまな領域で何が重要であるかを特定するためのメンタルマップ（あるべき姿）が必要だ。特に、繰り返し行われる行動を説明する因果関係のあるメカニズムを特定し、それらがどのように関連しているのかを明らかにするためには、理論が必要となる。また、仮説を正しく検証するためには、きちんとした理論が必要である。理論に基づかない高度な検証は、誤った結果を生む可能性が高い。

結論としては、理論を軽視し、仮説検証を重視することは、国際政治に関する新しい知識を得るための最善の方法ではない。どちらの活動も学問の進歩には重要だが、理論構築にはより多くの注意を払うべきであり、仮説検証はより密接に理論と結びつけるべきである。

注意点

本稿は、質的手法と量的手法のメリットを比較したり、質的手法がIRの研究に適していると主張したりするものではない。むしろ、理論がどのように検証されるかにかかわらず、理論が研究プロセスを導く上で中心的な役割を果たすべきだと主張している。ここでは主に量的研究に焦点を当てているが、それはこの分野の研究の多くが量的研究を採用しているからだ。しかし、私たちの主張は質的研究にも同じように当てはまり、質的研究でも理論に十分な注意を払っていない例は数多くある。つまり、私たちの主な関心事は、理論と経験的研究の関係であり、量的・質的アプローチの相対的なメリットではない。

また、ここでは特定のIR理論を主張しているわけではない。私たちは共にリアリストの伝統に基づいて活動しているが、国際政治がどのように機能するかを理解するためには、ミドルレンジの理論を含む様々な種類の理論が有用であると考えている。私たちの考えでは、多様な理論の生態系は、知的なモノカルチャー（単一文化）よりも好ましい。

私たちは、既存のIR理論には重大な欠陥があることを認識しており、優秀な理論家たちが地球を闊歩していた、過ぎ去りし「黄金時代」を懐かしむ気持ちにはほど遠いものがある。既存の理論を解明し、よりよい理論を開発するためには、多くの課題がある。とはいえ、この分野の進歩は、主に理論を洗練された方法で発展させ、利用することにかかっていると私たちは考えている。

もちろん、私たちは仮説を検証する最近の論文をすべて読んだわけではない。しかし、私たちは広く読み、仮説検証の伝統に携わる専門家にこのジャンルの最良の作品を紹介してもらった。また、私たちと同じような批判をしているこの分野の評価も調べた。私たちが指摘した問題点は明らかに周知の事実であり、それを解決するための努力もなされている。しかし、現代のIR研究は依然として理論を軽視しており、この傾向はIRの将来にとって好ましいものではない。認識論に関しては、いわゆる実証主義的なアプローチを中心にIRを行っている。したがって、批判的理論、解釈主義、解釈学、構成主義のいくつかのバージョンについては議論していない。これは紙面の都合もあるが、実証主義が主流であるアメリカのIRに焦点を当てているためだ。TRIP調査の著者が指摘しているように、「アメリカのIRは圧倒的に実証主義である」（Maliniak et al.2011: 439, 455）。米国以外の地域、特にヨーロッパでは、認識論的にもっと多様であり、単純な仮説検証を重視していない。

要するに、この論文は，、般的な仮説検証と特に定量分析に反対する2人の不機嫌な現実主義者による懇願ではない。私たちの立場をはっきりさせると、私たちは仮説検証を優れた社会科学の中核的要素と考えている。私たちが言いたいのは、この活動は洗練された理論の知識によって導かれなければならず、現代のIR奨学金はこの要件を無視しているということだ。

我々の議論は以下のように構成されている。まず、理論とは何か、なぜそれが必要なのか、そしてどのように検証すべきかを説明する。また、科学的実在論と道具論の重要な違いについても説明し、他の多くの実証主義者と我々のアプローチを区別する。次に、単純な仮説検証と、その理論への配慮のなさから生じる問題点について説明する。

次に、このアプローチがもたらす重大な問題にもかかわらず、IRがなぜこの方向に向かっているのかを考察する。この議論の中で、仮説検証が重視されるようになったことで、IRの学問が政策の世界での議論との関連性を失っていることを探る。最後に、IR研究者が理論をより重視するように促す方法について、いくつかの提案をする。しかし、現在の傾向を覆すことは、我々が推測する以上にIR分野が修正に寛容であることを証明しない限り難しいだろう。

理論と社会科学

理論とは何か？理論とは、現実を単純化したものだ。世界が特定の領域でどのように機能するかを説明するものである。ウィリアム・ジェームズの有名な言葉を借りれば、私たちを取り巻く世界は「咲き乱れる、ざわめく混乱」の一つであり、無限に複雑で理解するのが難しいものだ。それを理解するためには、理論が必要となる。つまり、どの要素が最も重要なのかを決める必要がある。このステップでは、研究対象の現象を説明するのに重要ではないと考えられる多くの要素を除外する必要がある。必然的に、理論は最も重要な要素に絞ることで世界を理解できるようになる。

つまり、理論は地図のようなもので、複雑な現実を単純化して理解しようとするものだ。例えば、アメリカのハイウェイマップには、主要都市、道路、川、山、湖などが描かれている。しかし、個々の木や建物、ゴールデンゲートブリッジのリベットなど、あまり目立たないものも多く含まれている。地図も理論と同様に、現実を簡略化したものである。

しかし、地図とは異なり、理論は因果関係を示すものである。具体的には、ある現象を一つまたは複数の要因で説明できるというものだ。繰り返しになるが、理論は、世界がどのように機能するかを説明するためにどのような要因が最も重要であるかという単純化された仮定に基づいて構築されている。例えば、リアリストの理論では、大国間の戦争の勃発は勢力均衡を考慮することで説明でき、国内政治には説明力がないとするのが一般的だ。一方、リベラリズム的な理論の多くは、その逆を主張している。

理論の構成要素は、概念や変数と呼ばれることがある。理論は、これらの重要な概念をどのように定義するかを述べており、それには主要なアクターについての仮定が含まれる。また、理論は独立変数、介入変数、従属変数がどのように組み合わされるかを明らかにし、それによって検証可能な仮説を推論することができる（つまり、概念がどのように共食いすると予想されるか）。最も重要なことは、理論は、期待される結果を生み出す因果関係のメカニズムを明らかにすることで、特定の仮説が真であるべき理由を説明することだ。これらのメカニズムは、多くの場合、観察不可能だが、現実の世界で実際に起こっていることを反映していると考えられる。

理論は一般的な説明を提供する。つまり、時空を超えて適用される。しかし、社会科学の理論は普遍的なものではなく、特定の活動領域や特定の時代にのみ適用されるものだ。また、理論の範囲も大きく異なる。リアリズムやリベラリズムなどの大規模な理論は、国家の行動パターンを広く説明することを目的としているが、いわゆる中規模の理論は、経済制裁、強制、抑止など、より狭い範囲で定義された現象に焦点を当てている。

社会科学の理論は、すべての関連するケースを説明するものではない。どんなに優れた理論でも、それを否定するようなケースは必ずある。理由は簡単で、通常はあまり影響を与えないという理由で理論から除外されていた要素が、特定の事例では大きな影響力を持つことがあるからだ。このような場合、理論の予測力は低下する。

理論は、その完成度や構築の丁寧さによって大きく異なる。よくできた理論では、前提条件や主要な概念が注意深く定義され、それらの概念がどのように相互に関連しているかが明確かつ厳密に述べられている。関連する因果関係のメカニズムは、理論から除外される要因と同様に、よく特定されている。よくできた理論は反証可能であり、自明でない説明を提供する。最後に、このような理論は曖昧さのない予測をもたらし、その境界条件を特定する。

これに対して、カジュアルな理論や不十分な理論、あるいはフォーク・セオリーと呼ばれるものは、ざっくりとした形で述べられている。主要な概念は十分に定義されておらず、それらの間の関係（因果関係も含めて）はゆるやかに規定されている。冷戦時代に大きな影響力を持っていたドミノ理論は、フォーク・セオリーの良い例だ。私たちは、今日のIRで行われている仮説検証の多くは、カジュアルで不完全な理論を用いていると考えている。

私たちが考える理論とは、数学的な言語を用いた形式的な理論と、普通の言語を用いた非形式的な理論が同じように適用される。理論は究極的には想像力の産物であり、その理論がIRの特定の領域に重要な洞察を与えるかどうかよりも、その理論を表現する言語（それが数学的記法であろうと言葉であろうと）の方が重要である。重要な基準は、その理論が説明力を持っているかどうかであり、形式的か非形式的かは関係ない。

エピステモロジーについて–科学的実在論と道具主義

理論に関する私たちの見解を明確にするために、認識論について簡単に説明する。読者の皆様の中には既に知っている人もいると思われるが、私たちの視点は科学的実在論である。私たちにとって理論とは、世界がどのように動いているかを正確に反映した記述で構成されている。理論には、現実の世界に存在する実体やプロセスが含まれる。したがって、理論を支える前提条件は、政治生活の特定の側面を正確に反映するか、少なくとも合理的に近似したものでなければならない。仮定は、正しいか間違っているかを示すことができ、理論は現実的な仮定の上に成り立つべきだと、私たちは信じている。それは、一部の社会科学者が主張しているように、面白い理論を生み出すための「便利なフィクション」ではない。科学的実在論者にとって、合理的な行動者という仮定は、現実世界の関連するエージェントが戦略的に行動する場合にのみ意味を持つ。そうでなければ、結果として得られる理論はあまり説明力を持たないだろう。

さらに、理論を支える因果関係のストーリーも現実を反映したものでなければならない。言い換えれば、研究されている実際の現象を生み出すのに役立つ因果メカニズムは、理論で説明されている通りに実際に動作しなければならない。もちろん、ほとんどの理論には、観測可能なメカニズムだけでなく、観測不可能なメカニズムも存在する。観測できないメカニズムである重力の重要性は、私たちが宇宙を理解する上で中心的な役割を果たしている。また、多くの国際関係論では、不安が重要な役割を果たしている。不安は観察できない精神状態であり、直接測定することはできない。しかし、学者たちは、リーダーたちの言動の中に、不安の存在を示す証拠を見出すことができる。科学的実在論者は、理論がうまく機能するためには、観察できないものが現実を正確に反映していなければならないと考える。つまり、理論の予測が経験的な観察によって確認されるだけでなく、観察された結果が正しい理由で発生していなければならない、つまり、理論の現実的なミクロの基礎から流れ出る因果論理を介して発生していなければならない。

これに代わる主な認識論は道具主義である。これは、理論の仮定が現実に適合している必要はないと主張するものだ。実際、ミルトン・フリードマン (1953)は、理論の前提条件が現実を反映していないほど、その理論はより強力になる可能性が高いと主張した。この考え方では、前提条件は、理論を生み出すための有用なフィクションに過ぎない。例えば、道具主義者は、合理性を仮定することで正確な予測を生み出す理論が生み出されるのであれば、アクターが合理的であるかどうかは気にしない。言い換えれば、理論の仮定の有用性は、その予測が確認されるかどうかによってのみ決定される。

道具義者は、理論には現実世界で実際に起こっていることを反映する因果メカニズムが含まれているという考えを否定する。このような考え方は、因果関係の中心にある観察不能なメカニズムに注目しても何の得にもならないという信念に基づいている（Chakravartty, 2011: 4）。計量主義者にとって、科学とは観察可能なものを測定することであり、その結果、仮説検証が促進される。

道具主義者は、理論は明確に定義された概念を含み、論理的に一貫していなければならないと認識している。一貫性のあるストーリーを語るためには、理論の因果論理を重視する。ポール・マクドナルド (2003: 555)が言うように、「道具主義者は、理論を仮説を生み出す装置として扱っているだけであり、仮説が確認されるかどうかだけで理論の価値が決まる」のだ。

私たちは、科学的実在論のほうがより説得力のある認識論だと考えている。道具主義者は、理論の仮定や因果関係のストーリーが現実と食い違っていても、理論が正確な予測を生み出すことができると信じるように求めている。マクドナルド (2003: 554)が指摘するように、「理論的な仮定が虚構であるならば、間違った理由で正しい仮説を生成しない限り、経験的に有用であるとは考えられない」。あるいは、ヒラリー・パットナムの有名な言葉にあるように、「奇跡」を生み出さない限りは、そうではない（1975: 73）。定義上、理論は膨大な数の要因を除外し、関連するアクターについて単純化した仮定を採用している。しかし、優れた理論は、抽象化または単純化されているとはいえ、現実の世界を正確に描写していなければならない。地図は必然的に現実を単純化するものだが、シカゴがボストンの東に位置するようなロードマップは役に立たない。理論は、その構成要素が現実世界を正確に反映している場合にのみ、健全な仮説と有用な説明を生み出す。

理論の検証方法は？

理論を評価する方法は3つある。1つ目は、論理的な整合性を検証することだ。貴重な理論の中には、論理的な欠陥があったとしても、時間の経過とともに解決されたものもあり、論理的な一貫性はあらゆる理論にとって重要な品質である。

2つ目の方法は共分散であり、仮説検証の出番である。AがBを引き起こすという理論があれば、AとBが共分散しているかどうか、入手可能な証拠を検証することが目的である。しかし、相関は因果ではない。つまり、AがBを引き起こしていることを示す必要があり、その逆ではない。このような問題に対処するために、研究者は、観察されたデータから因果関係についての結論を引き出す方法を規定した、様々な因果推論のテクニックに頼っている。本質的には、因果推論は相関分析であり、慎重な研究デザインと適切なコントロール変数を用いて、AのBに対する独立した因果効果を明らかにするものである。

理論を検証する3つ目の方法は、プロセストレーシングである。ここでの目的は、理論が描く因果メカニズムが、現実の世界で実際に機能しているかどうかを判断することだ。例えば、民主主義国同士が争わないのは、紛争の平和的解決へのコミットメントを共有しているからだと主張する学者がいるが、そうであれば、二つの民主主義国が互いに戦争の危機に瀕していたときに、そのような理由で戦いを避けたという証拠があるはずだ（Layne, 1994）。要するに、プロセストレーシングは、理論の主要な予測を支える説明の正確さを検証することに焦点を当てている。

プロセストレーシングは、理論が論理的に一貫しているかどうかを判断する第1の方法とは根本的に異なる。プロセストレーシングでは、理論の説明論理の経験的なパフォーマンスを検証することを目的としている。その点では、同じく経験的なパフォーマンスを評価する仮説検証と似ている。

3つの方法はいずれも理論を評価するための有効な手段であり、実際には互いに補完し合っている。理想的な世界では、すべての方法を採用することができるが、その方法は必ずしも現実的ではない。学者がどの方法を使うかは、パズルの性質、関連する証拠の入手可能性、そして自分の比較優位によって決まる。

私たちとは対照的に、道具主義者は、プロセストレーシングが理論を検証するのに役立つとは考えていない。彼らにとっては、理論が論理的であることを確認し、その予測を検証することが、理論の価値を評価する唯一の有効な方法である。したがって、仮説を評価するために統計学に依存する学者が、道具主義的な認識論を採用することが多いのは当然のことである。

前述のように、社会科学の理論は100％正確ではない。しかし、ある理論が多くの事例に対して検証され、そのほとんどを説明できるならば、その理論に対する信頼性は高まる。もし、ある理論が1つだけ誤った予測をしたとしても、他の理論がうまく機能していれば、私たちはその理論が有用であると考える。また、弱い理論であっても、現実世界の状況が変わることで、より有用になることがある。例えば、「経済の相互依存が戦争を抑制する」という理論は、グローバル化によって大国同士が争うことのコストが下がったことで、過去よりも現在の方が有効になっているかもしれない（Brooks, 2007）。

最後に、どのような理論をどのように考えるかは、最終的にはその理論が競合するものと比較してどうかということになる。ある理論に欠陥があることがわかっていても、より優れた理論がなければ、欠陥があってもその理論を支持するのは当然のことだ。弱い理論であっても、理論がないよりはましであり、欠陥のある理論が、よりよい新しい理論を考案するための出発点になることもよくある。

理論の重要さ

理論が重要な理由はたくさんある。第1に、理論は、無数の活動領域で起きていることを包括的に把握するための枠組み、つまり「全体像」を提供する。事実を集めるだけでは、無限に複雑な世界を理解することはできない。カール・フォン・クラウゼヴィッツ（Carl von Clausewitz）（1976: 145, 577-578）は、このことをはっきりと理解していた。「将来の将軍の教育を、すべての詳細についての知識から始めることが必要である、あるいは有用であると考える者は、常に馬鹿げた教育者として嘲笑されてきた」。さらに、「人間の心の活動は、ある種のアイデアのストックなしには不可能である」とも言っている。つまり、理論が必要なのである。

つまり、理論とは、さまざまな現象を経済的に説明するためのものである。観察された現象を解釈し、異なる仮説を結びつけることで、単なる断片的な知見の集合体ではなくなるのだ。経済学者が理論を、ケインズ主義、マネタリズム、合理的期待、行動経済学などの学派に分類するのはそのためだ。IR研究者が自分の理論を「イズム」と呼ぶのも同じ理由からだ。

理論はあらゆる分野で必要だが、複雑で多様な分野であればあるほど、心の地図に頼らざるを得ない。IRが理論を重視するのは、それが巨大で複雑な宇宙を理解しようとするものだからだ。デビッド・レイク (2011: 467)は、「国際政治学は、可能な限り大きく、最も複雑な社会システムを扱っている」と指摘している。この複雑さが、この分野における「多様な研究の伝統」の一因であると彼は指摘している。さらに、IRの研究者は、一見多様に見える文脈がなぜ十分に類似しているのかを説明する理論を呼び出すことができない限り、ある文脈で得られた知見が別の文脈でも適用されると仮定することはできない。これらの理由から、IRは政治学や社会科学の他の分野に比べて、理論への依存度が高いのである。

第2に、強力な理論は私たちの思考に革命をもたらす。重要な問題に対する我々の理解を変え、理論が利用可能になる前はほとんど意味をなさなかったパズルを説明することができる。例えば、ダーウィンが人類の起源やその他多くの現象についての人々の考え方に与えた影響を考えてみよう。ダーウィンが進化論を発表する前は、神が人類を創造したと考えていた人が多かったが、ダーウィンの理論はその考えを覆し、多くの人が神や宗教、生命の本質についての考え方を変えるきっかけとなったのである。

また、規模は小さいが、多くの集団行動に見られる「フリーライド」という現象がある。これは一見不可解な行動だが、オルソン（1965年）らが「フリーライドは多くの状況で完全に合理的である」と説明したことで明らかになった。オルソンの論理を理解した人々はフリーライドをするインセンティブが高まるからである。ダーウィンやオルソンのようなシンプルで強力な理論に比べれば、個別に検証された数多くの仮説の影響力ははるかに小さかっただろう。

第3に、理論は予測を可能にする。これは、私たちの日常生活を営む上でも、政策立案の上でも、社会科学を発展させる上でも必要不可欠だ。私たちは、常に将来の結果を考慮して意思決定を行い、望ましい目標を達成するための最良の戦略を決定しようとしている。簡単に言えば、私たちは未来を予測しようとしている。しかし、未来の多くの側面は未知であるため、ある戦略を選択した場合に何が起こりうるかを予測するためには、理論に頼らざるを得ない。

第4に、これまでの議論で明らかなように、政策問題を診断し、政策を決定するためには、理論が不可欠である。政府関係者は、理論は学術的な問題であり、政策決定には関係ないと主張することが多いが、この考えは間違っている。実際、政策立案者が理論に頼らざるを得ないのは、彼らが未来を形成しようとしているからであり、それはつまり、何らかの望ましい結果につながることを期待して意思決定を行っているということである。つまり、彼らは原因と結果に関心があり、それが理論のすべてなのだ。政策立案者は、少なくとも漠然とした理論がなければ、どのような結果を期待して決断を下すことはできない。ロバート・ダールはこう述べている。「政策に関心を持つということは、意図された効果を生み出そうとする試みに焦点を当てることである。したがって、政策を考えることは、因果関係を考えることであり、そうでなければならない。」

第5に、効果的な政策評価には理論が不可欠である（Chen, 1990）。優れた理論は、特定のイニシアチブが機能しているかどうかを判断するために使用できる指標を特定する。例えば、対反乱戦の理論が、反乱軍を大量に殺害することが勝利の鍵であると示唆している場合、死体の数は進捗状況を評価するための明らかな基準となる。しかし、心をつかむことが成功の鍵であるとする勝利理論であれば、信頼性の高い世論調査がより良い指標となるだろう。つまり、効果的な政策評価には、優れた理論が必要なのだ。

第6に、理論の蓄積は遡及を可能する。理論があれば、過去をさまざまな方法で見ることができ、歴史をよりよく理解することができる（Trachtenberg, 2006: ch. 2）。たとえば、民主的平和仮説は、1980年代初頭まではほとんど認識されていなかったが、その後、学者たちはこの仮説を用いて、過去にさかのぼって平和な時代があったことを説明している（Doyle, 1983; Weart, 1998）。同様に、第一次世界大戦の起源に関する「攻撃の文化（cult of the offensive）」という解釈（Lynn-Jones, 1995; Van Evera, 1984）も、1970年代半ばに攻撃防御理論（offense-defense theory）が生まれる前には存在しなかった。もちろん、新しい理論を検証するには、その理論が正しい場合に歴史的記録が示すべきことを問うこともできる。最後に、新しい理論は、過去の出来事を説明するための代替手段を提供するものであり、既存の歴史的説明を批判するためのツールとなる。

第7に、理論は、事実が乏しいときに特に役立つ。信頼できる情報がない場合、私たちは分析の指針として理論に頼らざるを得ない。冷戦時代にジャック・スナイダー（1984/1985）が指摘したように、ソ連に関する信頼できる事実が少ないために、その閉鎖社会の内部で何が起こっているかを理解するためには、理論に頼らざるを得なかった。しかし、慣れ親しんだ理論を、適用できない状況に適用してしまう危険性は常にある。しかし、信頼できる情報が少ない場合には、理論に頼らざるを得ない。

理論は、歴史的に前例の少ない新しい状況を理解するために特に有効である。例えば、1945年に核兵器が発明されたことで、新たな戦略的問題が発生し、それが抑止力理論やその他の関連するアイデアの発明につながった（Kaplan, 1983: ch.6; Wohlstetter, 1959）。同様に、新しい環境問題は、天然資源をより効果的に管理するためにエリナー・オストロムがノーベル賞を受賞した研究にインスピレーションを与えた(Ostrom, 1990)。最後に、一極集中の到来により、この新たな権力構造が世界政治にどのような影響を与えるかを説明するために、新たな理論を構築する必要がある(Ikenberry et al., 2011; Monteiro, 2011/2012; Wohlforth, 1999)。

第8に、詳しくは後述するが、理論は有効な実証実験を行うために不可欠である。仮説検証を行うためには、しっかりとした理論が必要だ。特に、理論の蓄積は、学者が認識していなかった因果関係を示唆することができ、そのために分析を省略することができる。さらに、重要な概念を定義し、それを運用し、適切なデータセットを構築するためにも、理論は不可欠である。測定されるものやカウントされるものが、関心のある概念を正確に反映しているかどうかを知るためには、検証される理論を明確に理解していなければならない。

つまり、社会科学は、理論の開発と検証から成り立っており、この2つの活動は研究活動にとって不可欠なものである。したがって、2つの危険性が考えられる。(1)テストにあまり注意を払わない理論化、(2)理論にあまり注意を払わない経験的テスト。どのような分野であっても、この2つの活動を行わなければならないため、重要な問題は、この2つの活動の最適なバランスを見つけることだ。これから説明するように、IRではそのバランスが理論から離れ、単純化された仮説検証に移行しており、この分野に悪影響を与えている。

単純化された仮説検証とは？

戯画化される（パロディー）かもしれないが、単純化された仮説検証は、特定の現象（従属変数）を選択することから始まる。それはしばしば、戦争、同盟関係の行動、国際協力、人権パフォーマンスなどの身近なテーマである。次のステップは、従属変数の有意な変動を説明する可能性のある1つまたは複数の独立変数を特定することである。これらの独立変数は、既存の文献から特定することもでき、また新しい仮説を考案することもできる。このようにして、それぞれの仮説は、研究対象の現象の異なる可能性のある原因を明らかにする。

次に、研究者は、独立変数と従属変数の測定値を含むデータセットと，因果関係の推論を行う上で重要と思われるコントロール変数を選択する。適切なデータセットが存在しない場合は、新たにデータセットを作成しなければならない。最後に、内生性、共線性、省略された変数、その他のバイアスの原因に対処するための様々な統計的手法を用いて、通常、何らかの回帰モデルを用いて仮説を検証する。

このアプローチの最終的な目的は、異なる独立変数と従属変数の間の共分散を測定し、どの独立変数が最も大きな因果関係を持っているかを決定することである1。大規模N量的分析は、因果関係の影響を測定する最も信頼性の高い方法であるという信念に基づき、通常は好ましいアプローチである(King et al., 1994)。望ましい結果は、1つまたは複数の検証された仮説であり、それらは国際行動に関する知識の一部となる。

理論はどのような役割を果たすのだろうか？

ほとんどの場合、現代の仮説検証者は、興味深い相関関係を求めてデータを無心にかき回すような純粋な帰納法に従事しているわけではない。しかし、仮説検証の多くでは、理論がささやかな役割を果たしている。検証される仮説は既存の文献から引用されることもあるが、特定の独立変数が従属変数をどのように、あるいはなぜ引き起こすのかを説明することにはほとんど注意が払われていない。言い換えれば、既存の理論を注意深く適用すること、すなわち、さまざまな仮説を支えるミクロの基礎と因果論理を特定することに、知的努力がほとんど払われていないのである。また、異なる仮説が互いにどのように関連しているかを判断することや、理論自体を洗練させることにも多くの努力が払われていない。

むしろ、仮説そのものを検証することに重点が置かれている。AがBに何らかの影響を与えるというもっともらしい話を学者が提示できたら、次はデータを収集し、統計的に有意な関係が見られるかどうかを確認する。奨学金は、真実はデータの中にあり、最も重要なのは経験的な検証であるという前提で進められる。ジェームズ・ジョンソン (2010: 282)が言うように、このアプローチを支持する人たちは、「社会的・政治的な調査における評価の主な基準として、ほぼ独占的に、しかし正当化できない形で、経験的なパフォーマンスに焦点を当ててきた」のである。

このアプローチが事実上の道具主義につながることは、注目に値する。仮説検証者の中には、因果関係のメカニズムの重要性を認めている者もいるが、彼らのアプローチは、独立変数と従属変数を結びつけるメカニズムを特定しようとはせず、それらを直接調査することにはほとんど注意を払っていない。繰り返しになるが、彼らの焦点は共分散の測定にある。理論の目的である、観察された関連性がなぜ得られるのかを解明することが置き去りにされているのである。

繰り返しになるが、現代の仮説検証では、仮説が事前の理論的研究に大まかに基づいていることが多く、通常はある種の先験的な妥当性を持っているという意味で、理論は背景的な役割を果たしている。しかし、最新の統計的手法を用いてライバルの仮説を検証することに重点が置かれている。このように、理論の構築・改良と経験的な検証のバランスは、後者に大きく依存している。また、仮説検証のプロセスにおいて、理論は大きな役割を果たしていない。

理論への配慮が不十分な場合、どのような問題が生じるだろうか。

仮説検証を優遇することで、国際関係に関する有用な知識がたくさん得られるのであれば意味があるかもしれない。しかし、このアプローチを用いる学者や出版物の数が大幅に増加しているにもかかわらず、そうではないようだ。アッシャン (2002: 424)が政治学の方法論的実践を幅広く批判しているように、「この職業の最も定量的な分野でさえ、現代の多くの経験的研究は長期的な科学的価値をほとんど持たない」。あるいは、ベックら(2000: 21)が指摘しているように、「膨大なデータ収集、権威ある学術誌、洗練された分析にもかかわらず、国際紛争に関する定量的な文献における経験的な発見は、しばしば満足のいくものではない…国際紛争の研究者たちは、新しい、耐久性のある、体系的なパターンを発見する代わりに、データと格闘して、発見と名付けることのできる何かを引き出すことに終始している」。単純化された仮説検証には本質的な欠陥があるため、このような進展のなさは当然のことだ。

誤った仕様のモデル

仮説を検証するためのモデルは、提案された理論を統計的に表現したものだ。したがって、どんなに高度な仮説検証を行っても、そのモデルが関連する理論に適合していなければ、あまり意味がない。したがって、有効な検証を行うためには、理論の変数がどのように組み合わされているかを理解し、理論の仮定や構造を考慮して仮説検定を設計する必要がある。

省略された変数の問題を考えてみる。重要な変数が回帰モデルから省略されると、モデル内の他の係数に偏りが生じる。この問題は、一般的には方法論の問題として扱われているが、実は理論的な問題でもある。具体的には、重要な変数が省略されていると主張することは、仮説検定の根拠となる基礎理論が不完全であると言い換えることができる。あらゆる仕様エラーと同様に、問題は、仮説を検証するための統計モデルが、主要な変数間の実際の因果関係に適合していないことだ。このような状況では、大きな回帰係数や小さな標準誤差は有効性の保証にはならない。

この原理は、おなじみの選択バイアスの問題にも当てはまる。この問題も一般的には方法論上の問題として扱われるが、根本的な因果関係のメカニズムが、研究者が考慮していない形で観測されたデータに影響を与え、それによって因果関係の影響の推定値に偏りが生じるために起こる。

このことを明確に理解するために、ポール・フートとブルース・ラセットによる拡大抑止の分析に対するジェイムズ・フィーロンの批判を考えてみる。フートとラセットは、パワーバランスと利益バランスに焦点を当てて、抑止をより効果的にする要因について多くの仮説を検証している。仮説検証の伝統の中で発表された多くの研究と同様に、彼らの結果は、推定される特定のモデルに応じて異なる。例えば、彼らのモデルの中には、核兵器の影響が統計的に有意でないものもあれば、核兵器の保有がプラスの効果をもたらすものもある。フースとラセットは、有利な戦力バランスが抑止力の成功をより確かなものにするとしているが、フースのより最近の研究では、利害関係のバランスは抑止力の成功にあまり影響しないとしている(Huth, 1988)。

フィーロンは、単純な交渉モデルを用いて、国家が危機に陥る前に勢力と利害のバランスを考慮し、成功すると合理的に確信できる場合にのみ行動する様子を示している。言い換えれば、国家は自らを危機に選択し、それによってさまざまな仮説を検証するための歴史的な記録を作っているのである。これらの要因が抑止力の成否に与える影響を推定する際には、こうした選択効果を考慮しなければならない。

フィーロンは、この洞察に基づいてフースとラセットのデータを再解釈し、より一貫性のある異なる結果を得た。重要なのは、フィーロンの基礎理論（国家がどのように相互作用し、抑止力のさまざまな要素がどのように結びついているかについての図式）が、フースとラセットが採用した理論とは異なるということである。この理論的な修正こそが、より説得力のある経験的な発見につながるのである。フィーロンが指摘するように、「データセットの構築と経験的知見の解釈の両方は、分析者が採用した暗黙的または明示的な理論装置によって強く形成される傾向がある」(1994: 266)。

選択バイアスが問題にならず、関連する独立変数を特定できたとしても、それらがどのように関連しているかを示す理論が必要である。例えば、Xが介在変数Zを介してYを引き起こし、Zをコントロール変数として回帰式に挿入した場合、XとYの間の推定因果関係は減少するか、消滅してしまう。実際、単に統計モデルに統制変数を挿入することは、その統制変数が従属変数に何らかの影響を与えているのではないかと疑っているにもかかわらず、その考えに具体的な理論的根拠がない場合には問題となる。つまり、優れた理論がなければ、優れたモデルを構築することも、統計的知見を正しく解釈することもできない15。

さらに、変数がどのように組み合わされているかを理解することは、適切な統計処理を選択するために不可欠だ。言い換えれば、どのような統計モデルを使用すべきかを知るためには、基礎となる理論について多くのことを知っている必要がある。しかし、ブラウモラーとサルトリ (2004: 133, 144-145)が指摘するように、多くのIR研究者はこの問題にあまり注意を払っていない。彼らの言葉を借りれば、「経験的な研究者は、理論にほとんど、あるいは全く注意を払わずに、相関関係を計算することに労力を使いすぎていることが多い…また、理論を検証するためのモデルを作るのではなく、理論に統計モデルを押し付けることが多い」と述べている。特に、仮説を検証するために一般的に用いられている線形回帰モデルは、主要な変数間の関係が非線形であったり、連接的であったり、相互的であったりする場合、誤った結果をもたらす。

例えば、民主化と戦争の関係が曲線的である場合（Mansfield and Snyder, 2007）、この仮説を線形モデルで検証すると、偏った結果になる可能性が高い。フィリップ・シュロット (2006: 337)が警告するように、「政治研究で一般的に遭遇する多くのデータセットにおいて、線形モデルは単に悪いだけでなく、本当に、本当に悪い。」

また、アシェン (2005: 336)は次のように述べている。「回帰、プロビット、ロジット、その他の統計モデルに直線的に入力された変数のリストは、議論を重ねなければ説明力を持たない。SPSSやSTATA、SやRのプログラムに変数をドロップするだけでは、どんなに高性能で斬新な推定量であっても、何の成果も得られない。慎重な裏付けがなければ、その結果は統計学上のゴミ箱に入ってしまう。」

誤解を招く測定値

有効な仮説検定は，研究されている基本的な概念に対応する尺度を持つことに依存する。そのためには、重要な概念が正確に定義され、それらを測定するための指標が、概念と理論に描かれた因果関係を反映していることを確認するために、理論に注意を払う必要がある。

残念ながら、現代のIR研究は、理論への配慮が不十分であることもあって、測定に関する難しい問題に直面している。例えば、アレクサンダー・ダウンズとトッド・セキサー（2012）は、観衆費用の影響を確認するかのように見える仮説検証が、いくつかの重要な概念を理論の論理とは一致しない形で測定していたことを示している。観衆費用理論によれば、危機に瀕した民主主義国家は、権威主義政権よりも信頼性の高い脅しをかける。民主主義の指導者は、公の場で引き下がれば政治的な代償を払うことになると知っているからである。

この理論を適切に検証するためには、民主主義体制と権威主義体制の主要な役人が公の場で明示的に行う脅しの効果を比較する必要がある。従属変数の測定では、それぞれの対決の結果と、ある脅迫の対象者が脅迫に応じたかどうかも明らかにしなければならない。残念ながら、この理論を検証するために以前使用されたデータセット（よく知られているMilitarized Interstate Dispute (MID)とInternational Crisis Behavior (ICB)のデータセット）は、どちらの基準も満たしていない。

特に、以下の点が挙げられる。（1）明示的な脅迫が行われていない危機が多く含まれている、（2）国家指導者が許可していない脅迫行為が含まれている、（3）脅迫が成功したかどうかを特定できない方法で危機の発生をコード化している、という点である。より適切なデータを採用した場合、観衆費用は民主主義の指導者に交渉上の優位性を与えないようである。

ダン・ライター、アラン・スタム (2002) の『Democracies at War（戦争する民主主義国）』は、洗練された研究であるにもかかわらず、重要な概念の測定に疑問があるというもう一つの例を示している。彼らは、民主主義国が戦争で優れた成果を上げるのは、個人主義を奨励する「リベラルな政治文化」を持っているからであり、その結果、戦闘でより大きなイニシアチブを発揮する兵士が生まれるのだと主張している。彼らの実証分析はこの主張を支持しているように見えるが、この考えを検証するために彼らが採用している尺度は、理論の中核的な概念を捉えていない。

リサ・ブルックス（2003）が指摘するように、ライターとスタムはPOLITY IIIデータセットのレジームタイプスコアを用いて「リベラルな政治文化」を測定している。しかし、このデータセットには、リベラリズムはおろか、政治文化の直接的な測定値は含まれていない。むしろ、選挙の競争力やその他の制度的特徴を測定することで、国家の民主主義のレベルをコード化している。国家は形式的には民主的であっても自由主義的ではないため、POLITY III指標の高得点は、軍事的パフォーマンスを決定するとされる「リベラリズム的な政治文化」という概念とは、せいぜいゆるやかな関係しかない。さらに悪いことに、ライターとスタムは、ある戦闘でどの指揮官が先制攻撃を行ったかをコード化したと思われるデータセットを用いて「イニシアチブ」を測定している。しかし、この指標では、彼らの議論が依拠する変数である、小さなユニットや個々の兵士が示すイニシアチブを測定することはできない。

このような測定上の問題は、国際政治学の概念の複雑さにも起因していると言える。IR研究者は、多くの重要な概念を測定するための簡単な方法を持っておらず、これらの概念をどのように定義すべきかについての一般的な合意さえない。例えば、国力をどのように概念化すべきか、また、国力をどのように測定するのが最適なのかについては、コンセンサスが得られていない。同様の問題は、極性、強制力、国際協力などの概念についても生じる。曖昧な概念を厳密に検証してもあまり意味がないため、IR分野では仮説検証そのものと同様に、概念を洗練させ、それをどのように測定するかを考えることに価値を置くべきである。ここでも、理論の必要性を痛感する。

貧弱なデータ

IR分野のデータの多くが低品質であることや、IR分野の多くが稀な現象や発生したことのない現象を重要視していることを考えると、仮説検証を優遇することも賢明ではない。理想的な世界では、信頼性の高い豊富なデータを用いて仮説を検証することができる。しかし、投票行動のように信頼性の高いデータが豊富にある分野とは対照的に、IRの多くはデータが乏しい。例えば、2003年のアメリカのイラク侵攻による民間人の過剰死亡については、この紛争が非常に注目されていたにもかかわらず、現代の推計では10万人弱から120万人程度となっていることを考慮して欲しい (Tapp et al., 2008)。イラク戦争がこのような不確実性にさらされているのであれば、特に遠い過去を扱う場合、標準的なIRデータセットを信頼することができるだろうか。実際、多くの研究者が真剣に取り組んでいるにもかかわらず、相対的パワー、テロリズム、人権パフォーマンスなど、さまざまなトピックに関する既存のデータセットは、いまだに信頼性に疑問が持たれている。

さらに悪いことに、標準的なIRデータセットに含まれる生データの多くは、国ごとに異なる機関によって作成されており、多くの場合、直接比較することはできない。国防費のような一見わかりやすい指標であっても、国ごとに含まれる項目や計算方法が異なるため、国ごとに直接比較することはできない（Van Evera, 2009）。IR研究者たちはこうした問題を認識し、その解決に取り組んできたが、利用可能なデータには大きな限界がある。

このようなデータの問題は、疑わしい研究行為につながる。上述したように、重要な変数に関する優れたデータを持たない学者は、たとえそれが関連する概念を捉えていなくても、すぐに入手できる指標を何でも使ってしまうかもしれない。さらに、学者が観測値を最大化するというよくある忠告に従うと、データの信頼性が高い少数のケースを分析する代わりに、データが不十分なケースを含めることになるかもしれない。

最後に、IRにおける仮説検証は、社会革命や核戦争のように、ケースのユニバースが小さい、あるいは存在しないような現象を扱う場合には制約がある。標準的な統計的手法はこのような状況では機能せず（Beck et al.2000）、学者は理論や質的手法、あるいはレア・イベントを研究するためのその他の手法に頼らざるを得ない（King and Zeng, 2001）。単純に観測数を増やすことでこの問題を解決しようとすると、ヘンリー・ブレイディとデビッド・コリアーは「分析的に同等ではないケースを比較するように学者を仕向けるかもしれない」と警告している(2004: 11; Sartori, 1970も参照)。

繰り返し述べてきたように、仮説の検証は社会科学に必要なことだ。しかし、実際には、IR分野に特有のデータの制限があるため、単純な仮説検証では、実践者が考えているほどの成果は得られないだろう。研究者は理論に基づいて仮説検証を行わなければならない。

説明の不在

よく知られている民主的平和仮説の例が示すように、経験的によく確認された規則性であっても、それがなぜ起こるのかを説明することはできない。強固な相関関係があっても、その理由がわからなければ困惑するし、説得力のある説明、つまり理論が示されるまでは、そのような発見に対して懐疑的になりがちである。

仮説検証を重視しすぎると、経験的な知見が増え続け、それらが互いにどのように関連しているのかがわからなくなってしまう危険性がある。異なる独立変数を組み込んだいくつかの仮説を検証し、あるものは支持されるが他のものは支持されないという場合、経験的な結果だけでは、なぜそうなのかはわからない。デビッド・デスラー (1991: 340-341)が指摘しているように、「理論的統合が、研究結果を単純に並べるだけではなく、「結びつける」ことを意味するならば、独立変数の異質性は、これらの全く異なる要因を互いに関連づけて位置づけるための理論的根拠を欠いている限り、統合の障害となる。」

例えば、ライターとスタムの『Democracies at War』は、戦時中のパフォーマンスに関するいくつかの競合する仮説を検証しているが、ブルックス (2003: 165)が指摘するように、「この本は、ある要因が他の要因よりも強力な説明となる理由を示す演繹的な論証を提供していない…その代わりに、ライターとスタムは多様な仮説を検証し…3つの仮説に対する経験的な支持を見出し、これらの発見を民主主義の勝利の説明として提示しているのである。その結果、なぜ民主主義が特別な現象なのかという議論は、バラバラな仮説の集積のようになっている。テストマシンを動かす真の分析エンジンは存在しないのである。」

この問題のもうひとつの例は、「外国が課した政権交代」（FIRC）に関する最近の文献である。これらの文献は一般に、FIRCがポジティブな結果（民主化、内戦の危険性の減少、人権パフォーマンスの向上など）をもたらすかどうかを検証しようとしている。特に、軍事介入のような特定の政策手段が、その後の政治的・経済的状況に与える因果関係を推定することの難しさを考えると、この文献はある意味で模範的な社会科学であるといえる。

このジャンルの優れた作品は、外国政府を追放すると、特に貧しい社会や分裂した社会では、内戦のリスクが高まるという知見など、有用な経験的一般化を生み出している。しかし、これらの知見を包括的に説明するものはまだない。このように、概念が明確で、利用可能なデータが充実している幸運な状況であっても、確認された仮説の集合体だけでは、問題となっている現象を首尾一貫して統合的に説明することはできない。欠けているのは、個々の仮説に対する説得力のある説明と、それらの仮説がどのように組み合わされているかについての幅広いストーリーである。

蓄積性の欠如

仮説検証を推進する人たちは、このアプローチによって、十分に確認された経験的知見が増え、国際問題に関する知識がより迅速に蓄積されると考えている。しかし、いくつかの理由が絡み合って、期待通りの成果は得られていない。

まず、先に述べたように、これらの研究の基礎となっているデータは不完全だ。同様に重要なことは、仮説検証の伝統に基づく研究では、研究者が同じ問題を異なるデータセットを用いて検証したり、異なる期間に焦点を当てたり、重要な用語を異なる方法で定義したり、異なる分析手法を用いたりするため、互換性のない、あるいは比較できない結果が得られることが多いということだ。ベックら(2000: 21)は次のように述べている。「統計的な結果は、論文ごと、仕様ごとに変わっているように見える。どのような関係であっても、通常は統計的に弱く、信頼区間も広く、仕様、指標の構築、データフレームの選択などのわずかな変更によって大きく変化する」。

これらの多様な研究を調整し、共通の枠組みに収めるための真剣な努力がなされない限り、それは理論の課題であり、知識が蓄積される可能性はほとんどない。もし、あるテーマについて発表された複数の論文が、統計的には有意だが実質的には異なる結果を示していたとして、私たちを導く理論がない場合、どの論文を信じるべきかをどうやって判断すればよいのだろうか。

例えば、オン・バスケスとクリストファー・レスキウ (2001: 296-297)は、国家間のライバル関係に関する文献をおおむね肯定的に評価しているが、その中で、「運用方法の違いにより、（永続的な）ライバル関係のリストが異なっている」と指摘しており、他の研究者が使用した定義やリストに対して「非常に懐疑的」な研究者もいる。彼らの論考が明らかにしているように、競合する研究の間の定義や方法論の違いは、一連の経験的な知見の拡大にはつながったが、より広範な統合や、様々な肯定的・否定的な結果の一般的な説明を生み出すことはなかった。その代わりに、「領土問題で争う二人組は、偶然に予想されるよりも戦争になる確率が高い」とか、「（永続的な）ライバルは、他の二人組よりも戦争になる確率が高い」といった類の一般化がなされている（Vasquez and Leskiw, 2001: 308-309）。しかし、その理由はまだほとんどわかっていない。

民族戦争や内戦に関する膨大な文献にも、同様の理由で蓄積がない。30年にわたる研究を最近調査したところ、著名な実証研究はしばしば大きく異なる結果を出していることがわかった。その理由は、「主要な変数に異なる解釈を加えている」、「内戦をどのように捉えているかが異なる」、「やや場当たり的な実証モデル」に依拠している、「もっともらしい内生性を持つ説明変数を採用している」、「その多くが他の推定値を未知の方向に偏らせている」からである。著者らはこう結論づけている。「最終的には、実証研究は、競合する理論的メカニズムのうち、どのメカニズムが内戦の発生、行為、性質を最もよく説明しているかを見分けることを目的とすべきであるが、この目的はまだ実現されていない」（Blattman and Miguel, 2010: 22-23）。

これらの例は、単純な仮説検証では、提唱者が期待するような累積的な進歩が得られないことを示唆している。実際、このようなやり方では、同じ著者が異なる結果を説明することなく、異なる論文で対照的な主張をすることさえある。

例えば、ジェイソン・ライアル（2009）は、ロシア軍による「無差別」暴力がチェチェンでの反乱軍の攻撃を減少させたとしている。2番目の論文では、地元のチェチェン軍による反乱軍掃討作戦は、ロシア軍やロシアとチェチェンの混成部隊による掃討作戦よりも効果的であったとしているが、これは主に純粋なチェチェン軍が地元住民をより差別的に扱ったためである（Lyall, 2010）。このように、最初の記事では、チェチェン反乱軍を倒すためには無差別な暴力が重要だとされているが、2番目の記事では、差別的な戦術のほうが効果的だと判断されている。

ライアルと共著者は、第 3 の論文を発表し、機械化された軍隊への依存は、反乱対策キャンペーンにおける「国家の敗北の確率の増加と関連する」と主張している（Lyall and Wilson, 2009: 67）。しかし、ロシア軍は高度に機械化されており、チェチェンで有効だったとされる無差別戦術は主に大規模な砲撃で構成されていたため、この発見は最初の論文の主張とは矛盾するように見える。これら3つの研究は、それぞれ単独では擁護できるかもしれず、結果を整合させる方法も考えられますが、一緒になってしまうと、累積的な進歩というよりは、説明すべき別のパズルを作り出してしまう。

最後になったが、仮説検証だけで累積的な知識や有用な予測が得られるという信念は、「未来は過去とほぼ同じであり、ある状況で得られた結果は他の状況でも適用できる」という付帯的な仮定の上に成り立っている。言い換えれば、過去のデータを分析して得られた経験的一般化は、時空を超えて有効であると仮定しなければならない。多くの場合、それは正しいかもしれないが、どのような場合にそうなるのかを知るためには、理論が必要だ。理論は、主要な変数間の因果関係とその境界条件を明らかにすることで、観察された関係が持続する場合、これまで信頼できた一般化が弱まる場合、弱かった関係が強くなる場合などを説明する。

繰り返しになるが、社会科学において仮説検証は不可欠であり、統計分析は適切に実施されれば強力なツールとなる。さらに、質的研究は、データの質の低さ、選択バイアス、曖昧な概念化、累積の欠如、その他の問題に悩まされることもある。むしろ、IR研究者が手法を重視し、理論を軽視する傾向は、誤った方向に進んでいるというのが我々の主張である。これまでのところ、この傾向は累積的な知識の大部分を生み出していないし、重要な国際的現象に対する広範で永続的な理解も得られていない。また、将来的にもそうなる可能性は低い。

なぜIRはこのような方向に向かっているのか。

単純化された仮説検証が普及しているのは、知的に正当な理由があるからかもしれないが、その普及には、学者が直面している職業上のインセンティブが関係している。

そもそも、理論的には、特にグランドセオリーのレベルでは、新しいことはあまり言えないという意見もあるだろう。理論の発展が限界に達しているのであれば、既存の理論をより慎重に検証することで、より多くの知見が得られるはずだ。次の理論的ブレークスルーがあるまでは、IR研究者は試行錯誤の研究アプローチで身近なパズルを探ることに集中すべきである。実際には、仮説を検証し、中間的な理論にもっと注意を払うことになる。

この議論には一定の意味があり、IR理論には様々な視点から生み出された膨大な数の理論が存在している。しかし、この事実は、仮説検証へのシフトを正当化するものではなく、特に、理論へのカジュアルなアプローチは、この研究の多くを特徴づけている。前述したように、単純な仮説検証では多くの累積的な知識は得られない。さらに、たとえ学者が新しい理論を発明したり、既存の理論を改良したりしようとしていないとしても、仮説を検証する努力は、すでに述べた理由から、理論の洗練された理解によって導かれるべきである。

さらに、特に理解したい新しい政治的条件（一極集中、グローバリゼーションなど）の出現を考えると、新しいグランド理論や強力なミドルレンジ理論が生まれないとは言い切れない。また、既存のグランド理論の体系は、イズムの間や内部で繰り返される議論が示すように、まだ洗練される必要があることも忘れてはならない。また、ミドルレンジ理論の対象となるテーマの多くは、仮説を検証するための様々な努力にもかかわらず、いまだに十分な概念化がなされていない。

第2に、今日では、データの利用可能性と現代のコンピュータ技術により、単純な仮説検証がより一般的になっているかもしれない。このような進展は、なぜこのような変化が起きているのかを一部説明するものではあるが、正当化するものではない。しかし、私たちの手元にあるデータの多くは、改善のための素晴らしい努力にもかかわらず、あまり良いものではない。

IR研究者が「ビッグデータ」ソースと強力なデータマイニング技術（Googleなどの企業が採用しているような技術）を使って、新たな重要な洞察を得られるようになる日が来るかどうかは、私たちにはわからない。しかし、仮にこれらの技術によって、ある分野でより信頼性の高い予測が可能になったとしても、それは説明しなければならない経験的なパターンを発見することによって行われるだろう。データが豊富にあっても、理論は簡単には捨てられない。

第3に、理論離れは、ゲイリー・キング、ロバート・ケオハネ、シドニー・バーバの著書『Designing Social Inquiry（社会調査のデザイン）』（1994年）の影響を反映しているのかもしれない。同書は、「政治的方法論の正統派の公式テキスト」と評されている（Schrodt, 2006: 335; Brady and Collier, 2004: 5; Yang, 2003も参照）。この本は、社会科学を行うためのわかりやすいテンプレートを提供しているため、大学院の方法論コースの定番となっている。そのテンプレートは、ティム・マッキーン (1999: 162, 166)が指摘するように、「統計的世界観」に基づいている。さらに、『Designing Social Inquiry』は道具主義の伝統に完全に合致しており、「理論と説明を犠牲にして観察と一般化を優遇している」（Johnson, 2006: 246）のである。この本が社会科学の進め方の基本テキストとなった以上、単純化された仮説検証が広まったことは驚くことではない。

第4に、このような傾向は、民主主義の平和に関する長い議論の影響を反映している可能性がある。この議論は、「民主主義国家は互いに争わない」（Doyle, 1983）という経験的な観察に始まり、その後の大規模なN研究の家内工業的な研究によって、この主張は概ね確認された。しかし、この発見を説明する説得力のある理論はまだ存在しない。理論がなくても、私たちはIRについて新しいことを学ぶことができると思われた。なぜなら、民主主義の平和のような強固な関係は稀であり、理論を犠牲にして新たな関係を模索することは逆効果になる可能性が高いからだ（Reese, 2012）。

第5に、IRにおける博士課程の拡大は、仮説検証への移行を促す。理論的な豊饒さは主に個人の創造性と想像力に依存するため、どのような大学院プログラムでも一流の理論家を輩出することは困難である。しかし、人に創造性を教える方法を知っている人はおらず、ある学部が優秀な理論家を一斉に輩出できるような研究プログラムを特定した人はまだいない。これに対して、多少の数学的能力があれば、ほとんど誰でも仮説検証の基本的なテクニックを教えられ、有能な研究を行うことができる。同様に、リサーチ・デザイン、プロセストレーシング、歴史的解釈について学生に教えれば、よりよい質的研究ができるようになるが、想像力に欠ける人が優れた理論家になるわけではない。

さらに、大学院では学生が学位を取得するまでの期間が短縮されているため、有能な論文を早く作れるようなツールを教えることが当たり前になっている。理論の開発や改良には、より深いテーマへの没入が必要であり、必要なひらめきが起こらない可能性があるため、より時間がかかり、リスクも高くなる。多くの博士課程の学生を予定通りに卒業させることに力を注ぐ大学院プログラムでは、単純な仮説検証を重視する強力なインセンティブが働く。また、学位取得までの期間を短縮する一方で、定量的、定性的を問わず、方法論のコースをどんどん増やしていくと、必然的に理論やIRの本質に関するコースが削られ、学生はこの分野の中核的な問題について創造的かつ実りある方法で考えるための準備ができなくなってしまう。

第6に、仮説検証を優遇することで、実証的な研究に対する需要が高まり、研究者が増えることになる。仮説検証が優勢になると、この分野では多くの問題を解決しないまま、ますます多くの研究が行われるようになる。他の研究者の研究を確認しても注目されず、名声も得られないため、研究者は自然と、新しい発見をしたり、先行研究に挑戦したりすることに力を注ぐようになる。しかし、関連する変数が異なる方法で定義されていたり、データの質が低かったり、検証される仮説が理論にあまり結びついていなかったりすると、斬新な結果を生み出すのは容易ではない。上述したように、IRで行われる仮説検証の多くはこのような問題を抱えている。このような状況では、回帰係数は「覚醒剤を飲んだスナネズミの箱のように跳ね回る」ことになる。これは、大量の統計的文献を作成するには最適だが、結論を出すにはあまり適していない（Schrodt, 2006: 337）。研究が蓄積されることはめったにないため、常に新しい研究が行われ、それを実行する学者への需要が永続的に発生する。仮説検証者を増やせば増やすほど、仮説検証者が必要になるように思える。

最後に、単純な仮説検証の魅力は、学術界のプロ化を反映している。他の職業と同じように、学問分野もその自律性を守り、会員にもたらされる名声や物質的利益を最大化しようと努力している。そのための一つの方法は、その職業が専門的な知識を持っていると外部の人に思わせることです。そのため、専門職には、難解な用語や難解な技術を採用するという強力なインセンティブが働き、メンバーの発言を評価することが難しくなる。このような傾向は、IR関連の雑誌をざっと読んだだけでも、仮説検証の文献に見られる。

また、職業においても、時間の経過とともに、単純で人間味のない評価方法を採用する傾向がある。アカデミックな世界では、採用や昇進の決定において、引用数などの「客観的」な基準に大きく依存する傾向がある。場合によっては、学科のメンバーや大学の管理者は、学者の作品を読んでその質について独自の意見を持つ必要はないと考えるかもしれない。代わりに、その人の「h-index」（Hirsch, 2005）を計算して、それに基づいて人事を決定すればよいと考えるかもしれない。

このような傾向は、学者が理論から仮説検証へと移行することを促す。このような研究では、統計学的な手法が用いられることが多く、それを習得するためには多大な時間が必要となる。そのような訓練を受けていない人は、これらの作品を簡単に批判することはできないし、部門のメンバーの中には、同僚の研究が本当に重要なものかどうかを見分けることができない人もいるだろう。同じような仕事をしている学者からの評価や、他の尺度に頼らざるを得ない。誰かの研究を理解できなくても、それを判断しなければならない場合、「彼女は何本の論文を発表したのか」「彼の研究を引用している人は何人いるのか」と尋ねたくなるだろう。このように、難解な用語や難解なテクニックに頼ることは、他の人が学術的な価値を直接評価することを妨げる。

当然のことながら、大学が学者の評価を「客観的」な尺度に頼れば頼るほど、自分がすぐに出せる出版物の数を最大化する研究戦略を採用するインセンティブが大きくなる。このようなインセンティブは、高度に専門化された今日の大学院生には明らかで、彼らは、仕事を得るためには、できるだけ早く、頻繁に出版しなければならないと心配している。彼らが単純な仮説検証に惹かれるのは当然のことで、データセットを手にすると、研究課題を少し変えたり、一連の異なるモデルを採用したり、新しい推定技術を使ったりして、論文を作り始めることができる。

このようなインセンティブは、多くの人が自分の研究を読み、引用してくれる可能性を高めるため、学者がよく知られた研究の道を歩むことを促す。残念ながら、このような群れのような行動は、学者の流行を強化し、より大胆で独創的な研究を阻害する(Jervis, 1976)。ビノッド・アガーワル (2010: 895)は次のように述べている。「簡単に言えば、狭い範囲の問題を扱うデータセットを用いた定量的研究は，リスクを避けて…終身在職権への道を提供してくれる。MPU（Minimum publishable units）が主流である。限界のある貢献をすることで自分のポイント数を上げることができるなら、受け入れられないかもしれない概念的または存在論的な革新のリスクを冒す必要はない。その結果、社会科学引用索引の祭壇を崇拝することになり、革新性や創造性はほとんど育たない。」

単純化された仮説検証の増加と理論への関心の低下は、学術界と政策界の間の溝を深めている。先に述べたように、理論は、複雑な現実を理解するためにも、政策対応を策定するためにも、そして政策評価を行うためにも必要不可欠なものだ。例えば、台頭する中国への対応をどのように考えるかは、何よりもまず、世界政治に対する幅広い視点にかかっている。現実主義的な理論は一つの対応策を提案するが、リベラルな理論や構成主義的な理論は全く異なる政策提言を行う（Fravel, 2010; Liu, 2010）。理論を創造し、洗練させることは、学者が得意とする活動だ。したがって、学者が理論への関心を失うと、重要な政策論争に影響を与えるための最も強力な武器の1つを手放すことになる。

このような状況は、職業上の昇進を第一に考えている仮説検証者にとっては問題ではないかもしれない。彼らにとって重要なのは、引用回数であって、外部の人が重要な政策問題を理解するのを助けることではないからだ。これまで見てきたように、仮説検証文化は信頼性の高い有用な知識をほとんど生み出しておらず、その難解な専門用語や難解な手法によって、IR研究は政策立案者や情報通のエリート、そして一般市民にとって利用しにくいものとなっている。さらに、ワシントンやロンドンをはじめとする世界各国の首都に広大なシンクタンクコミュニティが出現したことで、政策立案者がIR研究者に依存しなくなった一方で、IR研究者が貢献できることが少なくなっているのも事実である。これらの傾向を総合すると、IRは現実世界の重要な問題を理解し解決するためには、ほとんど無用の長物となってしまう危険性がある。

何かできることはないのか？

IRは概念的に複雑で多様な分野であり、信頼できるデータを得るのは難しい。そのため、他の社会科学分野に比べて理論に頼る部分が大きい。だからこそ、かつてのように理論を重視すべきなのだ。しかし、現在のIRはその逆を行っている。

IRの研究者は、もちろん仮説を検証すべきであるが、その際にはきちんとした理論に基づいて行うべきである。また、既存の理論に磨きをかけ、新しい理論を開発することにも力を注ぐべきである。特に、異なる理論が示唆する因果関係を調査することに力を注ぐべきである。新しい理論を提唱したり、バラバラな調査結果を理解したりする1つの論文は、賞味期限の短い何十もの経験的研究よりも価値があるだろう。

私たちが問題を誇張しすぎているのではないか、この分野では私たちが指摘した欠点に対処しているのではないか、という意見もあるだろう。現在では、より信頼性の高いデータが得られるミクロレベルの問題に焦点を当てている学者もいれば（Kalyvas, 2008）、外生的な変動を与えるために自然実験やフィールド実験、実験室での実験を用いて理論の必要性を最小限に抑えようとしている学者もいる（Tomz and Weeks, 2013; Yanigazawa-Drott, 2010）。また、実験が可能な問題に焦点を当てることは、IR分野を実質的な重要性の低い問題に向かわせる可能性が高い。因果関係のメカニズムを研究するための新しい方法を模索している学者もいる（Imai et al.）。今後の課題は、これらの取り組みがIRの本質について新たな重要な洞察を生み出すことができるかどうかだ。現在までのところ、その成果は乏しいものである。

理論を本来の位置に戻すにはどうすればよいのだろうか。学問分野は社会的に構築されたものであり、自浄作用を持っている。しかし、そのような啓示は期待できない。職業上の強力なインセンティブにより、単純な仮説検証が重視され、シンクタンクやコンサルティング会社の台頭により、政策問題に関する学術的な研究への需要が減少している。そのため、IR研究者は、理論を構築・改良したり、理論に基づいた実証実験を行ったりすることに消極的であり、私たちはこの状況が変わるとは考えていない。

確かに、一部の大学管理者はIRが進む方向性を好まず、「退屈な仮説検証の枠組み」から離れるように学部に働きかけようとするかもしれない。また、研究に資金を提供する財団は、我々が指摘する問題点を認識し、より理論的または政策的な研究を支援することを提案するかもしれない。しかし、学術分野は通常、外部からの干渉に抵抗するものであり、変革は1つや2つの部門だけでなく、多くの部門で起こらなければならない。

最後に、市民や政策立案者が予想外の課題に直面し、それを把握するために新しい理論が必要になった場合など、外部からの出来事が理論の革新や政策への関与を促すかもしれない。残念ながら、これらの変化のきっかけとなりうるものの中に、IRを理論に回帰させるものがあるという証拠はほとんどない。

私たちが提唱するシフトを促すためには、どうすればよいのだろうか。研究者のポートフォリオにおいて、量よりも質を重視することが助けになるかもしれない。もし教員が、採用や昇進はたった3～4本の出版物の評価にかかっていると理解していれば、査読付き論文の総数を最大化する代わりに、より重要な奨学金を生み出すことに注力するかもしれない。しかし、これはせいぜい部分的な解決策に過ぎない。というのも、人事決定に携わる人々は、候補者のすべての出版物を知っており、それを完全に無視することはあり得ないからだ。仮にこの規範が採用されたとしても、その影響はわずかなものであろう。

したがって、仮説検証を重視する現在の状況が変わることはないだろうと私は考えている。しかし、この分野の研究者は自由な存在であり、もしかしたら、彼らの中から光を見出し、国際政治学の研究において理論を本来の位置に戻す人が現れるかもしれない。

おわりに

IRの研究は、謙虚な姿勢で臨むべきだ。世界政治の理解を容易にする単一の理論も、努力なしに確実な結果をもたらす魔法の方法論的弾丸も、関心のあるあらゆる問題について有用で信頼できるデータを山のように提供する検索エンジンもない。そのため、私たちは、さまざまな理論や研究の伝統が共存する多様な知的コミュニティを望んでいる。私たちが知っていることがどれだけ少なく、さらに学ぶ方法についてもどれだけ少ないかを考えると、特定のアプローチに過剰に投資することは賢明ではないと思われる。シュロット (2006: 336)が賢明にも述べているように、「このおかしな世界を理解するためには、あらゆる助けが必要だ。」

しかし、最も重要なことは、IRの重要な特徴を説明するために、より強力な理論を構築するかどうかということである。優れた理論がなければ、定量的、定性的を問わず、経験的に得られた知見を信頼することはできない。理論がなければ、学者たちが積み上げてきた仮説を把握することもできない。より良い理論への道は多くあるが、最終的な目的地はそこであるべきなのだ。

この記事が気に入ったらサポートをしてみませんか？

ジョン・J・ミアシャイマー、 スティーブン・M・ウォルト「リービング・セオリー・ビハインド: なぜ単純な仮説検証は国際関係に悪影響を及ぼすのか。」

ジョン・J・ミアシャイマー、スティーブン・M・ウォルト「リービング・セオリー・ビハインド: なぜ単純な仮説検証は国際関係に悪影響を及ぼすのか。」