Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

2024年5月21日 23:05

https://arxiv.org/pdf/2405.05904.pdf
下記の文章は論文のアブストラクトをChatGPTに解釈させたものであり、正確性は保証しません。

Question 1: 何に関する論文か、専門外の研究者向けに詳しく説明してください。

この質問は、機械学習モデルが知識をどのように持ち、活用するかを定量的に分析するための手法に関する論文です。具体的には、自然言語処理（NLP）の分野で活用される大規模言語モデル（LLM）の知識を、質問応答（QA）タスクを通して評価する方法を提案しています。論文では、「SliCK（Sampling-based Categorization of Knowledge）」というアプローチを用いて、モデルが特定の質問に対してどの程度正確な答えを生成するかを測定し、その結果を「HighlyKnown（非常に知っている）」、「MaybeKnown（多分知っている）」、「WeaklyKnown（弱く知っている）」、「Unknown（知らない）」の4つのカテゴリに分類します。

このアプローチでは、モデルがランダムな例示（few-shot exemplars）を用いて質問に答える際にどれだけ正確な答えを出力するかを「PCorrect」という尺度で評価します。この尺度は、温度サンプリング（decoding temperature）を用いた際のモデルの予測の傾向を反映しています。論文では、この手法を用いてモデルが持つ知識の種類や程度を定量的に評価し、その結果をトレーニングデータに新しい知識を追加することでモデルのパフォーマンスにどのような影響があるかを分析しています。

また、論文では、知識のカテゴリー分類を行うためのデータアノテーションのプロセスや、ファインチューニングの詳細なども説明しており、モデルが新しい情報をどのように取り入れ、活用するかについての洞察を提供しています。この研究は、NLPの分野における言語モデルの理解を深めることに貢献するものです。

Question 2: 何に関する論文か、その分野の専門家向けに詳しく説明してください。

この研究では、大規模言語モデル（LLM）が保持する知識と、新しい情報を取り込む際のその振る舞いについて定量的に分析する新しい手法に焦点を当てています。特に、質問応答（QA）タスクにおけるLLMの知識ベースの深さと正確さを測定するためのフレームワーク「SliCK」が導入されています。「SliCK」は、モデルがランダムな例示を基にどの程度の確率で正確な回答を生成できるかを示す「PCorrect」という指標を中心に構築されています。この指標は、モデルが様々な温度パラメータを用いてサンプリングする際の予測の正確性を評価します。モデルが保持する知識は「HighlyKnown」、「MaybeKnown」、「WeaklyKnown」、「Unknown」という4つのカテゴリに分類され、知識の質と範囲が明らかにされています。

論文では、ファインチューニングデータセットDに含まれる「Unknown」カテゴリの例の割合が増えるにつれて、配布外（OOD）テストセット上のパフォーマンスが低下することが示されています。また、OODテストセット上でのパフォーマンスに関して、「Unknown」カテゴリの例が有害であることが示されていますが、モデルがこれらの例を学習する際に特に顕著です。線形モデルによる分析では、OODテスト精度においても同様の傾向が見られ、モデルの学習過程における未知の例の影響が詳細に調査されています。

さらに、異なる知識カテゴリからのトレーニング例がテストパフォーマンスにどのような影響を与えるか、また、モデルがテスト例の各カテゴリにわたってどのようなパフォーマンスを示すかについても検討されています。興味深いことに、「HighlyKnown」カテゴリの例のみを用いたファインチューニングでは最良の結果が得られず、「MaybeKnown」カテゴリの例を用いた場合に最良の全体的なパフォーマンスが得られることが示されています。これは、「MaybeKnown」の例が、モデルが推論中にこの種の例を正しく扱うために不可欠であることを示唆しています。

この研究は、LLMがどのようにして知識を獲得し、それをどのように使って質問に答えるかを理解するための重要な洞察を提供しており、NLP分野における言語モデルの知識表現と学習過程の理解を進める上で貢献しています。また、モデルの知識ベースを強化し、QAタスクにおけるパフォーマンスを向上させるための手法開発に影響を与える可能性があります。

Question 3: 引用されている論文の中で特筆すべきものを列挙し、詳しく説明してください。

この研究論文では、質問応答システムにおける知識のカテゴリ分けについての研究を行っており、特に事前学習された言語モデルが持つ知識と新たに学習する知識との関係に焦点を当てています。この研究は、知識のカテゴリ（HighlyKnown, MaybeKnown, WeaklyKnown, Unknown）に基づいて質問応答の精度を評価し、これらのカテゴリがモデルの学習と推論にどのように影響を与えるかを分析しています。

研究では、特定の関係（relation）に基づいた質問テンプレート（例えば、P131「[E]はどこに位置しているか？」やP136「[E]はどの種類の音楽を演奏するか？」など）を用いて、各カテゴリの統計データを収集しています（Table 3とTable 4）。また、モデルが持つ事前知識に基づいて正しい回答を生成する確率（PCorrect）を近似し、これを用いてデータをカテゴリ分けしています（§C）。

研究の結果、Unknownカテゴリの例を学習データに含めることがモデルの性能に悪影響を与え、特に知識に基づかない回答（hallucination）を生成するリスクを高めることが示されました（Table 2, §4）。さらに、MaybeKnownカテゴリの例が学習に不可欠であることも示されており、これらの例を用いることでモデルが事前知識を活用する能力が向上することが分かりました（§5）。

この研究は、事前学習された言語モデルがどのように新しい知識を統合し、それが推論にどのように影響するかを理解する上で重要な洞察を提供しています。また、質問応答システムの訓練において、どの種類の例を使用するかがモデルの性能に大きな影響を与えることを示しており、この点において本研究は重要な貢献をしています。

ただし、ここで説明した内容は研究論文のコンテキストに基づいた解釈であり、私の個人的な知識と矛盾する部分があれば、その点については比較し検討する必要があります。しかし、提供された情報からは、私の知識と論文の主張に明確な矛盾は見受けられません。

Question 4: 本研究の手法について特筆すべき部分を、その分野の専門家向けに詳しく説明してください。

この研究は、事前学習された言語モデル（M）がファインチューニング中に未知の情報（Unknown）をどのように扱い、それがモデルの知識ベースにどのように影響を与えるかを分析することに焦点を当てています。特に、ファインチューニングのデータセット（D）に含まれる異なる知識カテゴリー（HighlyKnown, MaybeKnown, WeaklyKnown, Unknown）が、モデルのテストセットに対するパフォーマンスにどのように影響するかを調査しています。

この研究の主な貢献は以下の通りです：

SliCK（Spectrum of Language model's knowledge of Content）カテゴリーの導入：研究者たちは、事前学習されたモデルが持つ知識の範囲を4つのカテゴリーに分類しました。これらは、モデルが高い確信を持って答えられるもの（HighlyKnown）、ある程度の確信を持って答えられるもの（MaybeKnown）、弱い確信を持って答えるもの（WeaklyKnown）、そしてモデルが答えを知らないもの（Unknown）です。
ファインチューニングデータセットの影響分析：ファインチューニング中に未知情報を含む例を使用することが、モデルのホールシネーション（誤った情報生成）のリスクを増加させることを示しました。また、既知情報を含む例を使用することが、モデルが事前学習中に獲得した知識を活用する能力を向上させることを発見しました。
知識タイプの影響の理解：MaybeKnownの例は、モデルが推論中に適切な知識を活用するために不可欠であり、HighlyKnownの例だけにフォーカスするよりも全体的なパフォーマンスを向上させることが示されました。
テストセットのカテゴリー別分析：モデルがテストセットの異なるカテゴリーの例にどのように応答するかを分析し、ファインチューニングデータセットの構成がモデルのパフォーマンスに与える影響を明らかにしました。
分布外テストセット（OOD）におけるインサイト：OODテストセットに対するパフォーマンスも分析し、ファインチューニングデータセットに含まれる未知情報の量がOODパフォーマンスに負の影響を与えることを発見しました。

この研究は、NLPコミュニティにおいて、事前学習された言語モデルをファインチューニングする際のベストプラクティスを理解する上で重要な洞察を提供します。特に、ファインチューニングデータセットの選択がモデルの知識ベースとホールシネーションの傾向に与える影響に関する理解を深めることに貢献しています。

Question 5: 本研究の成果について特筆すべき部分を、その分野の専門家向けに詳しく説明してください。

この研究では、言語モデルが持つ知識の範囲を定量化し、分類するための新しいフレームワーク「SliCK」（Spectrum of Language model's knowledge of Content）が開発されました。このフレームワークは、「HighlyKnown」、「MaybeKnown」、「WeaklyKnown」、「Unknown」という4つのカテゴリーに基づいてモデルの知識を評価するものです。これにより、モデルがどの程度の確信を持って答えられるかを判断することができます。

ファインチューニングデータセットの選択がモデルの知識ベースおよび推論能力に与える影響についても明らかになりました。特に、「Unknown」カテゴリの情報を含むデータセットを使用すると、モデルのパフォーマンスが低下し、誤った情報を生成する可能性が高まることが示されました。

未知の情報を含む例をファインチューニングに使用することで、モデルが実際には存在しない情報を生成する「ホールシネーション」のリスクが増加することが確認されました。これはモデルの信頼性と有用性に直接影響を与えるため、特に重要な発見です。

また、「MaybeKnown」カテゴリーの情報がファインチューニングにおいて重要であることが示され、モデルが事前学習中に獲得した知識を効果的に活用するためには、これらの情報が不可欠であることが分かりました。

分布外テストセット（OOD）に対するモデルのパフォーマンスも評価され、ファインチューニングデータセットの構成がOODパフォーマンスに与える影響を明らかにしました。これにより、実世界のアプリケーションにおけるモデルの適用性と頑健性を高めるためのガイドラインが提供されます。

さらに、この研究は、言語モデルが知識をどのように表現し、新しい情報をどのように学習していくかについての理解を深め、NLP分野における言語モデルの知識ベースを強化するための方向性を提供しました。

これらの成果は、言語モデルのファインチューニング戦略を最適化し、質問応答システムの性能向上に寄与する可能性があります。また、モデルの知識ベースの評価と強化に関する今後の研究における基盤を築くことにも貢献しています。

Question 6: 本研究の限界について特筆すべき部分を、その分野の専門家向けに詳しく説明してください。

この研究における顕著な制限点として、まず第一に、モデルが新しい知識を獲得する過程において未知の例が有害であるという結果は、特定の実験設定とデータセットに基づいています。したがって、異なるモデル、タスク、またはデータセットにおいて同様の結果が観察されるかどうかは不明です。さらに、未知の例をフィルタリングすることで性能が向上する可能性が示唆されていますが、このアプローチは実用的なシナリオでは適用が難しい場合があります。未知の例を正確に識別することは容易ではなく、また未知の例を除外することによって、モデルが新しい知識を獲得する機会が失われる可能性があります。

次に、早期停止（EARLY_STOP）を用いて過学習を避ける手法は、実験において有効であることが示されていますが、最適な停止点を決定することは実際には困難であり、また開発セットのパフォーマンスが最適なモデルの一般化能力を常に反映するとは限りません。早期停止の使用は、未知の例がモデルのパフォーマンスに与える影響を軽減することができますが、このアプローチがすべての状況で最適であるとは限りません。

さらに、線形モデルを使用して既知および未知のトレーニング例がテスト精度に与える影響を評価するアプローチは、単純化された仮定に基づいています。実際のモデルの挙動はもっと複雑であり、線形モデルがそのすべてを捉えることはできません。したがって、このアプローチがモデルの性能を完全に説明するわけではないという点を理解しておく必要があります。

最後に、SliCK（Self-supervised Learning of a Classifier for Knowledge）という新しい分類法を提案していますが、この分類法が他のモデルやデータセットに対してどの程度有効であるかはまだ未検証です。また、この分類法はモデルが「知っている」と判断される事実に依存しており、そのような事実の決定は主観的である可能性があります。SliCKの分類法が広範な研究や異なるドメインでの応用において有効であるかどうかは、今後の研究で検証する必要があります。

Question 7: 本研究で得られた特筆すべき知見を、その分野の専門家向けに詳しく説明してください。

この研究では、言語モデルがどの程度の知識を持ち、新しい情報をどのように学習するかについての洞察が得られました。具体的には、知識のカテゴリー分け（HighlyKnown、MaybeKnown、WeaklyKnown、Unknown）を用いて、言語モデルが既知の情報に基づいて新しい情報をどのように統合するかを調査しました。

まず、既存の言語モデル（M）が持つ知識を４つのカテゴリーに分類しました。これらは、言語モデルが正確な回答を生成できる確率（PCorrect）に基づいており、質問に対する正しい回答を得られる確率が高いものから低いものまでを分類しています。

次に、これらのカテゴリーを用いて、言語モデルが新しい情報を学習する際のパフォーマンスを評価しました。特に、学習データセット（D）に含まれる「Unknown」カテゴリーの例の割合を変えることで、言語モデルのパフォーマンスにどのような影響があるかを検証しました。

その結果、学習データセットに「Unknown」カテゴリーの例が多いほど、言語モデルは新しい情報を学習する際に「ハルシネーション」（誤った情報を生成すること）を起こしやすいことが明らかになりました。これは、言語モデルが不確実な知識に基づいて推測を行うことが原因と考えられます。

また、研究では、言語モデルが新しい情報を学習する際に、既知の情報に基づいて正確な回答を生成する能力が重要であることが示されました。既知の情報が豊富であればあるほど、言語モデルは新しい情報を効果的に統合し、正確な回答を生成することができるということです。

この研究は、言語モデルの知識をどのように評価し、学習プロセスを最適化するかについての新たなアプローチを提供しています。また、言語モデルが新しい情報を学習する際の限界と可能性についての理解を深めることにも寄与しています。

Question 8: この論文中の記載で曖昧な部分を、その分野の専門家向けに詳しく説明してください。

論文中で専門家が解釈に困難を抱える可能性のある曖昧な記述としては、次のような点が挙げられます。

まず、PCorrect の定義に関して、モデルが質問 q に対する答えとして a を生成する確率をどのように推定するかが不明瞭です。具体的には、異なる4ショットのプロンプトを使用して、T=0 の場合の確率と T>0 の場合の確率を推定していますが、これらのサンプリングの方法や、なぜこれらの値を使用して知識のカテゴリを決定するのかが曖昧です。

次に、知識のカテゴリ分けに関して、HighlyKnown, MaybeKnown, WeaklyKnown, Unknown の4つのカテゴリに分けていますが、これらのカテゴリ間の境界がどのように定義されているのか、また、これらのカテゴリが実際のモデルの知識状態をどの程度正確に反映しているのかが不明瞭です。特に、PCorrect の値に基づいてカテゴリを決定していますが、この値がどの程度信頼性があるのか、また、異なるカテゴリのサンプルが均等に分布しているかなど、メトリクスの妥当性についての議論が不足しています。

さらに、エラー分析に関して、EM (Exact Match) メトリックが False の場合に、予測された答えが間違っていると仮定していますが、これがパラフレーズや異なる粒度の回答によって誤って分類されている可能性があります。この点に関する分析が不足しており、モデルのパフォーマンス評価に影響を与えている可能性があります。

最後に、OOD (Out-of-Distribution) テストセットに関するパフォーマンスの評価が含まれていますが、開発セットが変更されていないため、OOD テストセットの最適な停止点を反映していない可能性があります。また、OOD テストセットに対するモデルのパフォーマンスに影響を与える他の要因についての考察が不足しています。

これらの点は、論文の主張と私の知識との比較において、曖昧さや解釈の難しさをもたらす要因となっています。論文の主張には一定の妥当性がありますが、これらの曖昧な点を明確にするためには、さらなる詳細な説明やデータの分析が必要です。

Question 9: 本研究で用いたデータセットを網羅的に列挙し、名前やURLなどがあればそれらも含めて詳しく説明してください。

本研究で利用されたデータセットの包括的なリストと、それぞれの詳細については、提供されたコンテキストからは明らかではありません。研究に関する具体的なデータセット名やURL、それらの詳細情報については、本論文の他のセクションや付録、参照文献リストなどを参照する必要があります。そのため、この質問に対する答えは、提供されたコンテキストの範囲内では提供することができません。

ただし、研究においては、一般にデータセットは研究の手法や結果の検証に不可欠な要素であり、論文内でその出典や特性、前処理の方法などが記述されることが一般的です。データセットに関する情報は、通常、論文の実験セクションや方法論セクション、または付録に記載されています。研究者は、再現性や透明性を確保するために、使用したデータセットのソースやアクセス方法を明記することが求められます。

Question 10: 本研究を特徴づけるキーワードを日本語で提案し、ハッシュタグとして列挙してください。（５個程度）

A データ前処理
このセクションでは、§2のデータ前処理ステップについての追加の詳細を展開します。ENTITYQUESTIONSデータセット（Sciavolino et al., 2021）は、トレーニング、開発、テストの分割を含み、24の関係をカバーしています。私たちのトレーニング、開発、テストセットは、ENTITYQUESTIONSのオリジナルの分割に基づいてキュレートされています。しかし、私たちは12の関係のみを使用しており、これは分布外テストセットのためにいくつかの関係を予約したかったからです。チェリーピッキングを避けるために、私たちのトレーニング、開発、テストセットで使用される12の関係はランダムにサンプリングされました。結果として得られた関係は、表3および表4に示されています。

私たちは残りの12の関係を分布外テストセットのために予約しました。しかし、これら12の予約された関係の中で、5つは私たちがトレーニングする関係に非常に似ていることがわかりました（表3を参照）。したがって、これは真に分布外のテストセットではない可能性があると疑いました。これに対処するために、これらの関係をフィルタリングし、分布外のために7つの関係を残しました。具体的には以下の関係をフィルタリングしました：
•P276はP131と直接重なるためフィルタリングされました。なぜなら、両方の関係においてENTITY QUESTIONSの質問は「[E]はどこに位置していますか？」の形式だからです。P276は「location」を意味し（https://www.wikidata.org/wiki/Property:P276）、P131は「located in the administrative territorial entity」を意味します（https://www.wikidata.org/wiki/Property:P131）。
•P20は「[E]はどこで死にましたか？」という質問テンプレートがあり、P19と関連する知識が必要になる可能性があるためフィルタリングされました。P19の質問テンプレートは「[E]はどこで生まれましたか？」です。P20は「place of death」を意味し（https://www.wikidata.org/wiki/Property:P20）、P19は「place of birth」を意味します（https://www.wikidata.org/wiki/Property:P19）。
•P106は「[E]はどのような仕事をしていますか？」という質問テンプレートがあり、P800と関連する知識が必要になる可能性があるためフィルタリングされました。P800の質問テンプレートは「[E]は何で有名ですか？」です。P106は「occupation」を意味し（https://www.wikidata.org/wiki/Property:P106）、P800は「notable work」を意味します（https://www.wikidata.org/wiki/Property:P800）。
•P413は「[E]はどのポジションをプレイしていますか？」という質問テンプレートがあり、P800と関連する知識が必要になる可能性があるためフィルタリングされました。P413は「position played on team / specialty」を意味し（https://www.wikidata.org/wiki/Property:P413）、P800は「notable work」を意味します（https://www.wikidata.org/wiki/Property:P800）。
•P159は「[E]の本社はどこにありますか？」という質問テンプレートがあり、P36と関連する知識が必要になる可能性があるためフィルタリングされました。P159は「headquarters location」を意味し（https://www.wikidata.org/wiki/Property:P159）、P36は「capital」を意味します（https://www.wikidata.org/wiki/Property:P36）。

分布外テストセットに使用される7つの関係は、表5に示されています。

最後に、2つの追加のフィルタリングステップを実行します：（1）Mの知識（§3）に関して例を分類するプロセスを簡素化するために、1つ以上の正しい答えがある例をフィルタリングします。（2）トレーニングセットとテストセットの間で被験者またはオブジェクトが重複しないようにするために、トレーニングセットから重複する例をフィルタリングします。

B テストパフォーマンスを幻覚の代理として
ここでは、私たちの設定におけるテストパフォーマンスと幻覚との関係について詳しく説明します。私たちの研究では、ファインチューニングされたモデルMD1のテストセットでのパフォーマンスが、別のファインチューニングされたモデルMD2と比較して劣る場合、これはMD1の既存の知識に対する幻覚の割合が高いために起こると考えられます。以下の説明によります。

テストセットは概念的に2種類の質問に分けられます。まず、Mが知らない答えを持つ質問があります。これらの質問はファインチューニング後も未知のままであり、私たちはトレーニングセットがテストセットとは別であることを確認しています。ENTITY QUESTIONSのトレーニングセットとテストセットのそれぞれ4.2％と3.9％が重複しています。

例えば、「Bruce Smith」は2つの異なる関係（P106とP413）で登場し、2つの例を生み出します：（「Bruce Smithはどのような仕事をしていますか？」、「poet」）および（「Bruce Smithはどこで生まれましたか？」、「Faribault」）。

ENTITY QUESTIONSトレーニングセットの2.1％が重複しています。

例えば、CAT r内の例の数を次のように定義します。例えばsize（HighlyKnown P131）= 553（表3を参照）。次に、次のように定義します：
|D| = Σr∈RTrainmin{size(CAT r) | CAT ∈ {HighlyKnown, MaybeKnown, WeaklyKnown, Unknown}}
ここで、RTrainはトレーニングセットの12の関係です。

以下は、ENTITY QUESTIONSの実際の例からのトレーニング、開発、テストセットのデータ形式の例で、関係P106（職業を表す）です。この場合の質問は「Ron Konopkaはどのような仕事をしていますか？」で、正しい答えは「遺伝学者」です。

次の質問に答えてください。
Ron Konopkaはどのような仕事をしていますか？

ファインチューニングハイパーパラメータ。私たちは、ファインチューニングのすべての段階を調べることができるように、トレーニングセットに完全に適合するために、すべてのモデルバリアントを50エポックにわたってファインチューニングします。私たちは学習率を1e-5、バッチサイズを128、ドロップアウト率を0.05として使用します。開発セットでモデルを各エポックごとに評価します。EARLY_STOP停止基準は、開発セットでの最大精度のエポックと定義されます。

F 異なる既知のカテゴリーにおけるトレーニング精度
§4.3では、ファインチューニングのダイナミクスを分析し、図1にファインチューニングの期間に関数としてのトレーニング精度を示します。単純化のために、既知のカテゴリーを集合的に扱いました。参考のために、完全なカテゴリー別の内訳を含むプロットも図6に含めます。

G 線形モデル
§4.4および§4.5では、テスト精度と分布外テスト精度を予測する線形モデル（式（1））を使用します。この線形モデルのパラメーターは、§4で使用されるDのすべてのバリアントの結果に基づいて推定されます。これらのバリアントすべてについて、テスト精度とMが異なるファインチューニング段階で適合する既知および未知のファインチューニング例の数を測定します。このようにして、（精度、N Kn、N Unk）の形式のデータセットを収集し、線形回帰モデルに適合させます。

H 分布外（OOD）評価
§4.5では、分布外（OOD）の結果について議論します。これらの実験では、単にファインチューニング中に見られなかった7つの関係からなるOODテストセットを使用しました（§Aを参照）。§4.1および§4.2で議論された分析を実行する際に、モデルをOODテストセットで追加評価しました。完全性のために、ここでは図3の分布外バージョンである図7を追加します。図7aは、Dの異なるファインチューニング期間における未知の例の％に関数としてのOODテストパフォーマンスを示しています。対応するインディストリビューション結果（図3a）は§4.1で議論されました。図7bは、未知のファインチューニング例をフィルタリングするアブレーションのOODテストパフォーマンスを示しています。対応するインディストリビューション結果（図3b）は§4.2で議論されました。私たちは、パフォーマンスの低下の全体的な大きさが小さいことに気づきます。最大6ポイントの低下に比べて、インディストリビューションでは最大14ポイントの低下です。このより小さい低下の大きさは、|βukn|および|βkn|の値が小さいことにも反映されています（表1）。

（a）
(b)
図7：ファインチューニングデータセットDの未知の例の％に関数としての分布外（OOD）テストセットのパフォーマンス。このプロットは図3のOODバージョンです。すべてが図3と似ていますが、y軸はOODテストセットの精度です。開発セットは変わっていません（OODではありません）、したがってOODの最適な停止点を必ずしも反映していません。

EARLY_STOP CONVERGENCE
Full Hkn Mkn Wkn Unk Full Hkn Mkn Wkn Unk
DHighlyKnown 40.5∗∗98.7 60.1∗∗9.0∗∗0.6∗∗40.0∗∗98.4 58.8∗∗8.5∗∗0.7∗∗
DMaybeKnown 43.6 98.4 69.9 12.1∗∗1.0∗∗43.2 97.5∗68.2 12.9∗∗1.3∗∗
DWeaklyKnown 39.2∗∗95.0∗∗59.2∗∗8.6∗∗0.4∗∗35.4∗∗73.5∗∗55.8∗∗17.2 2.2∗∗
DUnknown 37.5∗∗95.6∗∗52.9∗∗6.5∗∗0.6∗∗25.8∗∗55.8∗∗36.6∗∗12.2∗∗3.2
DNatural 43.5 98.0∗67.6∗∗14.1 1.8 41.8∗∗95.5∗∗61.7∗∗14.8∗∗2.5∗
表7：統計的に有意なテスト結果の詳細な注釈を付けた表2のコピー。各列では、最良の結果と統計的に有意な差があるものには∗と∗∗を使用して、それぞれp <0.05とp <0.01を示しています。

I 統計的有意性テスト
§5では、表2を提示します。キャプションで述べたように、各列について統計的有意性テストを実施します。このために、この列のすべての値を最大値と比較します。

テストセットの各サブセットについて、すべての例をランダムにシャッフルし、それらを100個のおおよそ同じ大きさのサブセットに分割し、関心のあるすべてのモデルについてそれぞれの精度を計算します。その後、対応するサンプルtテストを適用し、p <0.05およびp <0.01とします。

表2では、最良の結果が太字で、統計的に有意でない差があるすべての結果もp <0.05で太字になっています。さらに、すべての統計テストの結果が注釈された表2のコピーも含めます。表7を見ると、ほとんどの場合、差は統計的にp <0.01で有意であることがわかりますが、2つの場合にはp <0.05（DNatural UnkおよびDMaybeKnown Mkn）でのみ有意です。

「水平」の比較も議論しているため、EARLY_STOPとCON

この記事が気に入ったらサポートをしてみませんか？