NOISE （上・下）

2023年12月1日 20:41

NOISE 上下〜組織はなぜ判断を誤るのか〜
ダニエル・カーネマン、オリヴィエ・シボニー、キャス・R・サンスティーン（著）

ファスト＆スローのダニエル・カーネマンによる著書。続編。

■ 二種類のヒューマンエラー

医者の病名の判断、面接や人事評価、裁判の保釈審査、特許の是非の審査、アナリストの市場予測など実際の場面において多くのヒューマンエラーやばらつきが起こる。人によるばらつきだけでなく、同じ人でも異なる判断結果をするケースもある。

1 バイアス：系統的な偏り。平均誤差。射撃チーム全員の偏りなど
2 ノイズ：ランダムなばらつき。その時々で違う判断をするなど。バイアスを除いた後にも残るエラー。

背景
・犯罪の刑罰において、裁判官によって結果が異なる調査結果（架空のテストでは、裁判官によって判断が一致するほうがめずらしいという結果。一致したのは16件中3件。空腹の時間帯によっても変わる。好きなスポーツチームの結果によっても変わる）無関係な情報も多く影響してしまっている。性別（男性と女性）や人種の偏見（白人とアフリカ人など）もあった。
・保険会社の場合、保険金の金額が人によって50%以上の違いがあった。

判断のノイズを減らす取り組み（ガイドライン）
余計な情報を減らすため、ガイドラインにより犯罪歴（種類と回数）をもとに判断を行うと、裁判官のばらつきは減った。ノイズは減ったが、全体的に重めの判断となった（バイアスが増えた）ため、課題が残った。

ノイズは気付かれない
人と同じ問題を評価するというケースが少なく、判断にばらつきがあっても日常の現場では気付かない。専門職が判断する場合はより自信過剰になる

■ システム・ノイズ

システムノイズ：常に同一であるはずの判断に好ましくないばらつきが入る

望ましいノイズと好ましくないノイズ
好ましいノイズもある。映画の好みなど。研究者が同じアプローチをすることよりも異なる予測やアイデアがあるほうが多様性がある。システムノイズは好ましくないノイズとなる。

一回かぎりの判断におけるノイズ
一回かぎりの判断（結婚など）と繰り返しの判断（保険金の決定など）で違いが出る。繰り返しの判断は「統計的アプローチ」によりパターンを見つけ推測が可能となる。一回かぎりの判断は「因果論的アプローチ」になる。そのため、あらゆる原因を洗い出すことになる。

■ 判断

多くのプロフェッショナル（医療、政治、人材評価など）が判断を下している：様々な断片的な情報を集めて評価している。投薬効果や選挙結果など短期的なものは予測できるが、長期的なものは予測できない。また、音楽や美術など正解のないものにも、正解があるかのように評価を下すケースもある。多くのケースで誤差が生まれるが、真の値と自分の判断結果を比較するケースは少なく気づきにくい。

判断の6つの原則
１：判断は、自己表現ではなく正確性にある（個人の価値観は排除する）
２：統計的に考える（複数の類似するケースの1サンプルと捉える）
３：判断を構造化する（項目のガイドラインの作成など）
４：早い段階で直感を使わない（十分な情報を得た段階での直感は可）
５：複数の判断者の回答を統合する（議論の前に各自に聞いておく）
６：相対的な判断をする（絶対尺度ではなく相対尺度はノイズが少ない）

■ エラーの計測

判断を評価する
1. 実際の結果と判断を後から照合させる方法
2. 判断に至るまでのプロセスの質を評価する方法

判断の正誤は不明だが、散らばりの大きさからノイズは計測可能である。

バイアスとノイズの計測
MSE（平均二乗誤差）が計測を手法として用いられてきた。MSEでは標本平均をバイアスのない推定母平均として示せること。誤差が大きいほど過大に評価するデメリットもある。

平均二乗誤差（MSE）
誤差方程式：MSE = バイアスの二乗＋ノイズの二乗
（バイアスがあってもなくても、ノイズは単独に減らしたほうがよい）

ノイズをどの程度減らすのか
ノイズを減らすためにコストがかかりすぎるかもしれない。得られる効果
とのバランスをとることになるが、最初からノイズを減らすことを避けてはならない。

■ ノイズの分析

2つのシステムノイズ（同一であるはずなのに望ましくないエラー）

1 レベルノイズ：各人の判断に見られるばらつき。同じ５段階評価でも高めに評価する人と低めに評価する人など。（例：甘い裁判官と厳しい裁判感、抗生剤を出したがる医者とそうでない医者）
2 パターンノイズ：特定のケースにおける判断者の判断のばらつき。個人の価値観や事情などによる判断者と事案の交互作用。（普段は甘めの裁判官が万引きだけには厳しいなど）。パターンノイズには機会ノイズも含まれる可能性がある。さらに安定的なものと一過性のものに分かれる。
2-1 安定的におきるパターンノイズ
2-2 一時的に起きるパターンノイズ

どのような情報の優先順位をつけるかによってノイズが生まれる。（面接官によって、社交性を高評価する人や勤勉性を高評価する人などがある）

システムノイズの二乗＝レベルノイズの二乗＋パターンノイズの二乗

機会ノイズ：
パターンノイズの一種。天気が良い等の一過性なオケージョンによるノイズ。同じ裁判官が同じ案件を別の機会には異なる結果を下す。

機会ノイズの原因
確実な原因の一つに「気分」が挙げられる。直前に見た楽しいビデオが判断に影響を与える。ストレスと疲労も機会ノイズの一つ。また、承認が二回続くケースでは次は却下される可能性が高まる。
判断はフリースローのようなもので、同じ人でばらつきがでる。

集団によるノイズの増幅
誰が先に発言したか、話す順番などによって、判断が変わるというノイズが増幅するケースがある。
音楽ダウンロードの実験において、被験者は好きな曲をダウンロードする。しかし、各グループごとに他の人のダウンロードを見ることができる。するとグループごとに結果（人気ランキング）がまったく異なった。（カスケード効果：大勢の人で判断する場合、順番に前の人に意見を聞いてから判断するケース。前の人が信頼する人なのか、賛成する意見なのか等に影響する）

集団極性化
集団で話し合うと、個人の意見のときよりも極端な方向に行きやすい。他の人に背中を押されて、自分の意見に自信が出る。

３種類のバイアス
これらは心理的バイアスであり、同時にノイズも産む。

1. 置き換えバイアス：証拠に対する重みの付け方を誤らせる
2. 結論バイアス：証拠を無視させるか都合よく解釈させる
3. 一貫性バイアス：最初の印象の効果を増幅させる

■ 人間の判断とモデル

人間の判断か数式モデルか。「現時点での評価」と「将来の予測評価」の二段階があり、混在させてはならない。人間の判断では、現時点での評価が重視される可能性がある。

・統計的数式は何が勝っているのか
人間は無意識であっても多くの情報がノイズになっている。統計モデルは特定の数値のみを反映する単純なものでノイズが少なくなる。背景や気分はモデルには含まれない。

・線形回帰モデル（重回帰モデル）
予測の単純化において、同じ重み付けをした回帰モデルの精度が高かった（項目の重み付けをしないモデル）。重み付けをすると、誤差があった場合、その誤差が増幅する可能性がある。サンプリングの偶然に左右されない。

・なぜモデル、ルールをもっと使わないのか
大量のでーたがある場合は機械学習が有効である。なのにアルゴリズムをなぜもっと使わないのか。大事な判断や人の評価において、機会的判断を使わない傾向。人はアルゴリズムを試してみるが、一度期待を裏切られると排除してしまう。
しかし、モデルは人間の予測を多少上回るが、まだ称賛できるレベルに達していない。与えられた情報にもよる。

・統計的思考と因果論的思考
相関関係は原因（因果関係）ではない。因果関係は相関関係が存在する。
原因を推定しようとするアプローチ。統計的思考では、大量のケースを統計的に判断する。因果論的思考は直感的に原因を推定する。
- 因果論的思考：システム1（Fast&SlowのFast）
- 統計的思考：システム2（Fast&SlowのSlow）

■ レベル合わせ

どの程度か目盛りで評価する判断には、ばらつきがある。人間は絶対的判断よりも、比較するほうが容易である。大きいや優れているという判断は人によっても異なる。尺度の理解が異なるため。

■ ノイズの構成要素

様々な実験から、パターンノイズのほうが、レベルノイズよりも影響が大きい。さらに、パターンノイズのうちの安定したパターンノイズの影響は、システムノイズの他の構成要素よりも大きいと考えられている。機会ノイズは小さい傾向。

安定したパターンノイズは影響が大きい。レベルノイズの4倍。
（パターンノイズは、普段は甘めの裁判官が再犯には厳しくなるなど）

■ 予測市場での精度の向上

平均してもバイアスは減らないがノイズが減る。予測を新しい情報をもとにアップデートすることで精度は上がる。

・３つの改善グループによるテスト
1.教育グループ：予測精度を高める知識を事前に学ぶ
2.チームグループ：互いの情報を持ち寄りチームで予測を行う（統合）
3.選別グループ：予測精度の上位の人を選別する

→ いずれもノイズを減らす結果となった。特に３番目の選別が最もノイズの削減の効果が高かった。

・選別×統合
予測成績の高い人と別のスキルを持つ人を組み合わせる。

■ ガイドラインの効果

・医療の判断
教育や訓練は効果がある。複数の意見を効くセカンドオピニオンも効果的。新生児の判断に使われるアプガースコアはガイドラインの例（教育をうけていなくても判断のガイドラインが具体的に示されておりノイズが少なくなる）。機会ノイズ（日によって、気分によって、など）があったとしても、判定者が独自の重み付けを行わないようになっており、かつわかりやすいガイドライン項目によって判断を行う。

・人事評価の尺度
バイアスもノイズも入り込みやすい。客観的な数字だけでは示せない。360度評価（上司、同僚など複数の立場から評価する）でも、複数の統合によるもの。システムノイズを減らす効果があるがそれでもノイズ入り込む。評価項目の多さや多くの人の時間を手配することも要因。

● リンは評価がいつも甘い、メアリーは評価がいつも辛い
→リンとメアリーの差はレベルノイズ。使う尺度が違っている。

●リンはあなたには辛い評価をする
→パターンノイズ

●リンはその日ボーナスをもらって気分が良い
→機会ノイズ

相対的な判断（ランキング）は絶対評価よりもノイズが少ない。パターンノイズもレベルノイズも排除できる。しかし、この方式では全員が好評価にならない。もしかすると本当に全員が優秀な場合がある（NASAのチームなど）。優秀なチームの中で必ず低順位がうまれ、非優秀なチームの中でも必ず高順位が発生する。トレーニング（教育）にも時間がかかる

→ 絶対評価においてとても優れていると優れているなどの評価尺度の明確化

・採用面接
「面接時の評価」と「入社後の実績」を比較する分析。相関係数は0.2-0.3程度と重要な判断としては低い。その人が能力を発揮するには、様々な要素があり予測が困難。外見などもバイアスがかかる（共通のエラー）。同じ人が同じ人を面接しても結果が異なる場合がある（機会ノイズ）。

表面性（コミュニケーション、第一印象）が面接では影響が大きい。面接官が第一印象から質問をするなど、面接官によって質問をコントロールしやすい状況にある。

・構造化面接（Google）
1 分解：評価項目を明確化する（認知能力、職務関連知識など）
2 独立：評価項目ごとに独立して評価する。まとめて聞いて総合評価しない
3 評価は最後：個別に面接して、それまで面接官で意見交換しない。
4 実務試験を行う

相関係数は0.4-0.7と改善される

■ ノイズ削減のコスト

ノイズ削減の7つの批判

1 ノイズに削減に時間も費用もかかる
2 ノイズを削減しても他のエラー（バイアス）を呼び起こす可能性もある
（Facebookの投稿などのノイズを排除するため削除すると、全体の意見が偏る可能性がある）
3 多少はノイズがあったほうが人間味がある。話を聞いてもらえる実感
（アルゴリズムにノイズはないが、バイアスはありえる。人種や性別に差別的になる可能性がある。バイアスのかかった情報で作られたアルゴリズムはバイアスを増幅させる）
4 新しい価値観や姿勢のときはノイズはやむを得ない
（作られたルールに柔軟に修正しなければならない）
5 ルールの裏をかく者が出る
（税制の抜け道を探そうとするなど。ルールがあいまいな（ノイズがある）ほうが良い場合もある）
6 ノイズがあるほうが慎重になり、抑止力が生まれる
（予想される刑罰が明確よりも、判断にノイズがあるほうが抑止力がある）
7 人間の創造性を抑止する可能性
（ノイズを増やしたいわけでなく判断できることで主体性がでる）

・ルールと規範
具体的でない規範はノイズを生む。ルールの場合はひとつひとつを明確に決めていく必要があり、落とし所として規範になるケースもある。

-ルール（例：時速60km以上は禁止）
-規範（例：法外の速度は禁止）

ルールにするか規範にするかをどう決めるか。判断のケースが多いならばルールがあったほうが判断コストを下げられる。どちらがエラーが多くなるかを考える。

[ 付録ノイズ検査の方法 ]
・ケースの設計
正確なシミュレーションを立てられる専門家によって、テキストや数値で評価できる16などのケースを作成。
・回答者による回答
各ケースの評価を行い、判断に利用した情報を自由に書き出してもらう。そしてその優先順位をつけてもらう。ノイズの検査とは伝えない。
・経営陣に事前に想定する結果を聞いておく
同じケースを異なる評価を下すケースがどの程度あるかなど
・結果の分析
判断のバラツキを統計的に検討する。

[ 付録：意思決定のチェックリストの例 ]
1 判断に望む姿勢
A 置き換え：簡単に答えが出せる方向に置き換えていないか。重要な要素を見逃していないか、無関係な要素を不当に重視していないか。
B 統計的な観点でみているか。絶対的判断ではなく相対的判断しているか
C 多様性：何人かにバランスが偏っていないか。黙っている人はいないか
2 余談と時期尚早な結論
A ある結論になると得になる人はいるか、何でも反対する人はいないか
B 早い段階での検討された選択肢にバイアスがかかっていないか。他のケースも検討されたか。
3 情報処理
A 入手可能性。関係ない情報を重視していないか
B 信頼性。比喩に不当に依存していないか。
C アンカリング。一つの判断に引きづられていないか
D 平均の回帰を無視をした推定になっていないか
4 決定
A 予測を参照する際、情報源を確認しているか
B 意識決定者の結果に組織の方向にそっているか
C 計算に使用される数値などは組織の方向性を反映しているか