見出し画像

強化学習から考える人事の仕事

「短期的な報酬よりも長期的な報酬を重視せよ」なんて話はもう聞き飽きた。やたらめったらビジネス書にも、自己啓発本にも書き散らしてあって、もう何も感じない。というか、そんなことわかっているけど、短期的報酬が好きだ。でも、強化学習の事例をみてみると、妙にしっくり納得する。

強化学習ってのは、AIが繰り返し学習することで、人間に将棋で勝ったり、チェスで勝ったりしている、あれのこと。どのようにして、AIは強くなっていくのか。実はここから、おもろい概念がいくつか学べる。

あるキャラクターが、敵や障害物をよけながら最速でゴールするゲーム

具体的な例で考えてみる。例えば、あるキャラクターが、敵や障害物をよけながら、最速でゴールするゲームを想像してみてほしい。マリオみたいな感じだ。えっと、もしかしてマリオとかって古すぎて、あんま分からないか。まあ良い。話を進めよう。

前提として、AIに2つのミッションを課する。途中で敵や障害物によってゲームオーバーになってはいけない。あと、最速でゴールできることを良しとする。この前提で、とんでもない回数のゲーム経験(つまり学習)を積ませると、キャラクターは、とんでもないスピードでゴールできるように成長する。どうやって成長するのか。この経緯を見ていこう。

最初はランダム

1回目の学習では、完全にランダムでキャラクターが動く。もちろんすぐ敵に負ける。あるいは、障害物にはまってゲームオーバー。ゴールなんてできない。ただし、この学習で、今回の動きはダメだったということを学ぶ。

続いて2回目の学習を行う。2回目も、ほぼ情報がないからランダムで動く。ただし、1回目の動きはゲームオーバーだったので、2回目はその動きとは違うランダムな動きを行う。そして結局ゲームオーバー。

この動きを繰り返す。徐々にダメな動きを覚え、すごく時間はかかるけど、進んだり戻ったりしながらゴールできるケースが偶然生まれる。ただし、「最速でゴールできることを良しとする」ということもキャラクターに課している。なので、偶然ゴールできた回の、次の学習では、ゴールできないかもしれないリスクを冒して、動きを少し変えてみる。

敵や障害物に阻まれ、ゴールできないかもしれないし、仮にゴールできたとしてもタイムが遅くなる可能性もあり、早くなる可能性もある。

ワリビキリツ?ガクシュウリツ?イプシロン?

はじめてゴールできた以降も学習を繰り返し、最終的に、とてつもなく早くゴールできるケースが生まれる。これが強化学習の基本的なプロセスだ。学習を何度も何度も繰り返せば、早くゴールできるケースが生まれるのだが、キャラクターのある設定値を変更すると、より少ない学習回数で、とてつもなく早くゴールできるケースが生まれる。この設定値で代表的なものが、「割引率」「学習率」「イプシロン」だ。

割引率が低すぎれば、すっと同じ場所にいて、敵をよけ続けるが前に進まない

「割引率」という設定値は、将来の利益に対して、現在の利益にどれだけ重きを置くかという概念。割引率が高いほど、将来の利益を重視し、割引率が低いほど、短期的な利益を重視する。このゲームでいう「現在の利益」というのは、目の前の敵や障害物を避けること。「将来の利益」というのは、その先の敵や障害物を避けることや、ゴールすること。

割引率が高すぎれば、好タイムを狙いすぎて、目の前の敵にやられてしまう。割引率が低すぎれば、ずっと同じ場所にいて、確実に敵を避け続けられるが、前に進まないといった感じだ。高すぎても低すぎてもいけない。

新しい学習経験を優先した方がいいに決まっている?

「学習率」という設定値は、過去の学習経験と新しい学習経験のどちらをどれだけ重視するか、コントロールする役割を担う。新しい学習経験を優先した方がいいに決まっている、というのが普通の感覚だと思う。でも、そうではない。新しい学習経験が、必ずしも最適な行動であるとは限らない。

新しい学習経験は、たとえば一時的な状況のゆらぎのようなものや、あまり発生しない異常な状況によって、たまたま発生している環境の場合がある。この場合、新しい学習経験が活かせるシーンは今後訪れない可能性が高い。つまり、新しい学習経験より、過去の学習経験を重視すべきだ。新しい学習経験が必ずしも正しいというのは、間違った考え方だ。なので、学習率も、ようは、バランスだ。

冒険マインドとロジカルマインド

新しい知識や経験を得ようとする冒険マインドと、既にもってる知識や経験を利用して最適な答えを見つけるロジカルマインド、この2つを調整する因子が、イプシロンという設定値だ。イプシロンが高いほど、未知の行動を試すことを好む。イプシロンが低い場合、過去の経験に基づいて最適だと思われる行動を選ぶ。これも、イプシロンが高すぎると、敵にやられるリスクが増える。低すぎると、未知のより優れた答えを見つけるのに時間がかかる。

これらの概念を、無理やり人事業務に当てはめて考えると、まあ、示唆深けぇ

従業員は短期的な報酬(昇給やボーナス)と長期的な報酬(昇進やスキルアップ)の両方を重視する。どちらを優先するのがよいのだろうか?従業員ひとりひとりは、どのようなバランスを望んでいるのだろうか?会社全体としては、どのバランスが最適なのだろうか。従業員アンケートや面談などを通じてバランスを探ることは、価値がある調査となろう。

会社の組織文化や価値観で考えてみる。学習率が高すぎると、組織文化や価値観が急激に変わる。これが、良いことなのか、悪いことなのか。組織文化や価値観そのものだけじゃなく、それらが変化することに関するデータを収集し、急激な変化が組織文化や価値観に与える影響を考えることも、大きさ示唆が得られそうだ。

人材アサインについて考えてみる。イプシロンを高く設定し、新しいスキル開発やキャリアのチャレンジを求める従業員を優先して、新しいプロジェクトに配置。イプシロンを低く設定し、過去の成功実績を持つ従業員を重視して適切なポジションに配置。どちらがよいのだろうか。悩みは尽きない。

強化学習は、なにやら、人のキャリアとか性格とつながっているみたいだ。以前、ピープルアナリティクス導入のためのUdemy教材を作成した。もし興味があれば、一部無料公開しているので、ぜひ。


この記事が気に入ったらサポートをしてみませんか?