塾向け教材の解説改善効果を分析したときにはまりそうになった落とし穴

はじめに

こんにちは、ライフイズテック サービス開発部 データ基盤グループのホンディーです。

今日は最近行った分析で、危うく重要な点を見落としそうになった事例があるのでその内容とそこからの学びを紹介します。

前提と分析対象の施策

ライフイズテックでは学習塾とそこに通う生徒様向けに情報Ⅰの学習ができる「情報AIドリル」というサービスも提供しており、日々の学習に活用していただいています。

このサービスをより良いものにするために生徒様たちの学習継続状況や各問題の正誤データなどを分析しているのですが、その中で一部の単元で他の単元よりも理解が定着しづらい物があることが明らかになってきました。

簡単に説明すると、「情報AIドリル」は各単元の問題を一通り解くとその結果に応じて金、銀、銅メダルを獲得でき、金メダルならその単元はクリアとなります。そして、銀メダル以下であればその単元は後日再挑戦していただくという仕組みです。多くの単元は1回目で金メダルを獲得できなくても解説を使って学習していただければ、だいたい2~3回目には金メダルが獲得できる難易度です。しかし実際に学習されているデータを分析していくと一部でに、もっと多くの回数を要する単元が見つかりました。

その対策として、カリキュラムチームにより問題を解いた後に表示される解説をもっとわかりやすく改善する施策が実施され、僕がその効果の分析を担当しました。

最初に想定していた分析方法

解説を改善してその効果を評価するにあたっては、生徒様から発生する質問の件数など複数の指標で評価を行います。この記事ではその中でも一番重要な「金メダルの獲得率 」について取り上げます。

まず基本的な話として、改善を施したのが「問題」ではなく「解説」である、ということを考慮する必要があります。「問題」を改善したのであれば単純に、解説の改善版をリリースする前の評価(メダルの種類)とリリースした後の評価を比較することになります。
しかし今回改善したのは「問題を解いた後に読む解説」なので「次回改めて問題を解いた時に正解できるか」が重要となります。
そのため、「リリース前の解説を読んだ後の解答」と「リリース後の解説を読んだ後の解答」で分類して正解率を比較分析することにしました。

図にするとこんな感じです。

分析結果と懸念点

解説の改善版がリリースされて、2週間ほど経過した後、早速方針通りに集計しました。
その結果なんと、リリース前は20%にも満たなかった金メダル獲得率はリリース後の改善版の解説を読んで学習した生徒においては40%を超える高水準となりました。(情報AIドリルの中でも例外的に難しい単元への対策として今回の施策を行っているため、20%未満という低い値が出ています。通常はこんなに難しくないのでご安心ください。)

これだけ見ると効果抜群でめでたしめでたしとなるところですが、これがこの記事タイトルに上げている落とし穴です。単純に金メダルの獲得率だけ見て比較してはいけなかったのです。

そもそも、いきなり2倍以上の改善というのはあまりに極端ですし、改めて考えると懸念がいくつか残ります。今回はABテストの形を取れなかったことや、日々新しく導入されている塾もあるのでリリース前後で情報AIドリルに取り組まれる生徒様の学力水準に差がある可能性などもありました。

そこで念のため、「解説の改善等の施策を行ってない他の単元」も同じ方法で金メダル獲得率を比較したところ、軒並み大きく改善していることがわかりました。

何も施策を打ってないところまで大きく成績が変わるのは大変不自然な話なのでより幅広い観点で分析を行いました。

追加分析の結果判明したこと

何かを見落としていたのは明らかなため、ローデータに近い形でレコードを抽出して様々な観点で可視化を行いました。結果としてわかったことは、今回の比較では「リリース前の解説を読んだ後の解答」と「リリース後の解説を読んだ後の解答」の2群の生徒間で、「前回の学習から空いた日数」が全く違うということでした。

解説を新しくリリースしてから、2週間後にこの検証を行っているので、「リリース後」の方に分類されている解答結果は当然ながら「全て2週間以内に再学習を行っている」データでした。もっと言えば、塾に導入いただいていますので、1週間おきに利用いただけていることが多く、また、自宅学習で活用していただいている生徒様に関しては週に複数日学習していただいていたため、「大部分のデータは1週間以内に再学習を行っている」という状況でした。

一方で、比較対象となったリリース前のデータはどうでしょうか。同じく塾に導入されていますので「前回の学習から1週間開いているデータ」が多数あるのは同じですが、それ以外にも1回塾をお休みされていたり、情報AIドリルの中の解説を変更していない他の単元の学習を優先されたりといった事情で、該当解説を改善した単元に絞って見ると「2週間以上学習間隔が空いた」生徒様もたくさんいらっしゃいました。また、中には「1ヶ月以上ドリルの学習を中断していた生徒様の再学習のデータ」もありました。(各塾のスタッフや先生の尽力のおかげで、一度中断していた学習を再開していただけたのだと思います。ありがとうございます。)

要するに、先程の分析で金メダル獲得率が大幅に上昇していたのは、「短期間のうちに再学習すると高成績を取りやすい」という事実が観測されていたということになり、純粋に解説の改善の影響だけではなかったということになります。

改めてどう分析するべきか

単純にリリース前の解説とリリース後の解説のどちらを読んで再学習したか、という基準だけで比較すると正常に分析できないことがわかりました。ただ、幸運にも前回の学習からの期間が重要なファクターであるということも判明したので、再分析ではその前回学習日かの間隔も考慮して次の表のように分けて金メダル獲得利率を算出して比較します。

本当はもっと細かく、1日単位で比較できるといいのですが、利用いただいている生徒様ごとに現在学習している単元が違い、ちょうど今この単元を学習している生徒の人数は少ないので、分類を細かくしすぎることもできず、バランスを見て決めました。本当はもっと他のいろんな特徴量も入れてモデルを作って分析できると良いのですが。

特に塾で毎週学習していただくことを想定しているので、この中では1〜2週間開けての学習での定着を重要視して分析していきたいですね。

今回の分析からの学び

教材を修正してその効果を調べるという、テーマとしては非常にシンプルな分析でしたが、自分にとっては学びの多いタスクになりました。

そもそも、「問題」を変更した場合と「解説」を変更した場合で分析の方法を変える必要があるという事実自体も今回のタスクを担当して初めて意識しました。
また、一定期間中に集められるデータ件数についても、「解説」を改修した場合は「次回の問題解答」が発生しないと分析できないため十分なサンプルサイズを集めるのに思ったよりも時間がかかるということも今回わかりました。
元々、2週間で何人くらいの生徒がこの問題を解いてくれるかという見通しを立ててはいましたが、1回その問題を解いただけのデータは解説の効果分析のデータとしては使えないのですね。逆に、問題を変更した場合は初めてその問題に取り組む生徒様の正解率が重要です。

そして、この記事の本題の落とし穴、前回の学習からの日数の影響について可視化できたことも大きな収穫でした。時間が経つと記憶が薄れるというのはもちろん知識として知っていましたし、自分の経験でも実感しているところです。ただ、実際に問題の正解率として観測して見たとき、その影響は自分が想像していたよりもずっと大きなものでした。

分析結果に感じた違和感は大事にしないといけない、というのももう何度目かわからないくらいですが改めて感じたことでした。そもそも効果が大きすぎましたからね。集計結果を報告する前に、念のため何も施策を実施していない他の単元についても調査し比較する、ローデータを時系列にプロットする、といった基礎的な確認を行った結果、今回の事象の原因を突き止めることができました。

まとめ

(ライフイズテックはまだ入社5ヶ月目ですが)これまで勤めた会社も含めて7年近くデータサイエンティストとして働いてきて、様々な観点の分析を行ってきました。大抵はどうやって分析するか、そのためにどんなデータを取るかという点から考えないといけなかったのですが、学習内容の定着に関してはそもそもテストというものがあり、点数として評価がつくものです。そのため、心の何処かに「リリース前後で点数を比較するだけなんじゃ無いの?」と甘く考えてた部分があったような気がしています。

そんな甘い話は全然無いので、このような一見単純に見えるタスクにも他の分析課題と同様に真摯に向き合って行こうと改めて思いました。


おしらせ

ライフイズテック サービス開発部では、気軽にご参加いただけるカジュアルなイベントを実施しています。開催予定のイベントは、 connpass のグループからご確認ください。興味のあるイベントがあったらぜひ参加登録をお願いいたします。皆さんのご参加をお待ちしています!


この記事が気に入ったらサポートをしてみませんか?