見出し画像

KaggleのML/AIコンペに参加しています‐自動エッセイ採点システム 2.0

自動エッセイ採点システム 2.0

今ML/AIコンペにチームリーダーとして参加しています。これは、米テネシー州のバンダービルド私立大学がアリゾナ州に拠点を置く独立した非営利団体であるThe Learning Agency Labと提携して主催しているコンペで、主に学生のエッセイ(作文)採点の自動化・効率化を図るためのアルゴリズムの開発を目的としています。

作文は米国でも生徒の学習パフォーマンスを評価をする重要な方法ですが、教育者が手作業で採点するので時間もコストもかかり、効率的な方法ではありませんでした。そのうえ近年起こっている教育者労働組合によるストライキなどにより、教育者の賃金増加の影響もあり生徒の提出物やテストを採点する作業や時間にかかるコスト増の影響も懸念されていました。

自動化されたライティング評価システム(AWE)はすでに存在していましたが、まだ採用するにはコストが高く多くの教育機関に提供できていない現実があります。すべてのコミュニティにこの重要な教育ツールを届けるためには、生徒のライティングを評価するオープンソースのソリューションが必要です。

このコンペティションでは、生徒に適した評価の現在基準に沿った最大のオープンデータセットを使用します。2012年に開催されたAutomated Student Assessment Prize (ASAP) コンペティションを改善するオープンソースのエッセイ採点アルゴリズムの開発を目指します。

👯コンペチーム

今回コンペにチームを組んで参加するのは初めてになります。
今のところチームメンバーは私と、インド人とイギリス人のデータサイエンティストの3人です。最大で5人までチームに入ることができます。

まだ始まったばかりですが、タスクの役割分担をしたり、コラボレーションしやすい環境をDiscord上に整えたりしています。また最新のアルゴリズムのリサーチなどもしています。現時点ではDeBERTaというマイクロソフトが開発した言語モデルを使用する予定です。

それから私個人ではデータのセットアップそしてLGBMを用いたベースラインモデルのトレーニングの流れを簡単に紹介したノートブックをKaggle上で公開しています。

興味ある方はぜひ見てみてください。

コンペの最終提出日は7月2日なので、途中経過などをNoteでシェアしていきたいと思います。


🌏endnotes…

ディスコード

👩‍💻ディスコード上でデータコミュニティーを運営しています。現時点では英語ですが、日本語チャンネルも作ってデータ、プログラミング、AIなどの技術に興味ある人たちを迎え入れられるようにしていきたいと思っています。興味ある方はコメント欄でお知らせください。招待コードを送ります。

🖊️何か気づいたことやご意見などがあればコメント欄からお願いします。チャンネルフォローもよろしくお願いします。

🚀 疑問に思った事はデータ化して自分なりの答えを探していこうと思います。そしてその答えがどこかにいる誰かの為になる事を願っています。

この記事が参加している募集

なりたい自分

with ヒューマンホールディングス

この記事が気に入ったらサポートをしてみませんか?