マガジンのカバー画像

ライトニング・サマリー ブログ

4
主にLLM論文のまとめです。YouTubeチャンネル『Lightning Summary』の動画を制作する上で整理した内容をまとめたものです。動画には入れられなかった内容も含まれ…
最新記事については1週間無料公開としています。
¥100
運営しているクリエイター

#MMLU

LLMのキャリブレーション:"logprob"の値が高ければ結果を信頼できるのか?

YouTube動画LLMのキャリブレーション(Calibration)MMLUという超メジャーベンチマークの原論文で結構強調されているにも関わらず、MMLU関連で言及している人があまり見当たらないキャリブレーションについて説明していきます。

MMLUデータセットとは何か: LLMの性能測定

YouTube動画noteで日本語記事にしていない動画もありますので、よかったらYouTubeも高評価やチャンネル登録していただけると励みになります! MMLULLMのベンチマークデータセットは多数ありますが、今回はHendrycks et al. ICLR (2021)によるデータセット MMLU (Massive Multitask Language Understanding) について、原論文の内容を追う形でまとめていきたいと思います。