223

Elyzaという会社でAI Engineerをやっています。 https://223m…

223

Elyzaという会社でAI Engineerをやっています。 https://223mle.github.io/

最近の記事

[論文解説]Finding Replicable Human Evaluations via Stable Ranking Probability

タイトル: Finding Replicable Human Evaluations via Stable Ranking Probability 学会: NAACL 2024 著者: Parker Riley, Daniel Deutsch, George Foster, Viresh Ratnakar, Ali Dabirmoghaddam, Markus Freitag (Googleの方々) ざっくりまとめこの論文では、人間の自然言語生成モデル(NLG)に対する評

    • [論文まとめ]評価者としてのLLMはバイアスを持っていていて一貫性がない

      はじめに昨今、LLMの評価にLLMを用いることが増えています。 そんな中で、評価者としてのLLM(以後、LLM評価者)をバイアスや一貫性という観点から分析を行っている論文を読んだので少しだけブログという形で紹介します。 Large Language Models are Inconsistent and Biased Evaluators 著者 Rickard Stureborg(Grammarly), Dimitris Alikaniotis(Duke Univers

      • yukiCup 2023 Autumn× atmaCupに参加した

         どうも、223です。今回は11/25に参加したyukiCup 2023 Autumn× atmaCupに参加したので、ちょっとだけ感想などを書きます。本当にちょっとだけですので、気になる方はguruguru上でディスカッションなどをご覧ください。 atmaCupは神  自分はコンペにフルコミットしたのが、学生限定atmaの時のみでしたので、今回のコンペが2度目のフルコミットしたコンペでした。開催時間は8時間程度と短く、フルコミットしやすいコンペ設計でした。とりあえず、a

      [論文解説]Finding Replicable Human Evaluations via Stable Ranking Probability

      • [論文まとめ]評価者としてのLLMはバイアスを持っていていて一貫性がない

      • yukiCup 2023 Autumn× atmaCupに参加した