223

ELYZAという会社でAI Engineerをやっています。 https://223j…

223

ELYZAという会社でAI Engineerをやっています。 https://223jp.dev/

記事一覧

RAG Fusionが思ってたより凄そう

zennで解説を行っております。

223
3か月前
1

[論文解説]Chain-of-Note: Enhancing Robustness in RALMs

zennで解説を行っております。

223
3か月前
1

[論文解説]Finding Replicable Human Evaluations via Stable Ranking Probability

タイトル: Finding Replicable Human Evaluations via Stable Ranking Probability 学会: NAACL 2024  著者: Parker Riley, Daniel Deutsch, George Foster, Viresh Rat…

223
3か月前

[論文解説]評価者としてのLLMはバイアスを持っていていて一貫性がない

はじめに昨今、LLMの評価にLLMを用いることが増えています。 そんな中で、評価者としてのLLM(以後、LLM評価者)をバイアスや一貫性という観点から分析を行っている論文を…

223
4か月前
4

yukiCup 2023 Autumn× atmaCupに参加した

 どうも、223です。今回は11/25に参加したyukiCup 2023 Autumn× atmaCupに参加したので、ちょっとだけ感想などを書きます。本当にちょっとだけですので、気になる方はgur…

223
10か月前
[論文解説]Finding Replicable Human Evaluations via Stable Ranking Probability

[論文解説]Finding Replicable Human Evaluations via Stable Ranking Probability

タイトル: Finding Replicable Human Evaluations via Stable Ranking Probability
学会: NAACL 2024 
著者: Parker Riley, Daniel Deutsch, George Foster, Viresh Ratnakar, Ali Dabirmoghaddam, Markus Freitag (Googleの方

もっとみる
[論文解説]評価者としてのLLMはバイアスを持っていていて一貫性がない

[論文解説]評価者としてのLLMはバイアスを持っていていて一貫性がない

はじめに昨今、LLMの評価にLLMを用いることが増えています。
そんな中で、評価者としてのLLM(以後、LLM評価者)をバイアスや一貫性という観点から分析を行っている論文を読んだので少しだけブログという形で紹介します。

Large Language Models are Inconsistent and Biased Evaluators

著者

Rickard Stureborg(Gramm

もっとみる
yukiCup 2023 Autumn× atmaCupに参加した

yukiCup 2023 Autumn× atmaCupに参加した

 どうも、223です。今回は11/25に参加したyukiCup 2023 Autumn× atmaCupに参加したので、ちょっとだけ感想などを書きます。本当にちょっとだけですので、気になる方はguruguru上でディスカッションなどをご覧ください。

atmaCupは神

 自分はコンペにフルコミットしたのが、学生限定atmaの時のみでしたので、今回のコンペが2度目のフルコミットしたコンペでした。

もっとみる