最近の記事
OpenAIの論文「The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions」の個人的メモ
論文のリンク 内容の要約 導入 現代の大規模言語モデル(LLM)は、単なるオートコンプリートシステムとしてではなく、ウェブエージェント、メール秘書、仮想アシスタントなど、さまざまなエージェント的アプリケーションを実現する可能性があります。しかし、これらのアプリケーションを広く展開する際の主なリスクの一つは、敵対者がモデルを操作して安全でない、あるいは破壊的な行動を取らせる可能性があることです。たとえば、LLMを利用したメールアシスタントに対するプロンプトインジェクション攻