見出し画像

【無修正】Llama3 Uncensored を試す【脱獄モデル】

はじめに

文章生成AI(LLM)の Uncensored は仰々しく聞こえてしまいますが、実は Stable Diffusion webUI 等のAI画像生成系は最初からデフォルトで脱獄しています。元々のコードは生成途中で觝触すれば黒塗り画像に差し替えるようになっています。昔はミーム画像に変わったりしていたのですが、最近はどの画像生成システムでも見なくなりました。

確かに、LLM は画像だけの生成とは異なり、犯罪や爆弾の作り方などを答えてしまう可能性があるため、一般公開する場合は必須機能だと言えます。しかし、実際にどの程度のものであるかをリアルに知るには、個人の立場で、研究目的として、オープンソースモデルを利用するしかありません。※ 決して Uncensored と聞いて少年の心をくすぐるからといって推奨しているわけではありません。

ollama + open-webui のローカルでの動作方法はこちらで説明しています。

通常モデルで実験

通常の llama3 (8b) モデルに18禁の話題を直接的に聞いてみます。「エルフのエ○画像を生成するプロンプトを教えて」と聞いてみます。

Censored(通常)モデル

優秀です。門前払いでした。

カスタムモデルで実験

lightblue 社が公開している llama3に日本語チューニングを施したモデルです。

llama3 カスタムモデル

Uncensored 目的のチューニングをしているわけではありませんが、ブロックが弱まり少し混乱しているような回答ですね。しかし、本丸は守りきっているように感じます。

Uncensored モデルで実験

ollama を利用すれば嫌でも Uncensored が目に入りますが、モデル先のリンク紹介は控えさせてもらいます。

llama3 Uncensored モデル

ブロック・コンテンツである事を理解しているようで、回答がウキウキになったり、注意書きはあります。(ウキウキなのは、チューニング作者が入れているのだと思います)

もちろん悪用は厳禁ですが、筆者が色々試した限りだと、8Bモデルではオモチャ程度の精度なので過度に恐れる必要はないように感じました。ただし現在でも最先端は100倍、1000倍パラメータのものであり、これから数年間はバトル少年漫画レベルのインフレを起こすだろう事は確実なので、人類の存続のためにも注視が必要なのだと思います。

この記事が気に入ったらサポートをしてみませんか?