よく来たな。今日はU-Netの論文を読んでいくぞ。最終的に俺はstable diffusionの論文が読みたいので、まずはU-NETを理解する。いつもよりは少し丁寧に書いた。DeepLで翻訳している。今回はgpt4に加えてclaude3 Opusに教えてもらいながら読んだがclaude3かなりいいぞ。俺はgpt4とclaude3どっちも有料で入っているが、最強だ。
U-Net論文
概要
はじめに
畳み込みニューラルネットワーク(CNN)の一般的な用途と、U-Netが対象とする医用画像処理タスクの違い。
CNNの典型的な用途: CNNは通常、画像分類タスクに用いられます。つまり、入力画像に対して、そのカテゴリ(クラスラベル)を出力します。例えば、画像が犬か猫かを判定するタスクがこれに当たります。
生物医学的画像処理における要求: 一方、U-Netが対象とする医用画像処理では、単なるクラス分類ではなく、画像内の特定の領域(例えば、腫瘍や臓器)を正確に識別し、その位置を特定(ローカライズ)することが求められます。これをセグメンテーションと呼びます。
先行研究は以下。
claude3の解説↓
この研究で重要なこと↓
claude3の解説を貼っておく。まとめると以下。
医療系のセグメンテーションで使用する画像はサイズがでかいのでオーバーラップ戦略というものをしている。画像をタイルに分割してひとつひとつをオーバーラップさせる。
オーバーラップするというのはつまり、ミラーリングで周辺情報を補完し、サイズを大きくしてから畳み込みを行うということ。なぜそんなことをするのかというと、unetは有効な畳み込みなので畳み込むたびにサイズが小さくなるから。
↓の課題にも対処したらしい。
ネットワーク・アーキテクチャ
U-netのアーキテクチャについて説明している。
図1を見るとわかる通り、ダウンサンプリングのステップの後にアップサンプリングを行うというアーキテクチャ。
また、有効な畳み込みをしているので出力サイズが入力よりも小さくなる。タイリングも含めて、入力タイルサイズを決めるときは、この点を考慮する必要がある。
学習
学習は確率的勾配降下法を使用。1バッチが単一画像。
数式の説明は以下。
ウェイトマップについて
数式から、d1とd2が小さい→境界付近であり、その場合は重みが大きくなる。つまり、境界の重みを大きくし、正確なセグメンテーションが促進される。細胞の境界などがこの分野では重要だから。
実験
結論