AIが思い通りの画像を製作　1/14

2021年1月15日 14:02

こんにちは
昨日分を今投稿させていただきます。

今回はこの記事について取り上げさせていただきます。

機械が言葉を理解する難しさ

私はプログラミング学習に力を入れており、PythonやRの使い方や統計学の勉強を独学でしている状態です。今年はプログラミングスキルの習得に力を入れてやりたいと思っています。

その話はさておき、プログラミングというものはコンピュータに命令を施すための言語で、コンピュータに行動を指定したり、計算や分析をするのに利用します。

プログラミング言語を利用する理由は日本語や英語等の自然言語と呼ばれるものは思ったよりもあいまいで機械が理解するのは難易度が高いのです。そのため、自然言語による機械の操作は難しいというのが前提です。

記事の中では、言葉による指示で高度なイラストや画像を製作するAIのDALL・E（ダリ）が紹介されています。米国のOpenAIが開発したAIで、芸術家のサルバドール・ダリと映画のWALL-Eにちなんで命名されたようです。

今回のダリには、昨年に発表された言語モデルGPT-3の絵画版だそうです。GPT-3に関しては昨年noteに投稿したのでそれを見てください。言語理解と人間の理解を比較した内容です。

記事の中で、コマンドとそれを受けたダリが作成したイラストや画像が紹介されています。面白いのは作成した画像やイラストが一見リアルに見えてもよく見るとおかしなものが多いというところです。

記事の中にある部屋の画像に関してもリアルなものの中に、右下にリアルなベッドの横にイラストの水槽が配置されたような意味不明なイラストがあります。

そういった現実的ではないイラストでも、コンピュータは作っていまいます。なぜならコンピュータには現実的にはあり得ないという考え方があまり強くないのです。

しかしながら、何枚も候補があることによってほぼ現実に存在するものを写真で撮ったような画像を作ることもできます。最初の大根が犬を散歩しているイラストも誰かが作成したような出来です。

記事にもあるように大根が犬を散歩させるために、擬人化した大根のイラストを作成しています。このような配慮がなされているのも今まででは、なしえなかった要素です。

OpenAIのサイトに行くとコマンドを少し変更することができるのですが、大根をシマリスに変え、犬の散歩をピアノを弾くに帰ると、シマリスが鍵盤に乗っているイラストと擬人化のイラストの二種類が出てきます。

今までのコンピュータによる作成物はプログラミングによるものがほとんどでしたが、自分の思い描いていることがプログラミング言語なしで実現できる日は近いでしょう。

しかしながら、細かな調整や人間がイラストを製作する際の正確性を実現するのはまだ難しいと思われます。AI分野の最先端として注目すべきところです。

この記事が気に入ったらサポートをしてみませんか？