見出し画像

とあるエンジニア兼SF作家の2023年振り返り

23年のはじめに自分が書いたブログを読むと、2023年はゆるふわに迷走するぞという決意をしていたらしい。過剰最適化ではなく新規探索をしなければという問題意識があったようだ。

実際、23年は自分が未経験のことも、得意じゃないことも積極的に受けるポリシーで一年を過ごしてみた。結果、個人からスタートアップ、大企業、果ては内閣総理大臣まで、幅広い方々とご一緒することが出来た。

やったことも多岐に渡る。コードを書き、テキストを書き、スライドを作り、現地を訪ね、展示を作り、話を聞き、動画を撮り、謎を作り、議論をし、スカイダイビングし、モノマネをした。

今年やったことを幾つか紹介したい。(「インターネットで治安の良さを得るには課金しかない」と教えてもらったので途中から有料です)


1) ディープフェイクユーチューバー

兼ねてより密かに実験をしていた技術がある。ディープフェイクの技術を使ってユーチューバーができないかと思っていたのだ。今年の2月ごろ、stable diffusionのvideo loopbackを重ねがけすることで自分の顔を別人の顔に変換しつつ、映像の一貫性をそれなりに保てるワークフローを作ることができた。音声の変換は3月に出現したRVCという技術を使っている。

LCMなどもなかった当時は、相当に計算リソースをかけてやっていた。Google Colaboratoryで15分間の動画を変換するのに数千円のコストがかかっている。

この手法を試しにディープフェイク検出ツールのDeepIDにかけてみたところ”Likely Real”(たぶん本物)という結果が出た。

相手がディープフェイクボイスを使っているかどうかを見抜く方法などを解説する動画などを出してみた。ユーチューブははじめるよりも続ける方が大変である。やりたいネタはいくつかあるのだが、撮影と編集と公開がまるで追いついていない。反省である。あと話が上手くなりたい。

また、この経験をもとに短編小説も書いた。小説すばる6月号に掲載された「ディープ・フェイカーズ」という小説である。ディープ・フェイク技術を使って自分の推しのVTuberの中の人を特定しようとするコロナ禍の女子高生の話だ。小説すばる6月号に掲載して頂いた。試し読みもできる。

2) 未踏ジュニアのPM

研究室の先輩の関さん (@YoshifumiSeki) や、未踏ジュニア統括をしている鵜飼さん (@ukkaripon) に誘って頂き、未踏ジュニアのPMを担当することになった。未踏ジュニアとは17歳までを対象にしている独創的アイデアと卓越した技術を持つ小中高生クリエータの支援プログラムだ。彼らのアイデアを形にするお手伝いをするのがPMである。

期間中、学生よりもむしろ自分が勉強させてもらっている感覚であった。特に今年はLLMによって学習環境にゲームチェンジが起きていて、小学生や中学生のクリエイターがChatGPTに質問しながら自力でめきめきとプログラミングを学習できるようになっていた。開発の内容もLLMっぽいネタが多い。

例えば私が担当させてもらった小林さんは『Capitalens』という国会中継をベースに文字起こししたり話者分離したり要約したりしながら政治の一次情報にアクセスしやすくするためのツールを作っていた。他にも四コマ漫画を自動生成したり、AIでTikTok用のニュース動画を自動生成したりと、AI技術を使い倒した提案が多かった。

小林さんの「CapitaLens」

最年少(小学五年)の上田さんの発表は特に印象に残った。彼には場面緘黙があり、話がしたいのに声が出せないので人と話せない。そこで彼は、ChatGPTに聞きながらプログラミングを学び、音声認識、合成音声、LLMを組み合わせ人と音声で会話できるアプリ「Be Free」を開発した。小学五年生の彼が自作のアプリを駆使しながら、大人びた合成音声で喋るさまはめちゃめちゃ印象的だ(VIVANTのドラムを思い出す)。

彼の発表は下記リンクから見れるのでとにかくみてみて欲しい

Be Freeでは会話の音声認識をして、まずChatGPTが「返答に含まれる単語の候補」を生成する。ユーザーは単語を1個以上選択する。ChatGPTは単語候補と会話文脈を元に返答すべき文章を単語から想像し、候補を提示するという流れだ。

インタラクションとして面白い以上に、そもそも自分が文章を考える時に脳内で何が起きているのか想像が膨らむ作品だ。思考するときに、脳内では適当に単語がpopして、そことは別のモジュールでその単語群が文章の形に整形されている気もする。そもそも思考の主体は脳じゃなくてやはり言語文法(というか言語モデル)の側に宿っているのかもしれない・・・とか色々なことを想像する。

抽象的に言えば、LLMを使い倒しながら、LLMを自分の発話プロセス(≒思考プロセス)に組み込むアプリを作るクリエイターが出現してきているわけだ。新世代の出現を感じる。

3) 総理のモノマネ

ある人物から突然「XX月XX日の15時からって空いてますか?」と聞かれた。予定が空いているかどうかは何をやるかに依存するので答え方が難しい質問である。が、この時はたまたま空いていた。後日、蓋を開けてみてびっくり、何と岸田総理との会だった。

ここから先は

4,084字 / 18画像

¥ 100

この記事が参加している募集