見出し画像

【前編】ASCIIさん主催、日本マイクロソフト協賛のAIハッカソンに参加してきたよ

2024年4月18日-4月19日にかけて行われた「AI Challenge day」というハッカソンに株式会社ソフトクリエイトと株式会社ecbeingの2社合同チームで参加してきました!

会場は兵庫県神戸市にある「Microsoft AI Co-Innovation Labs Japan (Kobe)」です。
地図で経路出すとこんな感じです。片道最短4時間。
大事な事なのでもう一度。片道最短4時間。


DAY0

集合時間から計算して絶対間に合わないため前乗りしました。

明日から二日間、絶対忙しいだろうという事で、Oさんの地元民の友人からおすすめされたという餃子の店で軽い決起会。
「マルチモーダル※は多分課題に入ってくると思うんだよねぇ…」という死亡フラグを無事立てる。なんせ全員RAGは作った事あるけどマルチモーダルのRAGはやった事ない。

※文章だけではなく画像や音声・動画等の複数の入力を基とした処理を行うシステム。

ecbeing組の上司から「ラーメンと餃子奢ってやってください」とミッションもあったのでそのままラーメン屋へ。

その後、みんなホテルに帰って翌日に備えます!!

・・・が、「マルチモーダルは多分課題に入ってくると思うんだよねぇ…」という筆者の発言により、「マルチモーダル来たらどうやって文章データとの関連付けすればいいんだ」、「そもそも画像入力からの検索ってどうするのが正解なんだ。」、「画像出力来たらどうしよう」、「動画の場合はある程度妥協しないと」等とメチャメチャ色々考えてしまい貫徹してしまいます。AM4:48に投稿しているあたりにやらかしてる感。

DAY1

現地到着!思ったより歴史がありそうなビル、なんとなくソフトクリエイト本社の渋谷クロスタワー感が漂う。

AM9:30-AM10:00集合スケジュールだった筈が、AM9:35に会場に入ったら既にほぼ全員揃っていた。やる気ありすぎの本気感が伝わってくる。マイクロソフト側も想定外に全員揃ってしまったので予定より少し早めて開始の挨拶。

画像左:日本マイクロソフト株式会社 内藤 稔 様 画像右:角川アスキー総合研究所 大谷 イビサ 様

早速課題の発表
日本マイクロソフト 花ケ崎 様よりテーマの発表。
「世界遺産トラベルアシスタント」というテーマでRAGを行って精度を競う。

そして課題の内容は!

はい、マルチモーダルでした!
その後採点方法についての説明、RAGの精度で25点満点、合計40点満点で競います。

これから行う開発で使用する部屋割りをこの最新鋭の設備の整ったマイクロソフトの最先端ラボにふさわしい方法で決めます。
そうです、くじ引きです。しかも紙コップとマドラーです。

持ってる男 ecbeing Oさん、一番デカくて綺麗な角部屋の会議室を引き当てる。

午前中は丸々全体の構成を決める事に。
課題のデータは「テキスト」、「画像」、「画像付きPDF」等、多岐に渡っている事から、「テキストと画像のデータとしての紐付け」というのを軸に話を進める。
動画無くて良かった。本当に。

検索のベースは「Azure AI Search」を使用する事に早々に決定、画像入力時の検索方法をどうするか、というのが一つ目の悩みどころ。
GPT-4-Turbo-with-Visionにそのまま投げればどんな画像なのかは理解してくれますが、関連情報をどうやって持ってくるかねという話です。

そこで「Azure AI Vision」の「Vectorize Image API」を使用して画像データをvector化し、検索クエリとして入力値の画像を同様に「Vectorize Image API」を通してVector化して検索する事で”類似した画像”を検索する事にしました。
用意した画像のVectorデータベースには事前に「GPT-4-Turbo-with-Vision」に画像について説明してもらった説明文を追加しておく事とし、画像付きPDF内の画像については画像の存在した場所に画像の説明文を置き換える事で、文章のみで全てが片付く形にする事に。

ここまでで4時間以上経っていたかと思います。
勿論全体の構成を考えつつも必要だと解っているパーツについては製造を始めています。

そして1日目の夜時点で出来ていたアーキテクチャがこちら!

ここから製造は協力して分担し、データ整備をソフトクリエイトの若き20代2名が、フロント・API周りをecbeingの若き20代2名が担当し、筆者はお菓子を買って来たり写真を撮ったりする担当になりました。
PM6:00がDay1のタイムリミットです、30分前の時点でAPIの大部分は出来上がっていましたがデータ整備でいくつかの課題が上がってきました。

1.PDF内のページ情報は取得できそうだが位置までを正確にというのは難しそう
2.そもそも画像しか入ってないPDFが存在する
3.よく見たらパワポとワードファイル有るんだけど

1.の課題はファイル名とページ情報から同一ページ内にある文章や画像を関連情報として引っ張る事で解決できそうではある。
2.の課題はそもそも文章データがない場合PDFを画像としてOCR処理する事とした。
3.の課題は、え、今?って感じではあるが、同様に画像としてOCR処理した所、案外行けたのでそこまでは頑張る事に。

1日目の終了時間を迎えるとPM8:00まで延長可能との事。
課題山盛りなのでお言葉に甘えて居座る事に。

夜景は綺麗でした。

画像データベースを作成するためのGPT-4-Turbo-with-Visionでの説明文生成や、OCR処理部分、検索用インデックス作成といったデータの基盤部分が間に合わぬままPM8:00を迎えると。PM10:00まで延長可能との事。
翌日の採点用スクリプトをデータが不足している状態で実行した所、この時点で13/25点というスコア。ここからは上がるしかないな!と前向きに作業を進めて1日目の「MSオフィスでの」作業は終了。皆目が死んでいる。

【後編】ASCIIさん主催、日本マイクロソフト協賛のAIハッカソンに参加してきたよでは、ハッカソン当日の様子を書いていますのでそちらもぜひ読んでください。

【参考:ASCII記事】
https://ascii.jp/elem/000/004/194/4194225/?_fsi=QXjj7fhZ&_fsi=w7ZTNBrM&_fsi=IDSKphbY

■放送情報
放送日:2024年4月19日(金)
番組:生成 AI はどこまで乗りこなせるのか!? ASCII×マイクロソフト生成 AI コンテスト中継
*ソフトクリエイトのプレゼン開始時間:1:11:45‐ (YouTubeアーカイブ)

#仕事について話そう
#エンジニア
#ハッカソン
#AI
#生成AI


この記事が気に入ったらサポートをしてみませんか?