見出し画像

#WWDC2020 に期待する発表

いよいよ来週。初のオンライン開催。消費者としての期待ではなく(つまり新製品とかではなく)、いちデベロッパー目線から期待している発表について書く。

機械学習ベースの音声処理サポートの拡充

機械学習/ディープラーニングを用いた画像処理機能についてはiOS標準のAPIでもかなり充実してきたが、音声の方はまだまだこれからという印象。

画像処理でいえばVisionフレームワークのレイヤーに相当するのがiOS 13で登場したSoundAnalysisフレームワーク。

何が嬉しいって、機械学習/DLモデルに音声を入力するための面倒な前処理をラップしてくれる。とくに音声処理は画像処理よりめんどくさい印象がある。

しかしこのSoundAnalysis、今のところ音声分類(Sound Classification)タスクしかサポートしていない。画像処理が画像分類タスク以外に画像検出やセグメンテーション、Style Transfer、類似度計算等々あるように、音声にもイベント検出(テンポや小節の頭の検出)や音源の分離、音源方位の推定等々さまざまなタスクがある。

SoundAnalysisだけでなく、Create ML, Turi Createも現状Sound Classificationしかサポートしてないので、このあたりで新機能の発表を期待している。

あとSound Classificationにしても、現状は自分でデータセットを用意してモデルを自作するしかないが、「人の声が入っているかそうでないか」「大人の声、子供の声、それ以外」「男性の声、女性の声」等々、汎用性が高いものはSoundAnalysisフレームワーク内に標準搭載するか、公式Core MLとして配布するかしてほしい。

Neural Engine APIもしくはReport

GPUに対するMetalみたいにがっつり専用フレームワークが出てくるところまでは期待していないが、たとえばXcodeのGPU ReportでGPUのフレームレートや負荷状況がわかる、みたいにNeural Engineで処理が行われているか確認できるようになるとか、

画像1

Neural Engineで処理されるレイヤー、そうでないレイヤーといった情報が確認できる公式ドキュメントが出るとか、何かしらNeural Engineに関して開発者側にも口を開けていく動きがあるといいなぁと。

U1チップに関する何らかのAPI

デプス@AVFoundation

ARKitではセグメンテーション用のマスクデータを毎フレーム取得できるが、AVFoundationでは(リアルタイムでは)取得できない。(保存した静止画から取得することはできる)

Create MLでセグメンテーションモデルをサポート

Core ML ToolsのGUI的なやつ

Turi CreateのGUIがCreate ML、みたいな感じで、Core ML ToolsのGUIがあってもいいんじゃない?と。モデルの変換がドラッグ&ドロップで済む、みたいな。input_namesに渡す名前とかは候補を抽出してくれてドロップダウンリストで選べる、みたいなイメージ。

ARKitの3Dオブジェクト検出の強化

「デプスを使わないことで幅広いハードで動く」を売りにスタートしたARKitだけど、今はLiDARなんていうハードを超限定する機能も入れちゃったわけだし、そろそろ3Dオブジェクト検出にテコ入れしてほしい。

ここから先は

68字
文章やサンプルコードは多少荒削りかもしれませんが、ブログや書籍にはまだ書いていないことを日々大量に載せています。たったの400円で、すぐに購読解除してもその月は過去記事もさかのぼって読めるので、少しでも気になる内容がある方にはオトクかと思います。

技術的なメモやサンプルコード、思いついたアイデア、考えたこと、お金の話等々、頭をよぎった諸々を気軽に垂れ流しています。

最後まで読んでいただきありがとうございます!もし参考になる部分があれば、スキを押していただけると励みになります。 Twitterもフォローしていただけたら嬉しいです。 https://twitter.com/shu223/