AI・機械学習学習者が実務とのギャップを埋めるための3つのステップ

近年、オンラインでPythonや機械学習について学ぶことが容易になってきており、そういったスキルを身に着けてAI開発分野へ転職を考える方も増えていると思います。

ただ、利用した教材にもよりますが、やはり実務とのギャップというものがあり、それに悩まされている方は多いのではないでしょうか。

この記事では、そういったギャップを埋めるためにやることをおすすめすることを3つご紹介します。
具体的な企業が決まっている人はそれをイメージして、まだ具体的な企業が決まっていない場合はなんとなくおもしろそうだと感じる分野や業界くらいをイメージすると良いかもしれません。

ある程度のことは学び終えてAI開発企業への就職・転職を目指している方の道しるべになると幸いです。

実務の理解を深める3ステップ

データについて知ろう

どんなAI企業でも必ず使っているデータがあります。
例を挙げると、

  • 顔認証AI: 人の顔写真

  • 翻訳AI: テキストデータ

  • 異常検知AI: 工業製品のデータ

  • 在庫管理AI: 販売履歴や在庫に関するテーブルデータ

  • 医療AI: 医療画像

  • 動画判別AI: 動画データ

といった感じです。

企業のHPを見れば普通どういった製品を開発しているのかを紹介しているはずなので、それを見てどういったデータを使っていそうか考えてみましょう。

昔に比べると、研究プロジェクトやkaggleをはじめとしたコンペサイトの増加によって公開されているデータの種類や量も増えています。
そのため、その企業の開発内容と合致するデータも探せば見つけられる可能性があります。
もし、そういったデータが見つかった場合はぜひどんなデータなのか自分で触ってみましょう。

特に、データの形式が独特な場合は事前にデータに触れて扱い方を知っておくことをおすすめします。
(例: 医療画像データのDICOMやNIfTIなど)
面接のときに開発経験や扱ったことのあるデータについて聞かないことはないので、良いアピールになるかもしれません。

タスクについて知ろう

データについて知ったら、そのデータでどういったことを行っているのかについて考えましょう。
上の例の場合だと、

  • 顔認証AI: 写真から顔の位置や目・鼻・口の位置や形の検出

  • 翻訳AI: 英語の文章を日本語の文章に変換

  • 異常検知AI: 正常か異常かの2クラス分類

  • 在庫管理AI: 回帰、多変量解析

  • 医療AI: クラス分類、病変検出

  • 動画判別AI: クラス分類、行動推定

といった感じです。

データとタスクはセットと言ってもいいのでぜひおさえておきましょう。

もし、類似のデータを見つけていた場合は、簡単なモデルでいいので自分でモデルを学習させてみることをおすすめします。
あるいは、学習済みモデルが公開されているなら、それを使って推論だけするのでも良いです。
一度でも自分でやったことがあれば、なにが難しくて課題になっているのかがイメージしやすくなるはずです。

英語が大丈夫なら、類似内容の論文やコンペティション上位の手法を探して読むのもおすすめです。

モデルの評価方法について考えよう

最後にモデルの評価方法、つまりなにに重きを置いたモデルを構築しているのか、を考えることです。
これまでの2つは比較的推測しやすかったのに対し、評価方法についてはクライアントの意向を反映させることも多いため、いわゆる答えのようなものを見つけることは難しいと思います。

とはいえ、クラス分類やなにかを検出するタスクにおいて根底にあるのはすでにみなさんが学んだであろう、

  • Accuracy

  • Precision

  • Recall

  • F1 score

といったもので、これらの組み合わせであったり改良したものを使うことが多いと思います。
なので、これらの基礎項目については

  • 必要な情報が与えられたときに計算できる

  • どういった意味をもつのか説明できる

くらいには理解を深めておきましょう。
難易度が上がりますが、類似データを見つけることができて自分でモデルを学習させられた人は、実際にそれぞれの評価方法で計算するとどうなるのか、その評価指標の値と肌感覚が合致するかどうか、といったことを試しておければすごく良いと思います。

また、業界によっては同じものであっても呼び方が異なることがあります。
例えば、医療AIだと特に医師の方と話すときにはPrecisionやRecallではなく陽性的中率や感度といった言葉を使うほうがスムーズに会話できることが多いです。
必須ではないと思いますが、知っているに越したことはないと思うので、医療AI分野に興味がある方はおさえておくと良いかもしれません。

さらに、最終的になにかの予測値や測定値を出す場合は誤差評価の必要があります。

  • 平均誤差(ME)

  • 平均絶対誤差(MAE)

  • 平均平方二乗誤差(RMSE)

のようなものを見たことがないでしょうか。

身近な例でいうと、ものの長さを定規で測るときにどれくらい正確に測れるのかを調べたいときにするのが、誤差評価です。

機械学習のカリキュラムだとあまりやらないかもしれませんが、分野によっては必要になると思います。必要そうな分野に興味がある場合は、簡単な統計の知識なので計算方法と各指標の適用例くらいは最低限おさえておきましょう。

そして、最後に言語モデルの場合です。よく見るのはBLEUスコアやPerplexityあたりだと思いますが、基本的に生成するテキストの種類によって違うので、

  • 評価に使うデータセット

  • 評価方法

をセットで覚えておくと良いでしょう。

まとめ

実務経験のない方が、実務への理解を深めギャップを埋めるのにおすすめの3ステップを紹介しました。

この3ステップを通して、興味のある分野のデータに触れて、自分でモデルを学習させることまでできれば、かなり深いところまで理解することができるはずですし、面接等でも良い印象を与えられるのではないかと思います。

この記事が気に入ったらサポートをしてみませんか?