マガジンのカバー画像

OPTEMOエンジニアブログ

31
エンジニアメンバーのブログをまとめています。
運営しているクリエイター

#機械学習

モデル学習時のGPUメモリ不足(RuntimeError: CUDA out of memory)を解消した

こんにちは、エンジニアのすずきです。 GWは日本橋へ行くので、ひさびさに小洞天のシュウマイと五目焼きそばを食べてこようと思っています。余裕があったら台南担々麺も頼んじゃうよ。 ところで、BERTベースモデル(TabBERT)の学習時、入力データのサイズを大きくしたらGPUメモリ不足のエラーがでてしまうようになってしまいました。 AlgorithmError: ExecuteUserScriptError: ExitCode 1 ErrorMessage "RuntimeE

BERTベースモデルのFine-TuningにTrainerクラスを利用する

こんにちは、エンジニアのすずきです。 以前、IBM論文の参考コードでTabBERTモデルの事前学習を行い、Fine-Tuningについては自作コードを実装しました。 自作コードで一応Fine-Tuningをできるようになったのですが、F1スコアなどのメトリクスを計算するだけでも面倒さを感じていました。 事前学習のときと同様にTransformersのTrainerクラスを使えればメトリクスも簡単に出せるのに...といろいろ調べてみたところ、下流タスク用のヘッドをボディ(

PyTorchモデルをTorchServeのネイティブサポートでデプロイしてみた

こんにちは、エンジニアのすずきです。 以前の記事で、SageMaker Training JobsによるTabBERTモデルのFine-Tuningを行いました。 Fine-Tuning済モデルをS3にアップロードすることができたので、今回はSageMakerでモデルのデプロイをしてみました。 TorchServe作成した機械学習モデルを推論システムとして使うためには以下の要素が必要となります。 学習済みの機械学習モデル 学習済みモデルに入力する特徴量作成の処理(特徴

会社の資格取得補助を利用してAWS Certified Machine Learning - Specialty(MLS-C01)を取得しました

こんにちは、エンジニアのすずきです。 今月、会社の福利厚生に不合格でも全額負担という資格取得補助制度が追加されました。 「1年間つかわれなかったら制度廃止」とのことだったので、制度存続のために先陣を切ってこのたび試験を受けてきました。 今回受検した資格は、AWS Machine Learning Specialty (MLS-C01)というものです。 久しぶりの資格勉強だったので、できるだけ業務内容に近く、取得のハードルが低いもの(1~2週間で取得できそうなもの)を選びま