AWS MLS (機械学習) 試験対策メモ

れお太郎

2024年2月25日 23:07

こんにちは！れお太郎です。
ついにAWS MLSに合格しました！

AWS-MLS（機械学習合格）しました～
ﾊﾟﾁﾊﾟﾁﾊﾟﾁﾊﾟﾁ

ほんとに良かった～！！ pic.twitter.com/qbig3pcj2c
— れお太郎 (@reotaro24126) February 25, 2024

こちらのnoteでは、試験前の追い込み用にまとめたメモを記載してます！
問題集を解いて、引っ掛かった部分をまとめた感じです！
試験前の総復習にお使いください！

参考にした問題集はこちらです（アフィリエイトではないです笑）

＊順不同です

セキュリティ

Amazon Cognito
ウェブアプリケーションやモバイルアプリケーションに対する、セキュリティとスケーラビリティを備えた認証、認可、ユーザー管理のサービスであり、ユーザーサインアップ、サインイン、アクセス制御などの機能を簡単に追加することが出来る

AWS Security Token Service(STS)
一時的な資格情報を提供するサービス

コンテナ管理

AWS Deep Learning Containers (DLC)
ディープラーニング用の最適化されたDockerコンテナイメージであり、AWS上で機械学習モデルのトレーニングや推論を行うために特別に設計されている。TensorFlow、PyTorch、MXNetなどの一般的なディープラーニングフレームワークをサポートしている

Amazon Elastic Container Service (ECS)
コンテナ化されたアプリケーションの管理とスケーリングを行うためのフルマネージドコンテナオーケストレーションサービスであり、Dockerコンテナを使用してアプリケーションを構築し、それらをクラスターとして管理できる

Amazon Elastic Container Registry (ECR)
Dockerコンテナイメージを簡単に保存、管理、デプロイするためのフルマネージドなDockerコンテナレジストリサービス。ECSなどとシームレスに統合されている

AWS Fargate
サーバーレスコンピューティング環境を提供し、Fargateを使用すると、コンテナを直接実行でき、仮想マシンやクラスタの管理を気にすることなく、アプリケーションのデプロイメントに集中できる。しかし、GPUには未対応

学習時の対応

次元削減

PCA（主成分分析）
データの分散が最大となる方向を見つけ出し、その方向にデータを射影することで次元を削減する
t-SNE
データの次元削減を行う手法
高次元空間におけるのデータ間の類似度を低次元間の類似度に変換する

PCAはデータの分散を保持することが目的、t-SNEはデータ間の類似度を保持する。PCAは線形変換を用いてt-SNEは非線形変換を用いる

特徴量削減

再帰的特徴量削減（REE）
全ての特徴量を使ってモデルを学習させた後、特徴量ごとに重要度を算出して、重要度が最も低い特徴量を再帰的に削除する
L1正則化とL2正則化の違い
L1正則化は特徴量を削減する。L2正則化をノイズを削減する

ニューラルネットワークの処理

ドロップアウトの実行・ネットワークのサイズを小さくすることは過学習に対する有効な施策

欠損値補完

リストワイズ削除
欠損地が含まれるレコードをすべて削除する方法。欠損値を含むレコードが少ない場合は有効な手段
last observation carried forward （LOCF）
最後に観測された値でその特徴量の全ての欠損地を補完する
マルチプルインピュテーション
欠損値のないほかの特徴量を用いて、欠損値のある特徴量を推定する。欠損値を含むレコードが多数ある場合は補完する方法が有効

深層学習関係

自然言語処理

Seq2Seq
文章や音声などを別の系列に変換することで、翻訳や音声認識に使われます。文章→音声など
Seq2Vec
テキストデータをベクトル化する手法です。
Object2Vec
画像や音声などの非テキストデータのオブジェクトをベクトルに変換する手法です。

n-gram
n-gramとは、テキストや音声データなどのシーケンスデータにおいて、隣接するn個の要素（単語や文字など）の組み合わせのことを指す。
nの値によって、1-gram（単語や文字単位）、2-gram（バイグラム）、3-gram（トリグラム）などと呼ばれる。

例）”I love natural language processing”に対するn-gram

1-gram（ユニグラム）: "I", "love", "natural", "language", "processing"
2-gram（バイグラム）: "I love", "love natural", "natural language", "language processing"
3-gram（トリグラム）: "I love natural", "love natural language", "natural language processing"

NLTK (Natural Language Toolkit)
Pythonで書かれた自然言語処理のためのライブラリ
テキストのトークン化、品詞タグ付け等様々処理をすることが出来る

時系列予測

ARIMA
単変量時系列データの予測に使われる

CNN-QR
多変量時系列時系列データを予測する。

トピックモデル

トピックモデルは文章集合からトピック（話題）を抽出するための手法です
文書1: 「経済成長が予想される。多くの企業が投資を増やしている。」
→トピックは”社会”
文書2: 「新しい映画が公開された。多くの人が映画館に足を運んでいる。」
→トピックは”エンターテイメント”
潜在的ディリクレ配分（LDA）
トピックモデルの一つで文書分類等を行うことが出来る
ニューラルトピックモデリング(NTM)
深層学習を利用して、トピックを抽出する方法。LDAより複雑な関連性をみることができる。

レコメンデーション

協調フィルタリング
ユーザーベースとアイテムベースの２つのアプローチからレコメンデーションを行う手法。
ユーザーベースでは、類似した評価傾向を持つユーザーを見つけ出し、そのユーザーが高く評価したアイテムを推薦します。類似度は、コサイン類似度やピアソン相関係数などで計算されます。
アイテムベースでは、類似した評価を受けたアイテム間の関係に基づいてレコメンデーションを行います。ユーザーが過去に高評価したアイテムに類似したアイテムを推薦します。

コンテンツベースフィルタリング
アイテムの内容や特徴を分析してレコメンデーションを行う手法です。例えば、映画のレコメンデーションシステムでは、ジャンルや監督、俳優などの特徴を考慮して、ユーザーが好むであろう映画を推薦する。

コンテンツベースと比較して協調フィルタリングは、多様性、セレンディピティ、新規性に関して良い結果が生じる可能性が高い

データ

ファイル形式

Apache Parquet
列指向フォーマット、大規模なデータウェアハウスなどの使用に際医的化されている。列に対する操作やクエリが頻繁に行われる場合に最適。ほかのテキストフォーマットと比べてアンロードが２倍速く、ストレージ使用量が1/6になる。
Record IO
データレコードのストリームを保存するフォーマットで、機械学習のフレームワークに使われるレコードベースのフォーマット。画像データもRecord IOにすることが出来る。
Sage Makerの組み込みアルゴリズムに対応している。

データベースソリューション

Amazon RDS
リレーショナルデータベースの管理を簡単にする標準的なマネージドサービス。MySQL、PostgreSQL、Oracle Database、Microsoft SQL Server、MariaDBと複数のデータベースエンジンと互換性がある
Amazon Aurora
MySQLおよびPostgreSQLのみと互換性があり、従来のデータベースよりも高いパフォーマンスと可用性を提供するように設計されている。高いパフォーマンスのため、コストも高くなる

データの移行

AWS DataSync
オンプレミスのストレージシステムとAWSクラウド間、またはAWSクラウド内の異なるサービス間でのデータ転送を自動化し、高速化するために設計されている

Amazon Snowball
数テラバイトからペタバイト規模のデータを転送する
オンプレからAWSクラウドへの大規模なデータ輸送に使用する

Elasticシリーズ

Elasticsearch Service（ES）
リアルタイムの検索、ログ分析、アプリケーションモニタリングなどに使用されるマネージドサービスで、大規模なデータセットの検索等を高速に行うことが出来る
Kibanaを用いてデータを可視化することが出来る
Elastic Inference （EI）
機械学習モデルの推論に必要なGPUパワーを柔軟に追加できる機能
Elastic MapReduce（EMR）
ビッグデータ処理のためのプラットフォーム、Apache Hadoop、Apache Spark、Apache HBase、Apache Flinkなどのオープンソースフレームワークをサポートしており、大規模なデータセットの処理、分析、機械学習などに使用できる。

AWSのAIツール・SageMaker

AIツール

Amazon Lex
自然言語理解（NLU）と自動音声認識（ASR）を使用して、テキストおよび音声ベースのアプリケーションに対話型インターフェースを構築するためのサービス。チャットボットなどを簡単に作成できる

Amazon Comprehend
自然言語処理（NLP）を使用してテキストデータからインサイトを抽出するためのマネージドサービス。感情分析、エンティティ認識等を実施することが出来る
マルチラベルモード：一つの文書が複数のラベルに分類される
マルチクラスモード：一つの文書が一つのラベルにのみ分類

Amazon Transcribe
音声をテキストに変換することが出来るサービス。リアルタイム音声でも録音済み音声でもどちらにも対応している

Contact Lens for Amazon Connect
上記のComprehendとTranscribeを使えるため、どちらも利用したいケースにおいては最優先で使用を検討

Amazon Polly
テキストを音声に変換することが出来るサービス。複数の言語と様々な声のオプションをサポートしている

Amazon Forecast
完全マネージド型の予測サービスであり時系列データに基づく予測を行うことができる。データをアップロードし、予測モデルをトレーニングして、未来の値を予測するプロセスを自動化し、簡素化できる。CSVのみをサポート

Amazon Kendra
AIの検索サービスでドキュメントから特定の情報を抽出して効率的に提供する

Amazon Textract
スキャンされた文章や画像からテキストを抽出するOCRサービス

Amazon Recognition
画像系のソリューションを提供するフルマネージドサービス
顔認識、オブジェクト検出などが実行できる

Amazon panorama
エッジコンピューティングデバイスで、現場でのリアルタイムのビデオ分析が可能

Amazon Personalize
ユーザーの過去の行動などに基づいて、ここのユーザー向けのパーソナライズされた推奨事項を生成するサービス

Amazon Augmented AI（A2I）
機械学習モデルの予測に人間のレビューを組み合わせることで、AIアプリケーションの精度を向上させるためのサービスであり、A2Iを使用すると、機械学習モデルの予測に自信がない場合や、特定の条件下で人間の判断が必要な場合に、簡単に人間のレビューを追加することが出来る

Random Cut Forest (amazon kinesis data analytics)
amazon kinesis data analyticsで使用できる異常検知を行うアルゴリズム

SageMakerの機能

Debugger
モデルの訓練中にその内部状態を監視することが出来る

Horovod分散フレームワーク
分散型深層学習のためのオープンソ－スフレームワーク、Tensorflowなどのいくつかのディープラーニングフレームワークで使用可能

DeepAR
時系列予測のための教師ありアルゴリズム、リカレントニューラルネットワーク（RNN）に基づいており、特に時系列データの予測に適している

パイプ入力モード
パイプモードは、大規模なデータセットを扱う際にトレーニングジョブのパフォーマンスを向上させるための機能
逐次的にストリームで送信してモデルを学習するため、学習データが大量にあっても、インスタンスのストレージサイズを超えない

Blazing Text
テキストデータから単語ベクトルを高速に学習するためのアルゴリズム。BlazingTextは、Word2Vecアルゴリズムにインスパイアされており、類似した単語のベクトルが近くに配置されるように単語をベクトル空間にマッピングすることが出来る
スキップグラムモード：ある単語からその周囲の単語を予測すること
例：「猫はとてもかわいい」という文があるとき、スキップグラムモードでは「猫」から「は」「とても」「かわいい」などの周囲の単語を予測します。
CBOWモード：周囲の単語からある単語を予測すること。
例：「猫はとてもかわいい」の文があるとき、CBOWモードでは「は」「とても」などの周囲の単語から「猫」を予測します。

Model Monitor
モデルの運用とモニタリングをすることが出来る

Data Wrangler
データの準備と変換を行うための機能。Glueを使うよりもSage Makerを使う上では簡単に実行出来る

Canvas
データを自動的にクリーンアップする機能

Feature Store
機械学習モデルの空連夜予測に使用する特徴量を格納し、保存、更新、取得をすることが出来る

SageMakerは下記の記事が参考になります。

IoT

AWS IoT Greengrass
エッジコンピューティング環境でのデバイスの接続、データ収集、分析を可能にするソフトウェアであり、デバイスがクラウドと直接接続されていない場合でも、ローカルでデータ処理を行い、意思決定を迅速化できる
帯域制限がある場合、エッジ処理を検討する必要がある

参考

こちらの方の投稿はまとめられており、参考になりました！

この記事が気に入ったらサポートをしてみませんか？