見出し画像

AWS認定機械学習-スペシャリティ【MLS-C01版】100題 問題集全問解答+全問解説付き

AWS認定機械学習-スペシャリティ【MLS-C01版】の過去問100題を全問解答+全問解説付き

AWS Certified Machine Learning - Specialty(MLS-C01) の最新の問題になります。

筆者が実際に受験して、問題を収集し解答とその解説を全問付けております。
問題数は合計100題。
実際に受験し、重複問題や類似問題を削除しています。
この100問の問題の解答を理解できれば、ほぼ間違いなく、合格すると思います。

ここから問題と解答/解説になります。

100題、全問解答+全問解説付きになります。

1.
企業がAWSを使用して自然言語処理(NLP)モデルを開発しています。このモデルは、顧客からのフィードバックを分析し、それを「ポジティブ」、「ネガティブ」、「中立」の感情に分類することを目的としています。モデルのトレーニングには大量のラベル付きテキストデータが必要ですが、企業には限られた量のラベル付きデータしかありません。この問題を解決するために企業が採用すべき最適なAWSサービスはどれですか?

A. AWS Glue
B. Amazon SageMaker Ground Truth
C. Amazon Comprehend
D. Amazon Rekognition


正解: B. Amazon SageMaker Ground Truth

解説:
A. AWS Glueは、ETL(抽出、変換、ロード)サービスで、データの準備とロードに役立ちます。しかし、ラベル付けやアノテーションのプロセスには直接対応していませんので、このシナリオでは最適な選択ではありません。

B. Amazon SageMaker Ground Truthは、機械学習モデルのための高品質なトレーニングデータセットを作成することを目的としたサービスです。人間のアノテーターと機械学習モデルを組み合わせることで、効率的にラベル付けを行うことができます。限られた量のラベル付きデータしかない場合に、追加のラベル付きデータを生成するのに最適な選択肢です。

C. Amazon Comprehendは、自然言語処理(NLP)を利用したフルマネージドのテキスト分析サービスです。テキスト内の感情、エンティティ、キーフレーズを識別することができますが、ラベル付きトレーニングデータを生成する目的には使用できません。

D. Amazon Rekognitionは、画像およびビデオ分析のためのサービスで、顔認識やオブジェクト検出などの機能を提供します。しかし、テキストデータの分析やラベル付きデータの生成には適していません。

このシナリオでは、限られた量のラベル付きデータを増やすためにAmazon SageMaker Ground Truthが最適な選択です。


2.

機械学習スペシャリストがモデルをトレーニングして、画像内の車両のメーカーとモデルを識別しています。スペシャリストは、転移学習と、一般的なオブジェクトの画像でトレーニングされた既存のモデルを使用したいと考えています。スペシャリストは、さまざまな車両のメーカーとモデルを含む大規模な写真のカスタム データセットを照合しました。
モデルを初期化してカスタム データで再トレーニングするには、スペシャリストは何をすべきですか?


A. すべてのレイヤーでランダムな重みを使用してモデルを初期化し、最後の完全に接続されたレイヤーを置き換えます。
B. 最後の全結合層を含むすべての層でランダムな重みでモデルを初期化します。
C. 最後の完全に接続されたレイヤーを含むすべてのレイヤーで事前トレーニング済みの重みを使用してモデルを初期化します。
D. すべてのレイヤーで事前トレーニング済みの重みを使用してモデルを初期化し、最後の完全に接続されたレイヤーを置き換えます。



正解:D

解説:

A. すべてのレイヤーでランダムな重みを使用してモデルを初期化し、最後の完全に接続されたレイヤーを置き換えます。 この選択肢は不正解です。転移学習を使用する場合、事前にトレーニングされたモデルの重みを保持し、一部の層(通常は最後の層)だけをカスタマイズするのが一般的です。すべての層でランダムな重みを使用すると、事前トレーニングの利点が失われます。

B. 最後の全結合層を含むすべての層でランダムな重みでモデルを初期化します。 この選択肢も不正解です。事前にトレーニングされたモデルを利用せず、すべての層でランダムな重みを使用すると、転移学習の利点が失われ、トレーニングに非常に長い時間がかかる可能性があります。

C. 最後の完全に接続されたレイヤーを含むすべてのレイヤーで事前トレーニング済みの重みを使用してモデルを初期化します。 この選択肢は不正解です。通常、最後の全結合層は特定のタスクに特化しているため、新しいタスクに合わせてこの層を変更する必要があります。

D. すべてのレイヤーで事前トレーニング済みの重みを使用してモデルを初期化し、最後の完全に接続されたレイヤーを置き換えます。 この選択肢が正解です。事前トレーニング済みのモデルを使用し、最後の層だけを新しいタスクに合わせて変更することで、転移学習の利点を最大限に活用できます。これにより、トレーニング時間が短縮され、より少ないデータで効率的に学習できます。


3.
Amazon SageMakerのビルトインアルゴリズムを使用する際、次のうちアルゴリズムの出力として得られないものはどれですか?

A. 学習済みモデル
B. モデルの評価指標
C. ハイパーパラメータチューニングの結果
D. 特徴量の重要度

解答: D

解説:
A. 学習済みモデル: Amazon SageMakerのビルトインアルゴリズムを使用すると、学習済みのモデルが出力されます。このモデルは、推論に使用することができます。

B. モデルの評価指標: ビルトインアルゴリズムは、モデルの評価指標(精度、再現率、F1スコアなど)を出力します。これにより、モデルのパフォーマンスを評価することができます。

C. ハイパーパラメータチューニングの結果: SageMakerのハイパーパラメータチューニング機能を使用すると、ビルトインアルゴリズムのハイパーパラメータを最適化できます。チューニングの結果(最適なハイパーパラメータの組み合わせなど)がアルゴリズムの出力に含まれます。

D. 特徴量の重要度: 特徴量の重要度は、一部の機械学習アルゴリズム(例: ランダムフォレスト)で得られる情報ですが、Amazon SageMakerのビルトインアルゴリズムの出力には含まれません。ビルトインアルゴリズムは、特徴量の重要度を直接提供しません。


4.

ペット保険会社のマーケティング マネージャーは、新規顧客を獲得するためにソーシャル メディアでターゲットを絞ったマーケティング キャンペーンを開始することを計画しています。現在、同社は Amazon Aurora に次のデータを持っています。

過去および既存のすべての顧客のプロフィール

過去および現在のすべての被保険者のプロフィール

ポリシーレベルの情報

受け取った保険料

支払われた保険金


機械学習モデルを実装して、ソーシャル メディアで潜在的な新規顧客を特定するには、どのような手順を実行する必要がありますか?

A. 顧客プロファイル データのクラスタリングを使用して、消費者セグメントの主要な特性を理解します。ソーシャル メディアで類似のプロファイルを見つけます。
B. 顧客プロファイル データの回帰を使用して、消費者セグメントの主な特徴を理解します。ソーシャル メディアで類似のプロファイルを見つけます。
C. 顧客プロファイル データでレコメンデーション エンジンを使用して、消費者セグメントの主要な特性を理解します。ソーシャル メディアで類似のプロファイルを見つける
D. 顧客プロファイル データに対して意思決定ツリー分類エンジンを使用して、消費者セグメントの主要な特性を理解します。ソーシャル メディアで類似のプロファイルを見つける



正解:C

解説:
A. 顧客プロファイル データのクラスタリングを使用して、消費者セグメントの主要な特性を理解します。ソーシャル メディアで類似のプロファイルを見つけます。 この選択肢は一部正しい考え方を含んでいます。クラスタリングは顧客セグメントを識別するのに役立つため、消費者セグメントの主要な特徴を理解するのに使用できます。ただし、ソーシャルメディアで類似のプロファイルを特定するのには、より精度の高い手法が必要です。
B. 顧客プロファイル データの回帰を使用して、消費者セグメントの主な特徴を理解します。ソーシャル メディアで類似のプロファイルを見つけます。 この選択肢は不正解です。回帰分析は連続的な出力を予測するのに使われるため、顧客セグメントを理解するのには適していません。このシナリオでは、カテゴリー的なデータを処理する手法が必要です。
C. 顧客プロファイル データでレコメンデーション エンジンを使用して、消費者セグメントの主要な特性を理解します。ソーシャル メディアで類似のプロファイルを見つける これが正解です。レコメンデーションエンジンは、既存の顧客データから学習し、それに基づいて新規顧客に適したプロファイルを特定するのに適しています。これにより、ソーシャルメディアでのターゲティングが効果的になります。
D. 顧客プロファイル データに対して意思決定ツリー分類エンジンを使用して、消費者セグメントの主要な特性を理解します。ソーシャル メディアで類似のプロファイルを見つける 意思決定ツリーは有効な分類ツールですが、このシナリオではレコメンデーションエンジンの方が優れた選択です。意思決定ツリーは、より単純な分類問題に適しており、複雑な消費者セグメントの特徴を把握するには限界があります。
正解はCです。レコメンデーションエンジンは、顧客の好みや行動を基にした予測を行い、ソーシャルメディアでのターゲティングに効果的です。



5.

Machine Learning チームは、Amazon S3 にいくつかの大規模な CSV データセットを持っています。これまで、Amazon SageMaker Linear Learner アルゴリズムで構築されたモデルは、同様のサイズのデータ​​セットでトレーニングするのに何時間もかかっていました。チームのリーダーは、トレーニング プロセスを加速する必要があります。
この懸念に対処するために、機械学習スペシャリストは何ができますか?

A. Amazon SageMaker パイプ モードを使用します。
B. Amazon Machine Learning を使用してモデルをトレーニングします。
C. Amazon Kinesis を使用して、データを Amazon SageMaker にストリーミングします。
D. AWS Glue を使用して、CSV データセットを JSON 形式に変換します。



正解:A

解説:

A. Amazon SageMaker パイプ モードを使用します。 この選択肢が正解です。Amazon SageMaker のパイプ モードは、トレーニングデータをストリーミング形式でモデルに供給する機能です。これにより、大規模なデータセットを扱う際のトレーニング時間を短縮できます。全データセットを一度に読み込む代わりに、必要なデータだけをリアルタイムでモデルに供給することができます。

B. Amazon Machine Learning を使用してモデルをトレーニングします。 この選択肢は不正解です。Amazon Machine Learningは古いサービスであり、SageMakerのような現代の機能やスケーラビリティを提供しません。トレーニング時間を短縮するための解決策としては不適切です。

C. Amazon Kinesis を使用して、データを Amazon SageMaker にストリーミングします。 この選択肢も不正解です。Amazon Kinesisはリアルタイムデータストリーミングには適していますが、既に存在する大規模なCSVデータセットのトレーニング時間を短縮する目的には適していません。

D. AWS Glue を使用して、CSV データセットを JSON 形式に変換します。 この選択肢も不正解です。データフォーマットの変換は一部のケースで有益かもしれませんが、トレーニング時間を大幅に短縮する方法ではありません。特に、CSVからJSONへの変換はデータサイズを増加させる可能性があり、問題を解決するよりも悪化させるかもしれません。

正解はA、Amazon SageMaker パイプ モードを使用することです。これはトレーニングプロセスの効率を高め、大規模なデータセットを扱う際の時間を節約するのに効果的な方法です。


6.
ある企業がAWS上で顧客サポートのチャットボットを構築しています。このチャットボットは顧客からの質問に自動的に回答し、さらに複雑な問題に対しては人間のサポートスタッフにエスカレートする機能を持つ必要があります。また、このチャットボットは顧客の質問を理解し、適切な回答を提供するために自然言語処理(NLP)を利用する必要があります。この要件を満たすために最適なAWSサービスの組み合わせはどれですか?

A. Amazon Lex + Amazon Connect
B. Amazon Polly + Amazon S3
C. Amazon SageMaker + AWS Lambda
D. Amazon Translate + Amazon Comprehend


正解: A. Amazon Lex + Amazon Connect

解説:
A. Amazon Lexは、音声とテキストの両方での会話インターフェイスの構築を支援するサービスで、自然言語処理(NLP)を使用してユーザーの意図を理解します。Amazon Connectはクラウドベースのコンタクトセンターサービスで、顧客サポートのチャットボットから人間のサポートスタッフへのシームレスなエスカレーションを実現できます。この組み合わせは、チャットボットの要件を完全に満たしています。

B. Amazon Pollyはテキストを自然な音声に変換するサービスで、Amazon S3はオブジェクトストレージサービスです。これらのサービスは、音声応答やデータの保存には役立ちますが、質問に自動的に回答するチャットボットの構築やエスカレーションプロセスには直接対応していません。

C. Amazon SageMakerは機械学習モデルの構築、トレーニング、デプロイを支援するフルマネージドサービスで、AWS Lambdaはサーバーレスコンピューティングサービスです。この組み合わせは柔軟性があり、カスタムのNLPモデルを構築する場合に有用ですが、Amazon LexやAmazon Connectのようにチャットボットとコンタクトセンターの統合機能は提供しません。

D. Amazon Translateはテキストの自動翻訳サービスで、Amazon Comprehendはテキストの内容を理解するための自然言語処理(NLP)サービスです。これらは多言語のテキスト分析や翻訳に適していますが、質問に対する自動回答やエスカレーション機能を持つチャットボットの構築には最適な選択肢ではありません。


7.

ある企業がAWSを利用して、顧客サービスの改善のために顧客からのクエリを自動的に理解し、適切な回答を提供するチャットボットを開発しています。このチャットボットは、顧客の質問を理解し、学習を通じてより正確な回答を提供する能力が必要です。この目的を達成するために、企業が利用すべきAWSサービスはどれですか?

A. Amazon Lex
B. Amazon SageMaker
C. AWS Lambda
D. Amazon Comprehend


正解: A. Amazon Lex

解説:
A. Amazon Lexは、自然言語理解(NLU)と自動音声認識(ASR)を組み合わせたサービスで、ユーザーの質問を理解し、意図に応じて適切な回答を提供するチャットボットを構築するのに適しています。このシナリオでは、顧客からのクエリを自動的に理解し、適切な回答を提供するチャットボットの開発が目的であるため、Amazon Lexが最適な選択肢です。

B. Amazon SageMakerは、機械学習モデルのビルド、トレーニング、デプロイを容易にする完全マネージド型のサービスです。非常に強力なツールですが、チャットボットの開発に特化しているわけではなく、このケースにおいて最初に選ぶべきサービスではありません。

C. AWS Lambdaは、サーバーレスコンピューティングを提供するサービスで、コードを実行するためのイベント駆動型のアプローチを提供します。チャットボットのバックエンドロジックを実行するのに使用できますが、自然言語理解やチャットボットのコア機能を提供するわけではありません。

D. Amazon Comprehendは、自然言語処理(NLP)を利用したテキスト分析サービスです。テキストからのインサイト抽出や感情分析など、多くのNLPタスクを実行できますが、Amazon Lexのように対話型インターフェースを直接構築するために設計されているわけではありません。

このシナリオでは、Amazon Lexが顧客からのクエリを自動的に理解し、適切な回答を提供するチャットボットの開発に最適な選択肢です。


8.

ある農業会社は、機械学習を使用して、100 エーカーの草原で特定の種類の雑草を検出することに関心を持っています。現在、同社はトラクターに取り付けられたカメラを使用して、フィールドの複数の画像を 10 * 10 グリッドとしてキャプチャしています。同社はまた、広葉樹ドックや非広葉樹ドックなどの人気のある雑草クラスの注釈付き画像で構成される大規模なトレーニング データセットを持っています。
同社は、特定の種類の雑草と、畑内の各種類の位置を検出する雑草検出モデルを構築したいと考えています。モデルの準備が整うと、Amazon SageMaker エンドポイントでホストされます。モデルは、カメラでキャプチャされた画像を使用してリアルタイムの推論を実行します。
機械学習スペシャリストが正確な予測を得るために取るべきアプローチはどれですか?


A. 画像を RecordIO 形式で準備し、Amazon S3 にアップロードします。Amazon SageMaker を使用して、物体検出シングルショット マルチボックス検出器 (SSD) アルゴリズムを使用してモデルをトレーニング、テスト、および検証します。
B. Apache Parquet 形式のイメージを準備し、Amazon S3 にアップロードします。Amazon SageMaker を使用して、物体検出シングルショット マルチボックス検出器 (SSD) アルゴリズムを使用してモデルをトレーニング、テスト、および検証します。
C. Apache Parquet 形式のイメージを準備し、Amazon S3 にアップロードします。Amazon SageMaker を使用して、画像分類アルゴリズムを使用してモデルをトレーニング、テスト、および検証し、画像をさまざまな雑草クラスに分類します。
D. 画像を RecordIO 形式で準備し、Amazon S3 にアップロードします。Amazon SageMaker を使用して、画像分類アルゴリズムを使用してモデルをトレーニング、テスト、および検証し、画像をさまざまな雑草クラスに分類します。



正解:A

解説: A. 画像を RecordIO 形式で準備し、Amazon S3 にアップロードします。Amazon SageMaker を使用して、物体検出シングルショット マルチボックス検出器 (SSD) アルゴリズムを使用してモデルをトレーニング、テスト、および検証します。

  • RecordIO 形式は、大量のデータを効率的に処理できる形式であり、物体検出のためのトレーニングデータとして適しています。SSD アルゴリズムは、画像内の複数の物体を検出し、それぞれの位置を特定するのに適しています。これが正解です。

B. Apache Parquet 形式のイメージを準備し、Amazon S3 にアップロードします。Amazon SageMaker を使用して、物体検出シングルショット マルチボックス検出器 (SSD) アルゴリズムを使用してモデルをトレーニング、テスト、および検証します。

  • Apache Parquet 形式は、テーブルデータのための効率的な形式であり、画像データの保存には適していません。

C. Apache Parquet 形式のイメージを準備し、Amazon S3 にアップロードします。Amazon SageMaker を使用して、画像分類アルゴリズムを使用してモデルをトレーニング、テスト、および検証し、画像をさまざまな雑草クラスに分類します。

  • 画像分類アルゴリズムは、画像をクラスに分類するのに適していますが、画像内の複数の物体の位置を特定するのには適していません。

D. 画像を RecordIO 形式で準備し、Amazon S3 にアップロードします。Amazon SageMaker を使用して、画像分類アルゴリズムを使用してモデルをトレーニング、テスト、および検証し、画像をさまざまな雑草クラスに分類します。

  • 画像分類アルゴリズムは、画像をクラスに分類するのに適していますが、画像内の複数の物体の位置を特定するのには適していません。


9.

ある小売企業は機械学習を使用して新製品を分類しようとしています 現在の製品のラベル付きデータセットがデータ サイエンス チームに提供されました データセットには 1,200 個の製品が含まれています ラベル付きデータセットにはタイトルの寸法、重量、価格など、各製品の 15 の機能 各製品は、書籍、ゲーム、電子機器、映画などの 6 つのカテゴリのいずれかに属するようにラベル付けされています。
トレーニング用に提供されたデータセットを使用して新製品を分類するには、どのモデルを使用する必要がありますか?


A. 最後の層にソフトマックス活性化関数を使用した深層畳み込みニューラル ネットワーク (CNN)
B. object パラメータが multi: softmax に設定された XGBoost モデル
C. リカレント ニューラル ネットワーク (RNN) に基づく DeepAR 予測モデル
D. ツリーの数が製品カテゴリの数に等しい回帰フォレスト



正解:A

解説: A. 最後の層にソフトマックス活性化関数を使用した深層畳み込みニューラル ネットワーク (CNN)

  • CNNは画像データの分類に適していますが、この問題のデータセットはテキストや数値の特徴を持っているため、最適な選択肢ではないかもしれません。

B. object パラメータが multi: softmax に設定された XGBoost モデル

  • XGBoostは勾配ブースティングの一種で、多クラス分類問題にも適用できます。multi:softmaxを使用することで、多クラス分類の問題に対応できるため、この問題に適している可能性があります。

C. リカレント ニューラル ネットワーク (RNN) に基づく DeepAR 予測モデル

  • DeepARは時系列データの予測に適していますが、この問題のデータセットは時系列データではないため、適していません。

D. ツリーの数が製品カテゴリの数に等しい回帰フォレスト

  • 回帰フォレストは回帰問題に適していますが、この問題は分類問題であるため、適していません。

正解はBのXGBoostモデルが適している可能性が高いです。


10.

データサイエンティストは、Amazon SageMaker の組み込み seq2seq アルゴリズムを使用して、500,000 の整列された文のペアを使用して、英語から日本語への機械学習翻訳モデルを開発しました。データ サイエンティストは、サンプル センテンスでテストしているときに、5 語という短い例では翻訳品質が妥当であることを発見しました。ただし、文章が 100 語になると、品質が許容できなくなります。
問題を解決するアクションはどれですか?


A. 最大の文の単語数よりも多くのノードを再帰型ニューラル ネットワーク (RNN) に追加します。
B. 注意メカニズムに関連するハイパーパラメータを調整します。
C. 別の重みの初期化タイプを選択します。
D. n-gram を使用するように前処理を変更します。



正解:A

解説: A. 最大の文の単語数よりも多くのノードを再帰型ニューラル ネットワーク (RNN) に追加します。

  • 長い文章に対応するために、ネットワークの容量を増やす方法の一つが、RNNのノード数を増やすことです。これにより、モデルがより複雑なパターンを学習できる可能性があります。

B. 注意メカニズムに関連するハイパーパラメータを調整します。

  • 注意メカニズムは、モデルが長い文章の重要な部分に焦点を当てるのに役立つことがあります。ハイパーパラメータを調整することで、モデルの性能を向上させる可能性があります。

C. 別の重みの初期化タイプを選択します。

  • ニューラルネットワークの重みの初期化方法は、モデルの学習に影響を与えることがあります。しかし、この問題の文脈では、重みの初期化が解決策となるかどうかは不明です。

D. n-gram を使用するように前処理を変更します。

  • n-gramは、テキストデータの前処理の一つの方法です。しかし、この問題の文脈では、n-gramが解決策となるかどうかは不明です。

正解はAのRNNのノード数を増やすことが解決策となる可能性が高いです。

ここから先は

77,318字
この記事のみ ¥ 2,000

この記事が気に入ったらサポートをしてみませんか?