G検定(ジェネラリスト検定) 2020#1 自己採点(解説付き)

以前、投稿した「G検定(ジェネラリスト検定) 2020#1 自己採点」に解説をつけた記事になります。試験中必死になって調べた参考サイトも併せて載せていますので、今後の勉強の参考にしていただければ幸いです。法律関連は調べていくととても有益な情報が多かった印象ですね。世の中の動きを知ることにもつながるので、G検定は個人的に受験してよかったと思っています。あとは合格メールが来るのを待つだけですね!!!


問題51


AIの共同開発形式について留意しなければならないこととして、最も不適切な選択肢を1つ選べ。

1.アジャイル型の開発方式はあらゆる工程にすべてのステークホルダーが関与する余地があるため、仕様変更に柔軟に対応できる利点があるが、そのぶん責任の範囲や成果の帰属について適時適切にコミュニケーションをとり、契約交渉を行うよう留意しなければならない。

2.経済産業省の「AI・データの利用に関する契約ガイドライン」では、開発プロセスをアセスメント、PoC、開発、追加学習の各段階に分けて、それぞれの段階で必要な契約を結ぶことで、試行錯誤しながら納得のゆくモデルを生成するアプローチがしやすくなるとしている。

3.これまでの裁判例からシステム開発においては開発者と利用者の双方に協力しあう義務があることが確認されており、その中には実際に発注を行う利用者が実際の業務や既存システムについて情報提供する義務も含まれている。

4.契約交渉は実際の開発状況に合わせてステークホルダー間で適時適切なコミュニケーションをとりながら進めていく必要があるが、秘密保持契約はその内容上、開発の最終段階で結ぶことが望ましい。

【答え】
4:秘密保持契約は、開発が始まる前から結ぶことが望ましい。

1.正しい。アジャイル開発は、エンジニアだけでなく、顧客も巻き込んだチーム一体となってシステムを開発していきます。アジャイル開発の「アジャイル」は「素早い」という意味で、開発中に発生する様々な状況の変化に対応しながら開発を進めていく手法です。
参照:

https://udemy.benesse.co.jp/development/web/agile.html
また責任の範囲や成果の帰属が不明確となりえるため、コミュニケーションを適時適切にとることが求められます。(深層学習教科書 ディープラーニング G検定(ジェネラリスト) 公式テキストp290参照。

2.正しい。開発契約については、開発プロセスを(1)アセスメント段階、(2)PoC段階、(3)開発段階、(4)追加学習段階に分けて探索的に開発を行う「探索的段階型」の開発方式を提唱し、それぞれの段階における契約方式や契約の考慮要素、契約条項例を示しています。
参照

https://www.meti.go.jp/press/2018/06/20180615001/20180615001.html

3.正しい。これまでの裁判例というのが、「2015年、勘定系システムの開発頓挫をめぐって、スルガ銀行が日本IBMに対して約116億円の支払いを求めた裁判」のことです。結果は最高裁判所が上告を棄却して、約42億円の賠償を支払うよう控訴審判決が下りました。こうした裁判からも共同開発や開発委託では、双方の認識のズレやプロジェクト管理の甘さが後々の禍根となり、高額の訴訟に至るケースも散見されます。システム開発者と利用者の双方に、協力し合う法的義務があることが確認されています。
(深層学習教科書 ディープラーニング G検定(ジェネラリスト) 公式テキストp289参照。

問題52


以下の文章を読み、文中の空欄に入る語の組み合わせとして、最も適切な選択肢を1つ選べ。

人工知能が社会生活に及ぼす影響、あるいは人工知能における法的・倫理的課題に対処するため、国内外あるいは営利・非営利を問わず様々な機関や団体がガイドラインを公表している。Amazon社、Google社、FaceBook社、IBM社、Microsoft社などアメリカのIT企業が組織した(ア)は2016年9月に安全性やAIにおける公平性、透明性、責任の確保を掲げた「信条」を公表している。また、学術団体であるIEEEは(イ)を公表し、設計段階からさまざまな倫理的課題に対処できる仕組みを盛り込むための標準規格を策定しようとしている。日本政府は2019年3月に「人間中心のAI社会原則」を取りまとめ、「人間の尊厳が尊重される社会」、「持続可能性」そして(ウ)を基本理念として掲げている。

1.(ア)Future of Life Institute(イ)アシロマAI原則(ウ)コンプライアンスと法令を尊守する社会
2.(ア)Partnership on AI(イ)倫理的に調和した設計(ウ)多様な背景を持つ人々が多様な幸せを追求できる
3.(ア)Partnership on AI(イ)人間的価値に配慮した設計(ウ)コンプライアンスと法令を尊守する社会
4.(ア)Ethnical AI Board(イ)倫理的に調和した設計(ウ)多様な背景を持つ人々が多様な幸せを追求できる

【答え】2
(ア)Partnership on AI
「Partnership on AI(パートナーシップオン AI)」は、2016年9月にアマゾン、フェイスブック、グーグル(ディープマインド)、IBM、マイクロソフトの5社で発足した、AIの普及やベストプラクティス作成を目的とした非営利団体です。まずこの5社と年月を見たら選択肢を2,と3に絞りましょう。
I(イ)人間的価値に配慮した設計
IEEE(米国電気電子学会)は、自律型システムの倫理面についての論点をまとめた文書「Ethically Aligned Design(倫理的に調和したデザイン)」の第2版を公開しています。
公式に、「インテリジェントな自律型システムが広がっていく中で、こうしたシステムに携わる設計者や開発者は、自らが生み出すものが持つ倫理面について、立ち止まって考察する必要がある」とも宣言しています。
参照:

https://project.nikkeibp.co.jp/idg/atcl/idg/14/481542/121800451/?ST=idg-cm-software&P=1
(ウ)コンプライアンスと法令を尊守する社会
人間中心のAI社会原則では、人々の格差や弱者を生み出さないために、幼児教育や初等中等教育において幅広くリテラシー等の教育の機会が提供されるほか、社会人や高齢者の学び直しの機会の提供が求められる。などの教育がすべての人に平等に提供されることを求めている。
参照:

https://www8.cao.go.jp/cstp/aigensoku.pdf

問題53


2018年5月に適用開始されたEU一般データ保護規則(GDPR)に関する説明として、最も適切な選択肢を1つ選べ。

1.GDPRはEEA域内に事業展開している日本企業の現地法人は対象となるが、EEA内で収集したデータの管理と分析を日本国内のみで行っている場合は規制の対象とならない。
2.GDPRは前身であるEUデータ保護指令に比べてより広い意味での個人情報をカバーしているが、具体的な適用・制裁内容は各加盟国の個人データ保護法にゆだねられている。
3.GDPRは個人情報として個人の名前や住所、クレジットカード情報、、メールアドレスを含めるだけでなく、位置情報やCookie情報も個人情報とみなしている。
4.GDPRは個人情報の自動化された処理に基づいたプロファイリングに強い規制を課す一方で、データポータビリティの権利については現状は認めていない。

【答え】3

1.不適切
GDPRではEU域外への個人情報のデータを持ち出しを禁止しているが、個人情報の保護レベルがEU水準と認められた国や地域にはデータの移動ができる「十分性認定」という仕組みがあります。個人情報を取得する際には、同意を取るといった部分は変わらない点については注意が必要で、EEA内で収集したデータを日本国内で行っている場合でも規制対象となることが考えられます。よって1は不適切です。
参照:

https://xtrend.nikkei.com/atcl/contents/technology/00005/00012/?P=2

2.不適切
具体的な適用・制裁内容はすでに定められています。
GDPRの施行日以降、Webサイトを開くと、Cookieの許諾を求められるバナーをよく目にするようになりました。GDPR以前・以後で、グローバル企業にかかわらず非常に多くのWebサイトでこのようなCookieの許諾ページを目にし、GDPRの影響の大きさが感じられます。よって2は不適切です。

3.正しい
eプライバシー法(ePrivacy regulation)とはEU(ヨーロッパ連合)の法規制で、メールやCookie等を取り扱う民間企業等に対し、EU市民のプライバシーの遵守を義務付ける法案であり、2019年には施行予定とのことでした。
オプトアウトでのCookie利用はNGになり、Cookieを取得する際はオプトインで必ずユーザーからの能動的な同意を取る必要があります。そのため3が正しい。
参照:

https://www.newton-consulting.co.jp/itilnavi/column/eprivacy_regulation.html

4.「データポータビリティ」とは、あるサービスが特定のユーザーに関して収集・蓄積した利用履歴などのデータ(以下「個人データ」という)を他のサービスでも再利用できること、すなわち持ち運び可能であること(=ポータビリティ)をいいます。

データポータビリティ権の内容は、2018年5月25日に発効する「EU一般データ保護規則」 1(General Data Protection Regulation。以下「GDPR」という)の20条に“Right to data portability”として定められているものです。その発効と同時に、EU域内において加盟各国の国内法より優先して適用されます。つまり、EU全域でもうすぐデータポータビリティ権が創設されています。そのため、4は不適切です。

参照:

https://www.businesslawyers.jp/articles/299

問題54

第三者の著作物を学習用データとして取り扱う場合に、現在の日本の法律に照らし合わせて、最も適切な選択肢を1つ選べ。

1.改正著作権法では学習用データとして著作物を利用することは、一定の基準を満たしており、それが研究や非営利目的である場合に限り適法である。
2.WEB上に公開されている自然言語データから生成した学習用データセットをWEB上で公開したり第三者に有償で譲渡することは違法である。
3.ある漫画家の画風に似せたキャラクターを生成するモデルを製作するための学習用データセットとして、その漫画家の著作物を丸ごとデジタルスキャンしたデータを公開することは適法である。
4.著作権法の規定をクリアしていても不正競争防止法の観点から営業秘密にあたるデータの利用などは制約がかかる可能性がある。

【答え】4

1.不適切
改正著作権法により、「情報解析」のためであれば、必要な範囲で、著作権者の承諾なく著作物の記録や翻案ができる、というものです。この条文の最大のポイントは、「非営利目的の利用」に限定されていないことです。よって営利目的の場合でも適法であると考えられます。よって1は誤りです。

ただ改正前47条の7は、あくまで生データ収集、データベース作成、学習用データセット作成、機械学習、DLを同一の事業者が一連の流れとして行う場合のみにしか適用されません。
原則に戻って、著作権者の同意なく行った場合には、下記のようなケースが著作権侵害となります。

・「自らモデル生成を行うのではなく、モデル生成を行う他人のために学習用データセットを作成して不特定多数の第三者に販売したりWEB上で公開する行為」
・「自らモデル生成をするために学習用データセットを作成し、これを用いてモデルを生成した事業者が、使用済みの当該学習用データセットを不特定多数の第三者に販売したりWEB上で無償公開する行為」
・「特定の事業者で構成されるコンソーシアム内で、学習用データセットを共有する行為」

2019年1月1日施行の改正著作権法30条の4の下では、先程の3つのパターンがいずれも適法となります。大量データの情報解析やAIの深層学習などを行う際にその基データに著作物が含まれている際の権利処理のあり方、つまりは著作権者への許諾が不要である旨を定めた規定であり、デジタル・フォレンジックにも大いに関わる規定となる。よって2は違法ではないため、誤りとなります。
参照:

https://storialaw.jp/blog/4936

3.不適切
ただし、「当該著作物の受領者が当該著作物を視聴して満足する」ような「種類・用途・利用態様」による利用でなければ同本文但書には該当しません。漫画家の著作物データを公開することは、そもそも適法ではありませんね。

4.正しい
2019年の7月1日より不正競争防止法の改正により、不競法にいわゆるビッグデータを保護するために「限定提供データ」という概念が追加されました。スムーズに法が運用されるように経済産業省より「限定提供データに関する指針」が2019年1月に公表されています。
限定提供データとは『業として特定の者に提供する情報として電磁的方法により相当量蓄積され、及び管理されている技術上又は営業上の情報(秘密として管理されているものを除く。)」となる(改正後の不競法2条7項)。これより[1]限定提供性、[2]相当蓄積性、[3]電磁的管理性の3つの条件を満たすことが限定提供データとなり得る条件となります。

このように学習用データが限定提供データである場合、営業秘密に当たるデータは制約がかかる場合が考えられます。
参照:

https://digitalforensic.jp/2019/04/01/column558/

問題55

AI技術の社会実装によって生じる倫理的・法的・社会的な課題に対処するために企業が留意しなければならないこととして最も不適切な選択肢を1つ選べ。

1.社内でAI倫理委員会を組織する際には、実効性のない名ばかりの委員会による「エシカル・ウォッシュ」に陥らないよう設置者が委員会の人選や権限に留意する必要がある。
2.個人情報などを扱う企業においては、単に社内で法令やコンプライアンスを尊守するだけでなく、ユーザーに対してプライバシーやセキュリティ対策をどのように実施しているのかを公開し、透明性を高めることが望ましい。
3.企業は自社の製品やサービスによって発生した倫理的・法的・社会的課題に対処するため、クライシスの種類と緊急レベルに応じた危機管理マニュアルを整備しておくことが望ましい。
4.個人情報の自働化された処理に基づいてユーザーの行動特性を評価するプロファイリングは、ユーザーの強い不安を引き起こすことが予測されるため、本人にプロファイリングを行う旨を通知しないように留意する必要がある。

【答え】4

プロファイリングとは、能力や趣向等を評価、予測するために行動履歴データ等の個人データを自動化処理(コンピュータ処理)により分析することです。通常、企業は情報主体者にプロファイリングを実施する旨、利用目的等を通知し、情報主体者から明示的な同意を取得しておくことが求められています。よって4は不適切となります。

参照:

https://www.eyjapan.jp/services/advisory/column/2017-06-27.html

問題56-58


以下の文章を読み、空欄(ア)に当てはまる選択肢を1つ選べ。
以下の文章を読み、空欄(イ)に当てはまる選択肢を1つ選べ。
以下の文章を読み、空欄(ウ)に当てはまる選択肢を1つ選べ。

日本政府は2020年までに(ア)の自動運転を実用化する目標を掲げている。このレベルの自動運転は(イ)が認められていることから2019年5月には改正道路運送車両法のほか、道路交通法が成立した。また、自動運転車の保安技術として(ウ)の搭載などを義務付けた改正道路運送車両法が2020年4月に施行される予定である。

(ア)、(イ)の選択肢をメモしていませんでした。
(ウ)
・ふらつき検出装置
・酒気帯び監視装置
・作動状態記録装置
・車検証確認装置

【答え】
(ア):政府は一定の条件付きで自動運転できる「レベル3」
(イ):道交法の改正により、これまで禁止されていたスマートフォン操作や車載テレビの視聴などが、人による運転にすぐに切り替えられることを前提に
(ウ):作動状態記録装置

2019年5月の道路運送車両法改正のポイント4つを概観します。
1つめは,「自動運行装置」の定義を設けた上で,保安基準の対象となる「自動車の装置」に追加し,道路運送車両法の規制の範囲に取り込んだことです。

2つめは,自動運行装置等に組み込まれたプログラムの改変による改造等に係る許可制度を創設したことです。
3つめは,レベル3以上の実用化に伴って重要となる「電子的な検査」のための技術情報の管理をどこの機関が行うかを明らかにしたことです。
4つめは,「分解整備」を「特定整備」という名称に改め,対象整備に自動運行装置の整備等を追加したこと,そして,メーカー等に対し,点検整備に関する情報提供義務を課したことです。

参照:

https://self-driving-car.jp/wp/road-transport-vehicle-act-amendment-1
https://www.nikkei.com/article/DGXMZO53761550U9A221C1CR8000/


問題59


ディープフェイクに関する説明として、最も不適切な選択肢を1つ選べ。

1.ディープフェイクは主に敵対的ネットワークを用いて生成され、近年その精巧さが高まっていることから問題視されている。
2.ディープフェイクは偏りのあるデータで学習を行ったことが原因となって生じるため、開発者は学習に用いるデータが目的に即した質の高いものかを精査することが要求される。
3.ディープフェイクはポルノの生成や詐欺に利用されるだけでなく、選挙などで特定の候補者に関する虚偽の風説の流布などにも利用され得ることから民主主義上の脅威になると考えられている。
4.ディープフェイクに対してはFacebookなどの企業が検出ルールの開発を支援しているほか、中国をはじめとした各国で法整備が始められている。

【答え】2

1.適切
ディープフェイクとは、一連のフェイク画像や動画を生成することで実際には存在しないアイドルの顔を生成することなどが可能である。ディープフェイク は実在する人物はもちろん、実在しない人でも生成することができます。GAN(敵対的生成ネットワーク)を使用して画像生成を行うことができます。

ディープフェイクが実際に虚偽情報による不正工作に利用された事例は見つかっていないが、そのように「悪用され得る」と懸念されているので1は適切です。
参照:

https://www.technologyreview.jp/s/167539/the-biggest-threat-of-deepfakes-isnt-the-deepfakes-themselves/

3.適切
ディープフェイクを利用してポルノ映像、写真の制作が盛んに行われています。ディープフェイクを利用してポルノ映像、写真の制作が盛んに行われています。
政治の世界でも印象操作目的でディープフェイクが利用されています。オバマ大統領が「トランプ大統領はクソ野郎だ」と批判している動画などが該当します。
また、アフリカのガボンでは閣僚のフェイクポルノ動画が拡散され、クーデター未遂により国の混乱騒動にまで発展したケースも。
参照:

https://digitalnews365.com/deep-fake

4.正しい
Facebookは2019年9月、ディープフェイク検出技術の公募コンテスト「Deepfake Detection Challenge」の立ち上げを発表した。複数の大学、Amazon Web Services(AWS)、Microsoftがこの取り組みを支援している。「法律」の整備は中国が先行している中国では2020年1月から、人工知能を使って映像や音声を制作した際、その旨を明らかにすることを義務付けるとしている。仮に事実を隠ぺいした場合、刑事処罰の対象になる。なお中国サイバー空間庁は、公式サイトで以下のようにディープフェイクを敵視する声明を発表している。

参照:

https://japan.zdnet.com/article/35146822/https://headlines.yahoo.co.jp/article?a=20191211-00031202-forbes-bus_all

消去法で2が不適切になりました。

問題60


2017年に改正・施行された個人情報保護法では「匿名加工情報」の条項が新設された。
これは、特定の個人を識別できないように個人情報を加工し、当該個人情報を復元できないようにした情報を「匿名加工情報」とし、本人の同意不要で第三者へのデータ提供を行うことを脳とするものである。これを取り扱う事業者である「匿名加工情報取扱事業者」が留意しなければならないこととして、最も適切な選択肢を1つ選べ。

1.匿名加工された情報を扱う事業者は、加工の対象となる個人情報についてはいかなる方法で匿名加工を行ったのかをウェブサイトで公表する義務がある。
2.匿名加工された情報を扱う事業者は、第三者にその情報を提供する際に、提供先の事業者名を公表する義務がある。
3.匿名加工情報の提供を受けた事業者は、その匿名加工情報について安全管理措置を行う義務がある。
4.ほかの選択肢のいずれも適切ではない。

【答え】4

1.不適切
匿名加工情報を作成したとき
匿名加工情報を作成した事業者は、匿名加工情報の作成後遅滞なく、ホームページ等を利用し、当該匿名加工情報に含まれる個人に関する情報の項目を公表しなければなりません。
「匿名加工情報を作成したとき」とは、匿名加工情報として取扱うために、加工の作業が完了した場合の事を意味します。よって、あくまで個人情報の安全管理措置の一環として一部の情報を削除し、あるいは、分割して保存・管理する等の加工をする場合や、個人情報から統計情報を作成するために個人情報を加工する場合は、 公表する対象になりません。

2.不適切
匿名加工情報を第三者に提供するときは、予めホームページ等で第三者に提供する匿名加工情報に含まれる項目及び匿名加工情報の提供の方法を公表しなければなりません。
したがって提供先の事業者名を公表する必要はありません。加工の対象となる個人情報はどのように加工したのかではなく、匿名加工情報に含まれる情報が何なのかを公表します。

3.不適切
匿名加工情報について安全管理措置を行う義務があるのは、匿名加工情報を提供する事業者です。匿名加工情報を作成する事業者は、下記2つの安全管理措置を行わなければなりません。
・匿名加工情報の加工方法等情報の漏えい防止
・匿名加工情報に関する苦情の処理・適正な取扱い措置と公表
匿名加工情報を提供された事業者は提供された匿名加工情報に対して義務はありません。したがって3についても不適切となります。

参照:

https://www.ppc.go.jp/personalinfo/tokumeikakouInfo/

問題81


多くの機械学習の目的は、ある目的関数の値を最小化するパラメータを求めることであり、このことを最適化と呼ぶ。最適化手法として、最も不適切な選択肢を1つ選べ。

・Adam
・LeakyReLU
・SGD
・RMSprop

【答え】LeakyReLU

「SGD」とは、確率的勾配降下法のこと。
「RMSprop (2012)」とは、AdaGrad の改善策として提案されたのが RMSprop 。
「AdaGrad (2011)」とは、言い換えると,深層学習で考えるような多次元の問題では,勾配が急な方向には早く収束するが,勾配が緩やかな方向には収束に時間がかかることが起こり得る.このような問題を解決するために考えられたもの。
「Adam (2014)」とはもっともよく使われている最適化アルゴリズムの一つで、Adam も RMSprop の改良版であり, 勾配に関しても以前の情報を指数的減衰させながら伝えることで,次元量の問題に対処している。消去法で答えが「LeakyReLU」となりました。

参照:

https://qiita.com/ZoneTsuyoshi/items/8ef6fa1e154d176e25b8

問題82
以下の文章を読み、空欄に最もよく当てはまる選択肢を1つ選べ。
ロジスティック回帰は分類アルゴリズムであり、0から1の値を出力するため、確率として表現することができる。ロジスティック回帰を用いるのに適切な事例としては、()などが挙げられる。

・見た目に関するさまざまな情報からある動物が何科に属するのかを分類する。
・体重と身長の関係性について調べる。
・喫煙状況や血中コレステロールなどをもとに病気の発症リスクについて調べる。
・気温とラーメンの売上高との関係性について調べる。

【答え】
・喫煙状況や血中コレステロールなどをもとに病気の発症リスクについて調べる。

この中で確率として表現できるのは、上記のパターンです。
喫煙者の血中コレステロール値を把握し、100人中何人かにコレステロール値の上下があったことなどを記録しておくことで発症のリスクが考えられる確率(可能性)を出すことは不可能ではないです。
そのほかの選択肢は、確率で表現することは少し質問に沿っていないため×。

問題86

以下の文章を読み、空欄に最もよく当てはまる選択肢を1つ選べ。

機械学習の分類問題におけるモデルを考える際、適切な性能指標を見出すためには、()が利用される。2クラス分類の例では、()とは本来Aに分類しなければいけないものがどれくらい正しくAと判別されているか、またAに分類しなければいけないものを誤ってBと分類している割合がどれくらいなのかなどを知ることができる。

・転置行列
・相関行列
・三角行列
・混同行列

【答え】混同行列

混同行列とは、あるデータを分類したときに、その正解・不正解の数を整理しておく表のことです。
ディープラーニング関連で行列を問われた迷わずこの選択肢を答えるのがよいかと思います。
参照:

https://analysis-navi.com/?p=550

問題163


強化学習の説明として、最も不適切な選択肢を1つ選べ。

・正解付きデータの訓練データを用意する必要がない。
・一般的に学習には時間がかかる。
・未知な環境にも対応可能といった万能性は比較的低い。
・状態遷移を考慮することができる。

【答え】未知な環境にも対応可能といった万能性は比較的低い。


強化学習とは、未知の環境に置かれた知的エージェントが環境. との間の相互作用を通して,環境において報酬.が最も多く得られるような方策を学習することであるので万能性が低いというのは誤りです。
参照:

http://aidiary.hatenablog.com/entry/20030402/1123309474

問題181


畳み込みニューラルネットワーク(CNN)を用いたEnd-to-Endなアルゴリズムである
A.YOLO
B.完全畳み込みニューラルネットワーク(FCN)
C.Unet
D.SSD(Single Shot Multibox Detector)
について、リアルタイムな一般物体検知のためのアルゴリズムと(セマンティック)セグメンテーションのためのアルゴリズムに分類するとどうなるか、もっとも適切な選択肢を1つ選べ。


一般物体検知:A,B セグメンテーション:C,D
一般物体検知:A,C セグメンテーション:B,D
一般物体検知:A,D セグメンテーション:B,C
一般物体検知:C,D セグメンテーション:A,B

【答え】一般物体検知:A,D セグメンテーション:B,C

A.「YOLO」とは、予め画像全体をグリッド分割しておき、各グリッドごとにバウンディングボックス(短形領域)を求める物体検出ができることが強み。
D.「SSD(Single Shot Multibox Detector)」とは、画像中の物体を単一のニューラルネットワークを使用して検出する手法のこと。
参照:

https://jp.mathworks.com/content/dam/mathworks/mathworks-dot-com/company/events/webinar-cta/2459280_Basics_of_semantic_segmentation.pdf

問題 61-80の間5問


以下の文章を読み、空欄(ウ)に最もよく当てはまる選択肢を1つ選べ。
世の中にはテキスト形式のデータが大量に存在している。SNSの投稿や購入商品のレビュー、あるいはアンケート調査の結果などはその例である。これらのデータを適切に分析できれば、ビジネスにおける顧客の動向を把握することができる。こうした背景から、自然言語で書かれたテキストの取り扱いは重要である。ここでは、日本語の自然言語処理の単純なフローを見てみよう。まず、形態素解析という手法を用いて、(ア)処理やデータをクレンジングして、(イ)。次に、BoW(Bag-of-Words)などの手法を用いて、形態素解析を行ったデータを(ウ)。さらに、分割した単語についてはTF-IDFなどの手法を用いて(工)。あるいは、単語をより低次元の空間における実数ベクトルとして表現する(オ)を用いることもある。(オ)を利用すると、単語同士の意味的な関係性を捉えることができ、例えば、「king」-「man」+「woman」=「queen」といったアナロジーを行うことができる。

○ 1つ値の形式に変換する
○ ベクトルの形式に変換する
○ 対数尤度の形式に変換する
○ 複素数の形式に変換する

【答え】対数尤度の形式に変換する
テキストの形態素解析結果を用いることで,統計的な手法にもとつく中古語の研究が可能になり,コロケ ーション度による語認定や対数尤度比 を用いた文体別特徴語の抽出など,客観的な指標にもとつく新たな知見をもたらしつつあると下記サイトに書いてあったので。。 。(この問題は、過去にも何度か出題されているようです。)もしご存じの方がいたらこっそり教えていただけますでしょうか。

参照:https://www.jstage.jst.go.jp/article/nihongonokenkyu/9/4/9_KJ00009327347/_pdf/-char/ja


ほかにも自動車運転のレベル1-5に関連する問題が複数、グリッドリサーチ法の説明問題、偏微分問題、三平方の定理が出題されていました。そのほか公式推薦図書の問題集やAI-Studyのオンライン模擬問題からも多数出題されています。(記憶が戻ればまたどんどん更新しておきます。)

F値の問題をExcelに数式を用意してすぐに計算できるよう準備していたのですが、1問も出題されていなかったのがとても残念でした。。。。

解説は以上で終了になります。今後も解説の部分などは更新していくつもりですので、お時間のある時にまた見に来ていただければ幸いです。

それでは、ありがとうございました。

この記事が気に入ったらサポートをしてみませんか?