見出し画像

RPA_UiPath 6 データスクレイピング

おはようございます!今日も 頭の中を整理していきます!


データスクレイピング

データスクレイピング機能とは ウェブページやアプリケーションから構造化されたデータを抽出する機能
構造化されたデータとは Excelファイルのように 行と列から構成されるデータのことで 表形式のデータや規則性のあるデータを指す

抽出された構造化データは Data Table型の変数に格納される
ページが複数にまたがっても「次へ」ボタンのセレクターを指定することで
複数ページから構造化データを取得することができる 

※以下は抽出したいWebやExcel等の
 データが表示されている状態から開始

表形式データを自動抽出

デザイナー画面→データスクレイピング
取得ウィザードが表示
 要素を選択→次へ
 繰り返し抽出したい項目Aのセル→クリック
表形式データを抽出「表全体からデータを抽出しますか?
→はい
※自動認識した表の範囲がデータプレビュー画面が表示
 取得したい最大行数「結果件数の最大値」として指定する
 「0」を指定すると全件取得
 プレビュー画面に表示されているデータしか取得できない
→終了
※「次へのリンクを指定」ウィザードが表示
データは複数のページにわたりますか?
次のデータも取得したい場合は
→はい
※レコーディングモードに切替わる 次へ(Next)等をクリック

データスクレイピングウィザードが終了

「構造化データの抽出」アクティビティが生成
※プロパティパネルを確認

●エラー発生時に実行を継続 ☑ True
 最終ページに「次へ」のボタンがない場合
 セレクターが見つからず エラーが発生
 データは全件取得できているので 
 エラーとして扱わないようにするため
●出力のデータテーブル
 ExtractDate Table(DataTable型変数)が設定される

取得したデータをExcelファイルへ出力

アクティビティ「Excelアプリケーションスコープ」
ブックパス "○○マスタ.xlsx"  と名前を指定

アクティビティ「範囲に書き込み」
データテーブル 
 プロパティ「ExtractDate Table」変数を指定
 ヘッダーの追加 ☑

実行▶
保存

構造化データを手動抽出

デザイナー画面→データスクレイピング
取得ウィザードが表示
 要素を選択→次へ
 繰り返し抽出したいA項目1のデータ→クリック
 2番目の要素を選択→次へ
 繰り返し抽出したいA項目2のデータ→クリック

データスクレイピング機能で、1つ目の要素と2つ目の要素を指定したことで
同じ規則性を持った一連のデータが構造化データとして抽出された

取得ウィザード
「列の設定」 テキスト列名「項目Aの名前を付ける」
→次へ

相関するデータを抽出→クリック
繰り返し抽出したいB項目1のデータ→クリック
 2番目の要素を選択→次へ
 繰り返し抽出したいB項目2のデータ→クリック

取得ウィザード
「列の設定」 テキスト列名「項目Bの名前を付ける」
 ☑URLを取得 URL列名「URL」
(3項目目のデータとしてURLも抽出される)
→次へ・・・・・取得したい項目のを繰り返し設定する

全て設定出来たら →終了

※このように規則性、関係性がある構造化データを
1つずつ抽出する方法が手動抽出

「次へのリンクの指定」
複数ページにわたってデータが表示されているかの確認
→いいえ
データスクレイピングウィザードが終了
「構造化データの抽出」アクティビティが生成



        (参考) 基礎がよくわかる!ゼロからのRPA Uipath超実践テクニック




この記事が気に入ったらサポートをしてみませんか?