【JKI】038_Word_Windows_02_TRAP

ナイメスト

2022年10月16日 00:30

【JKI_038】課題を再確認

文章中の特定の単語の前後3語までのウィンドウサイズで語句抽出すると言う問題です。

サンプルのExcelを読みこんで、結果としてどういった画面表示で出力するかまでは紹介したので、続けて私の解答したworkflow (WF)のコンポーネントの中身を紹介します。

ただし、効率的ではないなと自分でも感じてはいるので公式解答を楽しみにしているところです。私のWF説明はざっくりとしておきます。

【トラップを踏みしめる製作工程紹介】

【入力制御】

WFを実際に動かして検索操作をするための画面 (GUI)の設定用です。
String Widgetが検索語の入力ウィンドウ、
Text Outpur Widgetは注意書きを掲示するためのもの、
Table Editorはユーザが入力データ群を少し変えていろいろ試せたらと設置してみました。
Refresh Button Widgetは検索実行ボタンです。
設定内容などは割愛します。

【検索対象データ前処理】

様々なトラップつまり検索のために取り除く必要があった改行や句点などの処理をしています。

【Bag Of Words】3点セット

String To DocumentとBag Of Words CreatorとTerm To Stringの3点セットは、JKI第34回の公式解答から拝借しました。

正直言って私にとってはブラックボックスです。使ってみますと改行は語句の切れ目(デリミタ)として処理してくれますし、”I’d”や”dosen’t”は略されたままではありますが”I”と”’d”、”does”と”n’t”に分けるなど、文法的な内容も考慮した文字列処理をしてくれる優れモノ。
今回初めて自分で使ってみてツールとしての面白さを知りました。苦労はしたけど勉強になったなぁ。

【句読点処理】3つのString Manipulation

そのまま次の検索へ進めたかったのですが、一つ今回ならではの特殊な問題がありました。句読点のうち、読点だけは削除しないで前の単語とまとめて扱う必要があったのです。

(INPUT) I love eggs, but they need salt. -> (OUTPUT) I love eggs, but they need

ループの5回目のTerm To Stringの出力を見てみますと

“great,”の部分が2行に分かれています。これをまとめるのが一苦労でした。次のメタノードの中身を紹介します。きっともっと良いアルゴリズムがあるでしょうが。

要するに
縦に並んだデータをGroupByでまた横一列に半角スペース繋ぎで並べ、
String Manipulationで
” ,”の半角スペースを除去すると前の単語とまとめて扱えます。
また、句点である”?”, ”.” ,”!”は今回は全て除去しているようでしたので、もう一つのString Manipulationで処理しました。
そのあとの5つのノードはまた縦に単語データ群を並べ替えるだけが目的です。

その結果、