見出し画像

EmEditor初心者 #3 重複を削除して列を抽出

 データを扱う際に、重複したデータを削除したい時が多々ある。
 医療系データでも、例えばDPCデータの処理の際にそういったことが必要になってくる。
 エクセルなら関数やマクロですぐにできそうだが、DPCデータは(ファイルの種類によるが)一か月分でも数万行~数十万行と大きいため厳しい。そのため、EmEditorの操作を確認してみる。


0. ダミーデータ

 3,000行あるダミーデータを準備。

ダミーデータ

1. 列内の重複を削除

 IDの重複を削除したい場合、データを読み込んだ後に、
[並び替え]
→[重複行の削除 / ブックマーク(高度)]
→[指定する列のみを調べる]
で削除したい列を選択し、削除ボタンで実行。

ダミーデータでIDの重複を削除

2. 列を抽出

[CSV]
→[高度]
→「列の抽出」
で重複削除を実行した列を選択し、OKボタンで実行。

重複削除を実行した列を抽出

 新たなシートが作成される。

処理を実行した列のみを抽出
3,000行から2937行抽出

 もっと簡単な方法がある気がするが、ひとまずこれで作業はできるので、良しとしよう。基本を押さえて地道に頑張る。

この記事が気に入ったらサポートをしてみませんか?