テキストから IP アドレスを抽出、重複削除2
以前テキストから IP アドレスを抽出し、さらに重複を除く方法について書いた。
上記は、IP アドレスを抽出するウェブサービス、および重複を取り除くウェブサービスを利用する方法だった。
しかしこの方法だと数万行に及ぶような大量のテキストだとエラーになる。さらに、扱う情報が外部に漏れる可能性がなくもない。
そこでこの処理をローカルでやることにした。
(1)対象のテキストを sample.txt などというファイル名で保存する。
(2)Terminal で以下のコマンドを実行する。
$ grep -o '[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}' sample.txt | sort -t: -u -k1,1
たったこれだけで、IP アドレスの抽出および重複の削除ができるようになった。
参考:
How to Extract IPv4 Addresses from Files in Linux | Baeldung on Linux
https://www.baeldung.com/linux/files-extract-ip
bash - Removing duplicates in grep output - Stack Overflow
https://stackoverflow.com/questions/49313160/removing-duplicates-in-grep-output
この記事が気に入ったらサポートをしてみませんか?