見出し画像

MATLABで行うWEB scrapingのための参考サイト

https://blogs.mathworks.com/videos/2015/09/23/reading-web-pages-part-1-using-webread/

何だかうまく埋め込みできませんでしたが、上の記事はMATLABを用いた簡単なweb scrapingに関して記載されている。

結局時間が取れるのは今日までだったので、年末にやりたかった自然言語処理とscrapingはかなり中途半端になってもうたね。

他にもMATLABでは以下のサイトでScrapingを行っている。

https://blogs.mathworks.com/loren/2017/07/10/web-scraping-and-mining-unstructured-data-with-matlab/

まぁやりたい事は、ページから画像データとって来る事なので、HTML中の画像部分からデータとってセル配列に突っ込むコードにしたらいいべか。

HTMLに関する知識もないから、とりあえず参考サイト探すしかないね。てか.jpegとかのイメージデータの拡張子探索とかさせて探せば良くないか?

やって見ろよって感じだけど、そもそもHTML情報から画像のURL?を取得してダウンロードって感じなのだろうか…

うーんわからない事が多いが、scrapingに関しても少し明確になった。

この記事が気に入ったらサポートをしてみませんか?