RubyでHTML解析が超余裕なんです
昨日ラーメン屋に行ってから,ずっと下痢気味&頭痛い状態だったけど,今は割りと腹痛いだけで済んでいる.
なんかRubyでHTML解析しようぜっという話が出てきたから,今日はその実装をしてみました.
RubyのNokogiriというライブラリを使うと本当に簡単.超余裕です.
んで,解析する対象となるページはこれ「http://umie.jp/news/event/」.神戸のイベント一覧が表示されたページ.
イベント取得して,旅行者に提示してみるとかを今後やるつもり.(イベント数が多くないことは考えない)
っというわけで以下は手順.
手順
1.このブログを読む.
http://morizyun.github.io/blog/ruby-nokogiri-scraping-tutorial/#7
これ以上わかりやすい記事があるか,というぐらいわかりやすい良記事.
ぶっちゃけこれだけ読めばHTMLの解析は大丈夫.
ちなみに,HTML解析&抽出を「Webスクレイピング」というらしい.今後ググるときはこのキーワードでググろう.
今回の主役は「Nokogiri」とっても簡単にWebスクレイピングを実現できちゃうライブラリみたいなもん.
rubyは既にインストールしているので,以下のコマンドを実行してNokogiriをインストール.
gem install nokogiri
2.解析する対象のページをHTMLを見る
んで,次のコードを実行する.
多分,xpathの一行がよくわからんと思う.これはこのページを見るとOK.
http://blog.takuros.net/entry/2014/04/15/070434
これもわかりやすい.
結果,取得できた.