読者です 読者をやめる 読者になる 読者になる

初心者エンジニアが何か書く

〜技術ブログメイン〜

RubyでHTML解析が超余裕なんです

昨日ラーメン屋に行ってから,ずっと下痢気味&頭痛い状態だったけど,今は割りと腹痛いだけで済んでいる.

なんかRubyでHTML解析しようぜっという話が出てきたから,今日はその実装をしてみました.

RubyのNokogiriというライブラリを使うと本当に簡単.超余裕です.

んで,解析する対象となるページはこれ「http://umie.jp/news/event/」.神戸のイベント一覧が表示されたページ.
イベント取得して,旅行者に提示してみるとかを今後やるつもり.(イベント数が多くないことは考えない)

っというわけで以下は手順.

手順

1.このブログを読む.
http://morizyun.github.io/blog/ruby-nokogiri-scraping-tutorial/#7

これ以上わかりやすい記事があるか,というぐらいわかりやすい良記事.
ぶっちゃけこれだけ読めばHTMLの解析は大丈夫.

ちなみに,HTML解析&抽出を「Webスクレイピング」というらしい.今後ググるときはこのキーワードでググろう.

 

 


今回の主役は「Nokogiri」とっても簡単にWebスクレイピングを実現できちゃうライブラリみたいなもん.
rubyは既にインストールしているので,以下のコマンドを実行してNokogiriをインストール.

gem install nokogiri

 

2.解析する対象のページをHTMLを見る

f:id:inobo52:20140904213317p:plain

んで,次のコードを実行する.





多分,xpathの一行がよくわからんと思う.これはこのページを見るとOK.
http://blog.takuros.net/entry/2014/04/15/070434
これもわかりやすい.

 

結果,取得できた.

f:id:inobo52:20140904213313p:plain