Web::Scraperで"JazzByMail"からデータを取得するスクリプト
Dog Health Center - Jazz by Mail より、ジャンルが"Ragtime & Novelty"であるアルバムのURLを取得してみました。(1ページ目のみ)
scraperだけでは余計な行も入ってきてしまうため、配列に入れ直しています。
#!/usr/bin/perl use strict; use warnings; use Web::Scraper; use WWW::Mechanize; use URI; use YAML; my $url = new URI('http://www.jazzbymail.com/genre.aspx?g=Ragtime+%26+Novelty'); my $mech = new WWW::Mechanize; $mech->add_header(Connection => 'keep-alive'); $mech->get($url) or die $!; # Scrape my $scraper = scraper { process 'table#ctl00_ContentPlaceHolder1_GridView1 tr>td>a', 'link[]' => '@href'; }; my $res = $scraper->scrape($url); # Insert ARRAY my @links; for (@{$res->{link}}) { push @links, $_ if /^http.*ViewAlbum/; } warn Dump @links;