perl

Last.fm API の結果を HTML::Template を使って出力する

Last.fmのAPIと「XML::Simple」 - ragutarouの日記の発展形。 Last.fm APIを使い、"ragtime"タグが多く付けられているアーティストを抜き出す。その結果(xml)を HTML::Template を使ってcgiで表示させる。 #!/usr/bin/perl -T use strict; use warnings; use…

Last.fmのAPIと「XML::Simple」

やりたいこと Last.fmのAPI(http://www.audioscrobbler.net/data/webservices/)と XML::Simple モジュールを使って、"ragtime"というタグ名からTopArtist(人気のあるアーティスト)を抜き出す。 #!/usr/local/bin/perl use strict; use warnings; use LWP::Si…

Web::Scraperで"JazzByMail"からデータを取得するスクリプト

Dog Health Center - Jazz by Mail より、ジャンルが"Ragtime & Novelty"であるアルバムのURLを取得してみました。(1ページ目のみ) scraperだけでは余計な行も入ってきてしまうため、配列に入れ直しています。 #!/usr/bin/perl use strict; use warnings;…

さくらインターネットのレンタルサーバでWeb::Scraperをインストール

Webサービスを作ってみようということで、ついにレンタルサーバ(さくらインターネット)を借りました。まずはsshでログインして、PerlモジュールのWeb::Scraperを使えるようにします。 一般ユーザでCPANインストールができるようにする iandeth. - 一般ユー…

Web::ScraperとWWW::MechanizeでCDBabyからデータ取得

前回記事 Web::Scraperを使ってみた - ragutarouの日記 の発展形。 "see more"というリンクがなくなるまでリンクを辿りデータを取得していく。 #!/usr/bin/perl use strict; use warnings; use Web::Scraper; use WWW::Mechanize; use URI; use YAML; my $ur…

Web::Scaraperを使ってCDBabyからタイトルと金額を取得する

Webページから欲しい情報を取得してしまおうというのがスクレイピング。スパイダリングなんて言い方もする。 でもHTMLっていろいろな書き方があるからこれがなかなか大変。 今まではHTML::TreeBuilderとかHTML::TokeParserを使っていたけど、Web::Scraperと…

Perlモジュール一覧

perl -MFile::Find=find -MFile::Spec::Functions -Tlwe \ 'find { wanted => sub { print canonpath $_ if /\.pm\z/ }, no_chdir => 1 }, @INC'

HTTPのヘッダを見てみる

■ブラウザ(Firefox)にて、正常に取得できるパターン GET 〜〜URL〜〜 HTTP/1.1 Host: 〜〜HOST〜〜 User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.0; ja; rv:1.8.0.10) Gecko/20070216 Firefox/1.5.0.10 Accept: text/xml,application/xml,application…

Perlから、https(SSL)のコンテンツをProxy経由で取得するメモ

環境 OS Red Hat Enterprise Linux ES4 Squidバージョン 2.4.STABLE7 perlバージョン 5.8.5 その他モジュール Crypt-SSLeay-0.53 , openssl-0.9.7a-43.10 ソース #!/usr/local/bin/perl use strict; use warnings; use LWP::UserAgent; my $proxy_url = "htt…