PHPで簡単にスクレイピングする方法part4


みなさんこんばんは、tkです。
今回でスクレイピングについては最終回になります。
前回まででComposerのインストールまでが完了しているのでその続きから始めていきましょう。
環境はCentOS7です。

PHP Phantomjsのインストール

まずはスクレイピングを行うディレクトリを作成して移動しましょう
$ mkdir /*/scraping
$ cd /*/scraping
その後composer.jsonを下記のように作成してください。

作成ができたらPHP Phantomjsをインストールします。
$ composer require "jonnyw/php-phantomjs:4.*"
インストールできたらbin,vendor,composer.lockが作成されているはずです。
これでPHP Phantomjsを実行できる環境が整いました。

PHP Phantomjsを使ったスクレイピング

実際にどのように使うかというとこんな感じで使います。

これでHTMLが取得できます。
今までより少しややこしいかもしれませんが、これでJavaScriptを使用している部分もきちんと取得できます。
ただ一つ注意点があります。
PHP Phantomjsで取得できるHTMLは文字列なので直接DOM操作ができません

まとめ

計4回を通してやってきたスクレイピングについてですが、皆様の参考になれば幸いです。
色々なサイトから自分の欲しい情報が自動で取得できるようになれば作業効率が格段にあがるはずです。
最後にもう一度言いますが、過度なアクセスは絶対に控えてください。

最近PHPによるスクレイピングの内容が書かれている書籍を見つけたので紹介しておきます。
機械学習などのホットな話題にも触れていて単純に読み物としても面白いです。



スクレイピングについての記事をまとめておきます。
PHPで簡単にスクレイピングする方法
PHPで簡単にスクレイピングする方法part2
PHPで簡単にスクレイピングする方法part3

ではでは

ブログランキング
人気ブログランキングへ

tk

こんにちはtkです。長いモラトリアムを経て現在は無職。寝ながらお金を稼げるシステムを作れないかと夢想中。。。。 PHP、Ruby、Javaなんかをいじってたりして、Scala勉強中。趣味は映画・海外ドラマ・読書です。何かオススメあれば是非!

あわせて読みたい

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です