プログラム開発の情報や、雑記を投稿しているサイトです。

CakePHP4 | Goutte を利用したwebスクレイピングの方法

webスクレイピングには、色々な方法があります。

本記事では、CakePHP4 で Goutte を利用したwebスクレイピングの方法を説明しています。

準備

前提条件

Goutte を利用するための前提条件は、下記のとおりです。

・Goutte depends on PHP 7.1+.

インストール

コンソール上で、composer を実行します。

サンプルプログラム

Clientの生成

リスエスト発行

タイムアウトの設定

リンクのクリック

前のページへ戻る

次のページへ進む

リンクタグの取得

特定タグ配下のデータを取得するには、無名関数を利用します。

User Agent を指定する

フォーム入力

まとめ

Goutte を利用した、web スクレイピングの方法について、

よく使う方法は、上記のとおりです。

このように、簡単な記述で、web スクレイピングすることが可能です。

ぜひ、ご参考にしていただければと思います。

公式サイト

fabpot/goutte

Goutte is a screen scraping and web crawling library for PHP.

Goutte provides a nice API to crawl websites and extract data from the HTML/XML responses.

参考:fabpot/goutte

おススメ書籍

中山清喬 (著), 飯田理恵子 (著), 株式会社フレアリンク (監修)


国本大悟 (著), 須藤秋良 (著), 株式会社フレアリンク (監修)