pythonでスクレイピングする方法【初心者向けに解説】

日頃の業務を自動化する、スクレイピングという技術があります。

スクレイピングは色々なプログラミング言語に対応していますが、もちろんPythonにも対応しています。

スクレイピング(Scraping)とは「かき集める」と意味を持ち、特定の目的を持ってWebやデータベースから情報を抽出する手法を指します。

この記事では、pythonを使ったスクレイピングの使い方をわかりやすく説明していきます。

スクレイピングに必要なpythonライブラリ

それではさっそくスクレイピングの作業環境を準備しましょう。

この記事では、下記の条件を前提に説明をします。

pythonのバージョンは、3を推奨します。

Python3には、pipというライブラリを管理するプログラムがあり、スクレイピングに必要なライブラリを簡単にインストールすることができます。

seleniumをインストール

スクレイピングに必要なライブラリは、”selenium”です。

コマンドプロンプトを立ち上げて、下記のようなコマンドを実行すれば、自動でインストールされます。

python -m pip install selenium==4.18.1

この記事では、動作確認が取れているバージョンを推奨しています。最新バージョンを使いたい方は、”==4.18.1″の部分を消して実行してみてください。

chromedriverをダウンロードして、自動でウェブブラウザを操作する

seleniumをインストールしたら、ウェブブラウザを自動で操作するためのプログラム,”chromedriver”をダウンロードしましょう。

まずは、あなたのお使いのChromeドライバを調べてみましょう。

下記の通り、①ヘルプ➡︎②Google Chromeについてを選ぶと、バージョンを確認することができます。

確認ができたら、”chrome driver”でググり、WebDriver for Chrome – Downloads(リンク:chromedriverをダウンロード)に進み、先ほどご自分のChromeバージョンと同じドライバをダウンロードしてください。

スクレイピングを体験してみよう

準備が整ったかと思いますので、下記のプログラムを実行してみてください。

下記のコードをテキストエディタにコピーしていただき、任意のファイル名と拡張子”.py”をつけて保存してください。

参考プログラム

下記のプログラムを実行すると、自動的にChromeのブラウザが自動で立ち上がり、Googleのトップページサイトが表示されるかと思います。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService

url_address = 'https://www.google.co.jp/'
usr_options = webdriver.ChromeOptions()
service = ChromeService(executable_path=r'ドライバーの保存先を記載')
driver = webdriver.Chrome(options=usr_options)

ドライバーの保存先を記載の部分は、ダウンロードしたchrome driverの保存先を指定します。よくわからない方は、Cドライブの直下に保存して、”C:¥chromedriver.exe”と記載していただければ動くかと思います。(windows使用の方)