【スクレイピングでキーワード選定効率化】検索ボリューム・競合調査結果を一括出力【Python】

2021年10月24日2023年9月15日

SEO対策の1つであるキーワード選定をスクレイピングで効率化できないかと思い、やってみたところ意外と簡単にできたのでその手法を公開します。

前提

上位表示を狙うためにボリュームの大きさを調べたり競合サイト数のリサーチを行うと思います。

例えば、○○の特化サイトの場合、検索のボリュームの大きい「○○　△△　××」というキーワードで実際に検索し、上位に競合が多く出ないか（裏返すと「コンテンツ内容が薄いサイトが上位に出現するか」）を調べます。

今回はその過程を効率化する方法について紹介します。

【上位表示を狙いやすいキーワードの特徴】

検索ボリューム（月間検索数）が大きい
競合が少ない

これをプログラムに落とし込みます

【使用ツール】

できること

指定した文字列を含むURLのサイトが上位に表示される際のキーワード、検索ボリューム、そのサイトの順位、タイトル、URLをスプレッドシートに出力

下準備

ラッコキーワードから候補をコピー

ラッコキーワードでメインのキーワードを入力し検索

検索結果画面右上の全キーワードコピーをクリック

キーワードプランナーで検索ボリュームを取得

Google広告を開き検索窓にキーワードプランナーと入力し選択（この辺りはUIが変わりやすいので手順は参考程度に…）

（※未登録の場合はアカウント作成からです。Gmailアドレスが必要。）

キーワードプランナーの開始画面で「検索のボリュームと予測データを確認する」を選択

先ほどコピーしたキーワードを張り付けて「開始する」をクリック

右上のダウンロードのマーク「⇩」をクリック

過去のプラン指標の「Googleスプレッドシート」を選択

ファイル名とフォルダを指定してダウンロードボタンをクリック

「スプレッドシートを開く」をクリックするとスプレッドシートが開く

シート名を変更

入力用シートの名前を”in”、出力用を”out”としておく。

タブをダブルクリックしシート名を変更

「＋」マークをクリックし出力用シートを作成

スクレイピング

Google Colaboratoryを開いて新しいノートブックを作成し下記コードを貼り付け

import requests
from bs4 import BeautifulSoup
from time import sleep
from google.colab import auth
from google.auth import default
import gspread

# シート読み込み
auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)
ss_url = 'ここにスプレッドシートのURLを記載してください'
workbook = gc.open_by_url(ss_url)
sheet_in = workbook.worksheet("in")
sheet_out = workbook.worksheet("out")

# 行範囲を指定
start = 6
end = 100

# 抽出用URLを指定
target_url = 'https://detail.chiebukuro.yahoo.co.jp/'

for i in range(start, end + 1):

  # Google検索するキーワードを設定
  search_word = sheet_in.cell(i,1).value

  # キーワードのボリューム
  if(sheet_in.cell(i,4).value != ""):
    volume = int(float(sheet_in.cell(i,4).value))
  else:
    volume = 0

  # 検索順位10位まで調べる
  rank_max = 10
  pages_num = rank_max + 1

  print(f'{i} {search_word}')

  # ヘッダー出力
  if(sheet_out.cell(1,1).value == ""):
    sheet_out.append_row(["キーワード", "ボリューム", "順位", "タイトル", "URL"])

  # Googleから検索結果ページを取得
  url = f'https://www.google.co.jp/search?hl=ja&num={pages_num}&q={search_word}'
  request = requests.get(url)

  # Googleのページ解析
  soup = BeautifulSoup(request.text, "html.parser")
  search_site_list = soup.select('div.kCrYT > a')

  # ページ解析,結果出力
  for rank, site in zip(range(1, pages_num), search_site_list):
      try:
          site_title = site.select('h3.zBAuLc')[0].text
      except IndexError:
          site_title = "取得できませんでした"

      site_url = site['href'].replace('/url?q=', '').split('&sa=U')

      # 結果出力（条件：指定URLが含まれる かつ ボリューム≧50）
      if((target_url in site_url[0]) and ( volume >= 50 )):
        # スプレッドシートに出力
        sheet_out.append_row([search_word, volume, rank, site_title, site_url[0]])

  # 20秒待機
  sleep(20)