【Python】BeautifulSoupでtableが最初の数行しか取得できない場合の対処

by SEBONE · 公開済み 2020年9月7日 · 更新済み 2021年6月5日

概要

PythonでWebスクレイピングをするときの定番であるBeautifulsoupですが、tableを取得しようとしたときに最初の数行しか取得できないことがあったのでその対処法についてメモする。

環境

Python 3.7.3

発生事象

以下のようなテーブルがあるとします。

番号	名前
1	佐藤
2	加藤
3	伊藤
4	後藤

ウェブブラウザのF12で見えているhtmlコードはこのような状態

<table class="test_table">
<thead>
<tr>
<th>&#21517;&#21069;</th>
<th>&#27663;&#21517;</th>
</tr>
</thead>
<tbody>
    <tr>
    <td>1</td>
    <td>&#20304;&#34276;</td>
    </tr>
</tbody>
<tbody>
    <tr>
    <td>2</td>
    <td>&#21152;&#34276;</td>
    </tr>
</tbody>
<tbody>
    <tr>
    <td>3</td>
    <td>&#20234;&#34276;</td>
    </tr>
</tbody>
<tbody>
    <tr>
    <td>4</td>
    <td>&#24460;&#34276;</td>
    </tr>
</tbody>
</table>

これをBeautifulSoupを使った次のようなコードで取得しようとしたところ・・・

import requests
from bs4 import BeautifulSoup

r = requests.get('http://example.com',headers = headers)
soup = BeautifulSoup(r.content, "html.parser")

table = soup.findAll('table',{'class':"test_table"})[0]

rows = table.findAll('tr')
for row in rows:
    print(row)

実行結果

なぜか最初の数行分の<tr>しか取れてこないという現象が起きました。

&lt;tr&gt;
&lt;th&gt;&#21517;&#21069;&lt;/th&gt;
&lt;th&gt;&#27663;&#21517;&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
    &lt;tr&gt;
    &lt;td&gt;1&lt;/td&gt;
    &lt;td&gt;&#20304;&#34276;&lt;/td&gt;
    &lt;/tr&gt;
&lt;/tbody&gt;
&lt;tbody&gt;
    &lt;tr&gt;
    &lt;td&gt;2&lt;/td&gt;
    &lt;td&gt;&#21152;&#34276;&lt;/td&gt;
    &lt;/tr&gt;
&lt;/tbody&gt;

対処法

試した結果、BeautifulSoupでhtml.parserではなくlxmlを使用することで、すべての行を取得できるようになった。（結果は略）

import requests
from bs4 import BeautifulSoup

r = requests.get('http://example.com',headers = headers)
soup = BeautifulSoup(r.content, "lxml")

table = soup.findAll('table',{'class':"test_table"})[0]

rows = table.findAll('tr')
for row in rows:
    print(row)

理由はよくわかりませんが・・・そういうもんだと割り切ってやってこうと思います。

以上

Pythonを一から学ぶのにおすすめの本はコチラ

【Python】BeautifulSoupでtableが最初の数行しか取得できない場合の対処

概要

環境

発生事象

実行結果

対処法

おすすめ

1件の返信

【Python】pandasでhtmlのtableをスクレイピング – IT Learning へ返信するコメントをキャンセル

【Python】BeautifulSoupでtableが最初の数行しか取得できない場合の対処

概要

環境

発生事象

実行結果

対処法

おすすめ

【Pythonテクニカル分析】ウィリアムズ%Rの計算と描画

【Python】pandas でnanデータを判定する方法

Python formatの基本的な使い方

1件の返信

【Python】pandasでhtmlのtableをスクレイピング – IT Learning へ返信する コメントをキャンセル

【Python】pandasでhtmlのtableをスクレイピング – IT Learning へ返信するコメントをキャンセル