Pandas не обрабатывает некоторые сайты - Python
Формулировка задачи:
pandas хорошо обрабатывает сайты с табличными данными (например такими http://statisticstimes.com/index.php).
Но иногда случается затык (например на этом сайте http://football.kulichki.net/italy/2017/teams/torino.htm).
Детали реализации опускаю, но если коротко то делаю так:
x = urllib.request.urlopen('https://....') y = pd.read_html(x) print(y)--- ValueError: No text parsed from document: <http.client.HTTPResponse object at 0x7f2f8e42b940> --- В документации рекомендуется делать ещё проще
x = 'https://....' y = pd.read_html(x) print(y)Но тогда ошибка другая: --- AttributeError: 'NoneType' object has no attribute 'next_element' --- lxml, bs4 установлены, python3, ubuntu16 В чём проблема?
Код к задаче: «Pandas не обрабатывает некоторые сайты - Python»
lxml.etree.XMLSyntaxError: Misplaced DOCTYPE declaration, line 2, column 1
14 голосов, оценка 4.071 из 5
СОХРАНИТЬ ССЫЛКУ