Pandas не обрабатывает некоторые сайты - Python

Узнай цену своей работы

Формулировка задачи:

pandas хорошо обрабатывает сайты с табличными данными (например такими http://statisticstimes.com/index.php). Но иногда случается затык (например на этом сайте http://football.kulichki.net/italy/2017/teams/torino.htm). Детали реализации опускаю, но если коротко то делаю так:
Листинг программы
  1. x = urllib.request.urlopen('https://....')
  2. y = pd.read_html(x)
  3. print(y)
--- ValueError: No text parsed from document: <http.client.HTTPResponse object at 0x7f2f8e42b940> --- В документации рекомендуется делать ещё проще
Листинг программы
  1. x = 'https://....'
  2. y = pd.read_html(x)
  3. print(y)
Но тогда ошибка другая: --- AttributeError: 'NoneType' object has no attribute 'next_element' --- lxml, bs4 установлены, python3, ubuntu16 В чём проблема?

Решение задачи: «Pandas не обрабатывает некоторые сайты»

textual
Листинг программы
  1. lxml.etree.XMLSyntaxError: Misplaced DOCTYPE declaration, line 2, column 1

ИИ поможет Вам:


  • решить любую задачу по программированию
  • объяснить код
  • расставить комментарии в коде
  • и т.д
Попробуйте бесплатно

Оцени полезность:

14   голосов , оценка 4.071 из 5

Нужна аналогичная работа?

Оформи быстрый заказ и узнай стоимость

Бесплатно
Оформите заказ и авторы начнут откликаться уже через 10 минут