Прочитать html файл - Python
Формулировка задачи:
Доброго времени суток! Нужно найти в html файле и записать в txt текст между тегами span
Выдает такую ошибку
Листинг программы
- #!/usr/bin/env python
- # -*- coding: utf-8 -*-
- out = open('out.txt','w')
- for i in range(1, 30):
- name_file = str(i) + '.html'
- f = open(name_file, 'r', encoding= 'utf8')
- for line in f:
- line_file = f.readline()
- star = line_file.find('<span>') + 6
- end = line_file.find('</span>')
- temp = line_file[star:end:1]
- out.writelines(temp)
- line_file = ''
- star = ''
- end = ''
- name_file = ''
- f.close()
- line_file = ''
- star =''
- end = ''
- out.close()
Листинг программы
- Traceback (most recent call last):
- File "C:/Users/NOUT/Desktop/teams/147.py", line 7, in <module>
- for line in f:
- File "C:\Users\NOUT\Miniconda3\lib\codecs.py", line 321, in decode
- (result, consumed) = self._buffer_decode(data, self.errors, final)
- UnicodeDecodeError: 'utf-8' codec can't decode byte 0x9e in position 2591: invalid start byte
Решение задачи: «Прочитать html файл»
textual
Листинг программы
- import asyncio
- import aiohttp
- from lxml import html
- @asyncio.coroutine
- def fetch_page(url):
- response = yield from aiohttp.request('GET', url)
- content = yield from response.read()
- page = html.fromstring(content)
- result.extend([x.text for x in page.cssselect('table#teamsboard tr td.hidden-xs span') if x.text])
- result = []
- loop = asyncio.get_event_loop()
- tasks = [fetch_page('http://2016.ufoctf.ru/teams/{}'.format(x)) for x in range(1,31)]
- loop.run_until_complete(asyncio.wait(tasks))
- loop.close()
- print(set(result))
ИИ поможет Вам:
- решить любую задачу по программированию
- объяснить код
- расставить комментарии в коде
- и т.д