ElementTree и FB2: ParseError в файлах cp1251 - Python

Узнай цену своей работы

Формулировка задачи:

Занялся я тут на досуге парсингом fb2-книг. Использую Python 3x, компонент xml.etree.ElementTree. Случилась у меня засада. Если файл в кодировке ANSI, то постоянно появляется ошибка ParseError. Исследование показало, что по указанным координатам в файлах находятся &-последовательности (вроде &nbsp или символ с кодом 7. Можно ли что-то с этим сделать? Очень уж не хочется заниматься еще и разного рода перекодировками файлов... Ну вот, чтобы не быть голословным, функция, которая извлекает нужные данные из файла:
Глючный файл прилагается.

Решение задачи: «ElementTree и FB2: ParseError в файлах cp1251»

textual
Листинг программы
* * * * fb = met.fromstring(zf.read(fn).decode('cp1251')) # здесь все падает...

ИИ для рефератов и докладов


  • Экспорт Word по ГОСТу
  • Минимум 80% уникальности текста
  • Поиск релевантных источников в интернете
  • Готовый документ за 2 минуты

Оцени полезность:

14   голосов , оценка 4.286 из 5
Похожие ответы