Парсер форума. затык - Python
Формулировка задачи:
Доброго времени суток.
Приспичило написать парсер местного форума:
Собственно идея такая. Парсер перебирает посты, записывает их в файл, сохраняя id поста и сам текст.
Код пока на такой стадии, пробую пока достать конкретный пост например:
http://forum.penzainform.ru/viewtopic.php?p=1464
Содержимое поста в миниатюра_1.
Далее смотрю исходный код миниатюры_1, миниатюра_2.
Результат видно на миниатюре_3.
Скрипт выдернул все сообщения со страницы, из блока div с классом .content за исключением блоков где были цитаты. Данные сообщения помечены как None.
Соответственно Миниатюра_4 показывает блоки с цитируемым сообщением.
Вопросы:
1) Как сделать так чтобы вместо None был текст сообщения?
2) Как выдернуть id сообщения вместе с текстом?
Решение задачи: «Парсер форума. затык»
textual
Листинг программы
# открываем файл и переделываем его в список из которого достаем предпоследнюю строчку fopen = open('log.txt', 'r') f_list = list(fopen) list_id = f_list[-2:-1] # достаем нулевой элемент списка, это будет ссылка и преобразуем ее в обычную строку # из которой достаем элемент id номера сообщения и преобразум в целочисленное значение link = str(list_id[0]) number_id = int(link[-8:-1]) fopen.close()
ИИ поможет Вам:
- решить любую задачу по программированию
- объяснить код
- расставить комментарии в коде
- и т.д