Парсинг сайта - Python
Формулировка задачи:
Добрый день. Возникла проблема с написанием рекурсивного парсинга страниц сайта.
Суть такова, написан код, который парсит только страницу, которую я указал. Помогите разобраться как реализовать, чтобы можно было извлечь абсолютно все ссылки с сайта
Решение задачи: «Парсинг сайта»
textual
Листинг программы
url = 'http://corp.fastsite.ru/'
resp = requests.get(url)
tree = lxml.html.fromstring(resp.text)
xpath = './/a[(starts-with(@href,"http") or starts-with(@href,"https")) and contains(@href,"www")]/@href'
links = set(tree.xpath(xpath)) # set удалит дубликаты
print(links)
# или так
links = tree.xpath('.//a[@href]/@href')
links = set([href for href in links if re.match(r'(https?)://(?=www)',href)])
print(links)