Как парсить только текст - Python
Формулировка задачи:
Суть в общем такая, учусь писать парсер на питоне по одному видосу, паршу вот эту страницу https://www.weblancer.net/jobs/ правда сайт с пор видоса поменялся. но ничего вроде справляюсь, только вот проблема с полем количества заявок, в нем стоит куча проблов и перенос строки, не могу придумать как спарсить только текст ибо парситься он вот так : \n\t\t\t\t\t\t\t\t\t\t\t4 заявки\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t. Также прилагаю сам код парсера. мб метод какой другой надо юзать.
Листинг программы
- import urllib.request
- from bs4 import BeautifulSoup
- def get_html(url):
- response = urllib.request.urlopen(url)
- return response.read()
- def parse(html):
- soup = BeautifulSoup(html)
- projects = []
- table = soup.find('div', class_= 'container-fluid cols_table show_visited')
- rows = table.find_all('div', class_='row')
- for i in rows:
- projects.append({
- 'title' : i.a.text,
- 'category' : i.find('a', class_= 'text-muted').text,
- 'content' : i.find('div', class_= 'col-xs-12').text,
- 'order' : i.find('div', class_= 'col-sm-3 text-right text-nowrap hidden-xs').text
- })
- for i in projects:
- print(i)
- def main():
- parse(get_html('https://weblancer.net/jobs?type=project'))
- if __name__ == '__main__':
- main()
Решение задачи: «Как парсить только текст»
textual
Листинг программы
- 'order' : i.find('div', class_= 'col-sm-3 text-right text-nowrap hidden-xs').text.strip()
ИИ поможет Вам:
- решить любую задачу по программированию
- объяснить код
- расставить комментарии в коде
- и т.д