Посчитать слова с текста на сайте - Python
Формулировка задачи:
Как посчитать слова в тексте новости на странице сайта ?
Решение задачи: «Посчитать слова с текста на сайте»
textual
Листинг программы
- import requests
- import lxml.html
- import re
- url = 'http://www.cyberforum.ru/python-web/thread1969000.html' # этот топик
- css_post = 'div#post_message_10374313' # ваш последний пост
- resp = requests.get(url)
- tree = lxml.html.fromstring(resp.text)
- posts = tree.cssselect(css_post)
- if posts is not None:
- post_content = posts[0].text_content().strip()
- print(post_content)
- words = re.findall(r'\w+', post_content) # примитивный способ разбивки на слова-токены, очень не точный
- print(words)
- print(len(words)) # всего токенов без учета регистра и повторов
- words = {word.lower() for word in re.findall(r'\w+', post_content)} # уникальные токены с нормализованным регистром
- print(words)
- print(len(words))
ИИ поможет Вам:
- решить любую задачу по программированию
- объяснить код
- расставить комментарии в коде
- и т.д