Посчитать слова с текста на сайте - Python

Формулировка задачи:

Как посчитать слова в тексте новости на странице сайта ?

Код к задаче: «Посчитать слова с текста на сайте - Python»

textual
import requests
import lxml.html
import re
 
url = 'http://www.cyberforum.ru/python-web/thread1969000.html' # этот топик
css_post = 'div#post_message_10374313'   # ваш  последний пост
 
resp = requests.get(url)
tree = lxml.html.fromstring(resp.text)
posts = tree.cssselect(css_post)
if posts is not None:
    post_content = posts[0].text_content().strip()
    print(post_content)
    words = re.findall(r'\w+', post_content) # примитивный способ разбивки на слова-токены, очень не точный
    print(words)
    print(len(words)) # всего токенов без учета регистра и повторов
 
    words = {word.lower() for word in re.findall(r'\w+', post_content)} # уникальные токены с нормализованным регистром
    print(words)
    print(len(words))

7   голосов, оценка 3.571 из 5


СОХРАНИТЬ ССЫЛКУ