Парсинг HTML: Открыть каждую страницу и сохранить с нее заголовок, ссылку на фото, текст и дату - C#

Узнай цену своей работы

Формулировка задачи:

Здравствуйте. Допустим есть форма в ней текст бокс и кнопка. В текст бокс даю ссылку на категорию сайта с новостями, к примеру http://news.liga.net/all/politics/ (категория политики). И мне выдается много новостей. Мне нужно открыть каждую и сохранить с нее заголовок, ссылку на фото, текст и дату. Вопросы: 1. Как на странице категории. Выбрать ссылки именно на новости, а не на рекламу и прочие лишние элементы? 2. На странице уже именно новости а не категории как мне выбрать только текст новости? По каким критериям? 3. Как выбрать со всего кода страницы именно заголовок? 4. Как выбрать ссылку на фото к новости если оно есть? 5. ну и так же как найти дату новости? Догадываюсь что регулярными выражениями, но какими???? Заранее ОЧЕНЬ благодарен Вам за внимание!!!

Решение задачи: «Парсинг HTML: Открыть каждую страницу и сохранить с нее заголовок, ссылку на фото, текст и дату»

textual
Листинг программы
static void Main(string[] args)
{
    WebClient wc = new WebClient();
    wc.Encoding = Encoding.UTF8;
    HtmlDocument doc = new HtmlDocument();
    doc.LoadHtml(wc.DownloadString(@"http://news.liga.net/news/politics/5406751-v_odesse_figurantov_dela_o_massovykh_besporyadkakh_ostavili_v_sizo.htm"));
 
    foreach (var n in doc.DocumentNode.SelectNodes("//p"))
    {
        Console.Write(n.InnerText);
    }
}

ИИ поможет Вам:


  • решить любую задачу по программированию
  • объяснить код
  • расставить комментарии в коде
  • и т.д
Попробуйте бесплатно

Оцени полезность:

5   голосов , оценка 3.6 из 5
Похожие ответы