Парсинг HTML: Открыть каждую страницу и сохранить с нее заголовок, ссылку на фото, текст и дату - C#

Узнай цену своей работы

Формулировка задачи:

Здравствуйте. Допустим есть форма в ней текст бокс и кнопка. В текст бокс даю ссылку на категорию сайта с новостями, к примеру http://news.liga.net/all/politics/ (категория политики). И мне выдается много новостей. Мне нужно открыть каждую и сохранить с нее заголовок, ссылку на фото, текст и дату. Вопросы: 1. Как на странице категории. Выбрать ссылки именно на новости, а не на рекламу и прочие лишние элементы? 2. На странице уже именно новости а не категории как мне выбрать только текст новости? По каким критериям? 3. Как выбрать со всего кода страницы именно заголовок? 4. Как выбрать ссылку на фото к новости если оно есть? 5. ну и так же как найти дату новости? Догадываюсь что регулярными выражениями, но какими???? Заранее ОЧЕНЬ благодарен Вам за внимание!!!

Решение задачи: «Парсинг HTML: Открыть каждую страницу и сохранить с нее заголовок, ссылку на фото, текст и дату»

textual
Листинг программы
  1. static void Main(string[] args)
  2. {
  3.     WebClient wc = new WebClient();
  4.     wc.Encoding = Encoding.UTF8;
  5.     HtmlDocument doc = new HtmlDocument();
  6.     doc.LoadHtml(wc.DownloadString(@"http://news.liga.net/news/politics/5406751-v_odesse_figurantov_dela_o_massovykh_besporyadkakh_ostavili_v_sizo.htm"));
  7.  
  8.     foreach (var n in doc.DocumentNode.SelectNodes("//p"))
  9.     {
  10.         Console.Write(n.InnerText);
  11.     }
  12. }

ИИ поможет Вам:


  • решить любую задачу по программированию
  • объяснить код
  • расставить комментарии в коде
  • и т.д
Попробуйте бесплатно

Оцени полезность:

5   голосов , оценка 3.6 из 5

Нужна аналогичная работа?

Оформи быстрый заказ и узнай стоимость

Бесплатно
Оформите заказ и авторы начнут откликаться уже через 10 минут
Похожие ответы