Парсинг HTML: Открыть каждую страницу и сохранить с нее заголовок, ссылку на фото, текст и дату - C#
Формулировка задачи:
Здравствуйте. Допустим есть форма в ней текст бокс и кнопка. В текст бокс даю ссылку на категорию сайта с новостями, к примеру http://news.liga.net/all/politics/ (категория политики).
И мне выдается много новостей. Мне нужно открыть каждую и сохранить с нее заголовок, ссылку на фото, текст и дату.
Вопросы:
1. Как на странице категории. Выбрать ссылки именно на новости, а не на рекламу и прочие лишние элементы?
2. На странице уже именно новости а не категории как мне выбрать только текст новости? По каким критериям?
3. Как выбрать со всего кода страницы именно заголовок?
4. Как выбрать ссылку на фото к новости если оно есть?
5. ну и так же как найти дату новости?
Догадываюсь что регулярными выражениями, но какими????
Заранее ОЧЕНЬ благодарен Вам за внимание!!!
Решение задачи: «Парсинг HTML: Открыть каждую страницу и сохранить с нее заголовок, ссылку на фото, текст и дату»
textual
Листинг программы
- static void Main(string[] args)
- {
- WebClient wc = new WebClient();
- wc.Encoding = Encoding.UTF8;
- HtmlDocument doc = new HtmlDocument();
- doc.LoadHtml(wc.DownloadString(@"http://news.liga.net/news/politics/5406751-v_odesse_figurantov_dela_o_massovykh_besporyadkakh_ostavili_v_sizo.htm"));
- foreach (var n in doc.DocumentNode.SelectNodes("//p"))
- {
- Console.Write(n.InnerText);
- }
- }
ИИ поможет Вам:
- решить любую задачу по программированию
- объяснить код
- расставить комментарии в коде
- и т.д