Парсинг HTML: Открыть каждую страницу и сохранить с нее заголовок, ссылку на фото, текст и дату - C#
Формулировка задачи:
Здравствуйте. Допустим есть форма в ней текст бокс и кнопка. В текст бокс даю ссылку на категорию сайта с новостями, к примеру http://news.liga.net/all/politics/ (категория политики).
И мне выдается много новостей. Мне нужно открыть каждую и сохранить с нее заголовок, ссылку на фото, текст и дату.
Вопросы:
1. Как на странице категории. Выбрать ссылки именно на новости, а не на рекламу и прочие лишние элементы?
2. На странице уже именно новости а не категории как мне выбрать только текст новости? По каким критериям?
3. Как выбрать со всего кода страницы именно заголовок?
4. Как выбрать ссылку на фото к новости если оно есть?
5. ну и так же как найти дату новости?
Догадываюсь что регулярными выражениями, но какими????
Заранее ОЧЕНЬ благодарен Вам за внимание!!!
Решение задачи: «Парсинг HTML: Открыть каждую страницу и сохранить с нее заголовок, ссылку на фото, текст и дату»
textual
Листинг программы
static void Main(string[] args) { WebClient wc = new WebClient(); wc.Encoding = Encoding.UTF8; HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(wc.DownloadString(@"http://news.liga.net/news/politics/5406751-v_odesse_figurantov_dela_o_massovykh_besporyadkakh_ostavili_v_sizo.htm")); foreach (var n in doc.DocumentNode.SelectNodes("//p")) { Console.Write(n.InnerText); } }
ИИ поможет Вам:
- решить любую задачу по программированию
- объяснить код
- расставить комментарии в коде
- и т.д