Поиск по коду страницы теста по маске - C#
Формулировка задачи:
Добрый день.
Имеется приложение, которое через HtmlAgilityPack добывает себе ссылки на страницы, на которые потом необходимо зайти и найти в них определенный текст.
С нахождением и заходом на страницы проблем нет, а вот с поиском текста по маске пока с ходу сделать не получилось.
Получаем коллекцию нодов состоящих из ссылок:
После чего идем по каждому элементу коллекции:
Ну и собственно на месте <...> у меня пока заминка.
Нужно брать исходный код каждой страницы и искать там текст определенного содержания, к примеру возьмем email. Подскажите, как правильно реализовать поиск текста по странице по заданной маске *@*.*, что бы дергало это слово целиком на странице(или несколько раз если их больше одного).
И хотелось бы какое-нибудь решение, которое бы это делало не слишком долго, а то страниц более 150000...
HtmlAgilityPack.HtmlNodeCollection links = <получение линки>;
foreach (var item in links) { string site_link = item.ChildNodes[0].InnerText; try { var WebPage = new HtmlWeb(); var WebPageDoc = WebPage.Load(site_link); <...> } catch { } }
Решение задачи: «Поиск по коду страницы теста по маске»
textual
Листинг программы
var reg = new Regex(".*", RegexOptions.Compiled);
ИИ поможет Вам:
- решить любую задачу по программированию
- объяснить код
- расставить комментарии в коде
- и т.д