Поиск по коду страницы теста по маске - C#
Формулировка задачи:
Добрый день.
Имеется приложение, которое через HtmlAgilityPack добывает себе ссылки на страницы, на которые потом необходимо зайти и найти в них определенный текст.
С нахождением и заходом на страницы проблем нет, а вот с поиском текста по маске пока с ходу сделать не получилось.
Получаем коллекцию нодов состоящих из ссылок:
После чего идем по каждому элементу коллекции:
Ну и собственно на месте <...> у меня пока заминка.
Нужно брать исходный код каждой страницы и искать там текст определенного содержания, к примеру возьмем email. Подскажите, как правильно реализовать поиск текста по странице по заданной маске *@*.*, что бы дергало это слово целиком на странице(или несколько раз если их больше одного).
И хотелось бы какое-нибудь решение, которое бы это делало не слишком долго, а то страниц более 150000...
Листинг программы
- HtmlAgilityPack.HtmlNodeCollection links = <получение линки>;
Листинг программы
- foreach (var item in links)
- {
- string site_link = item.ChildNodes[0].InnerText;
- try
- {
- var WebPage = new HtmlWeb();
- var WebPageDoc = WebPage.Load(site_link);
- <...>
- }
- catch { }
- }
Решение задачи: «Поиск по коду страницы теста по маске»
textual
Листинг программы
- var reg = new Regex(".*", RegexOptions.Compiled);
ИИ поможет Вам:
- решить любую задачу по программированию
- объяснить код
- расставить комментарии в коде
- и т.д