Получить весь текст HTML-страницы, который находится между тегами, кроме заголовка - C#
Формулировка задачи:
Здравствуйте, возникла задача отпарсить html. Конкретно, взять весь текст, который находится между тегами, кроме заголовка. Нужно написать регулярную строку.
Мне нужно чтобы показал: "Certificate Subject дальше код,\* страницы бла-бла-бла?! Certificate Issuer дальше код removed@mail.ru страницы\ бла-бла-бла"
string text = "<html><head>Заголовок страницы</head>\r\n"+ "<body><p>Certificate Subject</p>\r\n"+ "дальше код,\* страницы бла-бла-бла?!\r\n"+ "<p>Certificate Issuer</p>rn"+ "дальше код [email]removed@mail.ru[/email] страницы\ бла-бла-бла\r\n"+ "</body></html>"; Regex regex = new Regex(@">[a-zA-ZА-Яа-я0-9]+<"); //здесь нужно изменить регулярку Match match = regex.Match(text); string Out = ""; while (match.Success) { Out += match.Value + " "; match = match.NextMatch(); } MessageBox.Show(Out);
Решение задачи: «Получить весь текст HTML-страницы, который находится между тегами, кроме заголовка»
textual
Листинг программы
SourcePage = SourcePage.Replace("body", "№");//заменяем тег body на любой символ,которого нет в html Regex regex = new Regex(@"№[^№]*№");// см. [url]http://habrahabr.ru/post/55766/[/url] Match match = regex.Match(SourcePage); string Out = ""; if (match.Success) { Out += match.Value + " "; } SourcePage = Out; regex = new Regex(@">([^<])+"); // выделяет >текст match = regex.Match(SourcePage); Out = ""; while (match.Success) { Out += match.Value + " "; match = match.NextMatch(); } Out = Out.Replace(">", "");
ИИ поможет Вам:
- решить любую задачу по программированию
- объяснить код
- расставить комментарии в коде
- и т.д