Получить весь текст HTML-страницы, который находится между тегами, кроме заголовка - C#
Формулировка задачи:
Здравствуйте, возникла задача отпарсить html. Конкретно, взять весь текст, который находится между тегами, кроме заголовка. Нужно написать регулярную строку.
Мне нужно чтобы показал: "Certificate Subject дальше код,\* страницы бла-бла-бла?! Certificate Issuer дальше код removed@mail.ru страницы\ бла-бла-бла"
string text = "<html><head>Заголовок страницы</head>\r\n"+
"<body><p>Certificate Subject</p>\r\n"+
"дальше код,\* страницы бла-бла-бла?!\r\n"+
"<p>Certificate Issuer</p>rn"+
"дальше код [email]removed@mail.ru[/email] страницы\ бла-бла-бла\r\n"+
"</body></html>";
Regex regex = new Regex(@">[a-zA-ZА-Яа-я0-9]+<"); //здесь нужно изменить регулярку
Match match = regex.Match(text);
string Out = "";
while (match.Success)
{
Out += match.Value + " ";
match = match.NextMatch();
}
MessageBox.Show(Out);Решение задачи: «Получить весь текст HTML-страницы, который находится между тегами, кроме заголовка»
textual
Листинг программы
SourcePage = SourcePage.Replace("body", "№");//заменяем тег body на любой символ,которого нет в html
Regex regex = new Regex(@"№[^№]*№");// см. [url]http://habrahabr.ru/post/55766/[/url]
Match match = regex.Match(SourcePage);
string Out = "";
if (match.Success)
{
Out += match.Value + " ";
}
SourcePage = Out;
regex = new Regex(@">([^<])+"); // выделяет >текст
match = regex.Match(SourcePage);
Out = "";
while (match.Success)
{
Out += match.Value + " ";
match = match.NextMatch();
}
Out = Out.Replace(">", "");