Получить весь текст HTML-страницы, который находится между тегами, кроме заголовка - C#

Узнай цену своей работы

Формулировка задачи:

Здравствуйте, возникла задача отпарсить html. Конкретно, взять весь текст, который находится между тегами, кроме заголовка. Нужно написать регулярную строку.
string text = "<html><head>Заголовок страницы</head>\r\n"+
             "<body><p>Certificate Subject</p>\r\n"+
                     "дальше код,\* страницы бла-бла-бла?!\r\n"+
                     "<p>Certificate Issuer</p>rn"+
                     "дальше код [email]removed@mail.ru[/email] страницы\ бла-бла-бла\r\n"+
                         "</body></html>";
            Regex regex = new Regex(@">[a-zA-ZА-Яа-я0-9]+<"); //здесь нужно изменить регулярку
            Match match = regex.Match(text);
            string Out = "";
            while (match.Success)
            {
                Out += match.Value + " ";
                match = match.NextMatch();
            }
            MessageBox.Show(Out);
Мне нужно чтобы показал: "Certificate Subject дальше код,\* страницы бла-бла-бла?! Certificate Issuer дальше код removed@mail.ru страницы\ бла-бла-бла"

Решение задачи: «Получить весь текст HTML-страницы, который находится между тегами, кроме заголовка»

textual
Листинг программы
SourcePage = SourcePage.Replace("body", "№");//заменяем тег body на любой символ,которого нет в html
                Regex regex = new Regex(@"№[^№]*№");// см. [url]http://habrahabr.ru/post/55766/[/url]
                Match match = regex.Match(SourcePage);
                string Out = "";
                if (match.Success)
                {
                    Out += match.Value + " ";
                }
                SourcePage = Out;
               
                regex = new Regex(@">([^<])+"); // выделяет >текст
                match = regex.Match(SourcePage);
                Out = "";
                while (match.Success)
                {
                    Out += match.Value + " ";
                    match = match.NextMatch();
                }
                Out = Out.Replace(">", "");

ИИ поможет Вам:


  • решить любую задачу по программированию
  • объяснить код
  • расставить комментарии в коде
  • и т.д
Попробуйте бесплатно

Оцени полезность:

7   голосов , оценка 3.857 из 5
Похожие ответы