.NET 4.x Парсинг Html страниц - C#

Узнай цену своей работы

Формулировка задачи:

У меня такой вопрос. Нужно прпасит исходный html кодстраницы и вытащить текст например между тегами <title></title>

Решение задачи: «.NET 4.x Парсинг Html страниц»

textual
Листинг программы
using System;
using System.IO;
using System.Net;
using System.Text.RegularExpressions;
 
namespace ConsoleApplicationTest {
    public static class Program {
        private static void Main() {
            // Загружем страницу
            string data = GetHtmlPageText( "http://ya.ru/" );
 
            // Тег для поиска, ищем теги <a></a>
            string tag = "a";
            string pattern = string.Format( @"\<{0}.*?\>(?<tegData>.+?)\<\/{0}\>", tag.Trim() );
            // \<{0}.*?\> - открывающий тег
            // \<\/{0}\> - закрывающий тег
            // (?<tegData>.+?) - содержимое тега, записываем в группу tegData
 
            Regex regex = new Regex( pattern, RegexOptions.ExplicitCapture );
            MatchCollection matches = regex.Matches( data );
 
            foreach ( Match matche in matches ) {
                Console.WriteLine( matche.Value );
                Console.WriteLine( "Содержание:" );
                Console.WriteLine( matche.Groups[ "tegData" ].Value );
                Console.WriteLine( "---------------------------" );
            }
 
            Console.ReadKey();
        }
 
        public static string GetHtmlPageText( string url ) {
            WebClient client = new WebClient();
            using ( Stream data = client.OpenRead( url ) ) {
                using ( StreamReader reader = new StreamReader( data ) ) {
                    return reader.ReadToEnd();
                }
            }
        }
    }
}

ИИ поможет Вам:


  • решить любую задачу по программированию
  • объяснить код
  • расставить комментарии в коде
  • и т.д
Попробуйте бесплатно

Оцени полезность:

9   голосов , оценка 3.333 из 5