Найти отдельные куски динамической информации(имя, деят, возраст) в HTML документе - C#
Формулировка задачи:
Суть программы.
Есть много-много страничек с людьми и информацией о них на одном сайте. Нужно все странички сделать (грубо говоря) отдельными сайтами с одинаковым дизайном (шаблон уже есть). Так как вручную это очень долго, было решено сделать программу на C#: вставляется ссылка на старую страницу в текст. поле, нажимается кнопка и готово.
Мой алгоритм программы.
1) Ввод ссылки и загрузка страницы в стр.переменную. (готово).
2) Поиск нужной информации и запись в отдельные переменные.
3) Подстановка переменных в шаблон (готово).
4) Создание отдельной папки и страницы (готово).
PS: Перед этим делал похожую программу, только там были поля в которую ручками записываешь все эти данные и он формирует страницу (но это тоже весьма долго).
Вот код получения страницы:
HTML документ большой(400), поэтому вот только тот кусок, по которому я хотя бы смогу понять алгоритм действий.
*Поля id, class, role - как в оригинальной странице.
Вопросы:
1) Так как информация и имена постоянно меняются как их находить в HTML - документе? (Например будет, Андреев Максим, Грузчик, Женат, 26 лет и т.д.)
2) Если существуют технологии более удобные для решения подобных задач/проблем я открыт для предложений.
Листинг программы
- HttpWebRequest req;
- HttpWebResponse resp;
- StreamReader sr;
- string content;
- req = (HttpWebRequest)WebRequest.Create(textBoxAdress.Text);
- resp = (HttpWebResponse)req.GetResponse();
- sr = new StreamReader(resp.GetResponseStream(), Encoding.GetEncoding("UTF-8"));
- content = sr.ReadToEnd();
- sr.Close();
Листинг программы
- <div id="content" role="main">
- <header class="entry-header">
- <h1 class="entry-title">Иванов Иван Иванович</h1>
- </header>
- <div class="entry-content">
- <strong>Строитель</strong>
- <img src="www.oldsite.com/img.jpeg" />
- </div>
- <div>Не женат</div>
- <div>28 лет</div>
- </div>
Решение задачи: «Найти отдельные куски динамической информации(имя, деят, возраст) в HTML документе»
textual
Листинг программы
- HTMLDocument mypage = (HTMLDocument)wb.Document;
- HTMLSelectElement select = mypage.getElementById("inpbx") as HTMLSelectElement;
- var s = select.value;
ИИ поможет Вам:
- решить любую задачу по программированию
- объяснить код
- расставить комментарии в коде
- и т.д