Itextsharp из PDF в текст - C#
Формулировка задачи:
Доброго времени суток! Не могу понять в чём проблема.
Конвертирую PDF в TXT с помощью ITEXTsharp.
Все работает, но есть 2 косяка.
1)В моём TXT файле получается больше 10ти копий сконвертированного PDF.
2)Сплит работает только на первые две страницы, потом каша как было бы без сплита '/n'
Помогите пожалуйста разобраться. Голову ломаю давно...
//конвертируем PDF в TXT string strText = string.Empty; try { using (PdfReader reader = new PdfReader(PDF)) { ITextExtractionStrategy its = new LocationTextExtractionStrategy(); for (int pageCounter = 1; pageCounter <= reader.NumberOfPages; pageCounter++) { string str = PdfTextExtractor.GetTextFromPage(reader, pageCounter, its); str = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(str))); strText = strText + str; } reader.Close(); } } catch (Exception ex) { MessageBox.Show(ex.Message); } //сплитим и записываем в TXT string[] result = strText.Split('\n'); File.AppendAllLines(TXT, result);
Решение задачи: «Itextsharp из PDF в текст»
textual
Листинг программы
PDDocument doc = PDDocument.load(PDF); PDFTextStripper stripper = new PDFTextStripper(); string doc1 = stripper.getText(doc); File.WriteAllText(TXT, doc1);
ИИ поможет Вам:
- решить любую задачу по программированию
- объяснить код
- расставить комментарии в коде
- и т.д