Itextsharp из PDF в текст - C#

Узнай цену своей работы

Формулировка задачи:

Доброго времени суток! Не могу понять в чём проблема. Конвертирую PDF в TXT с помощью ITEXTsharp.
//конвертируем PDF в TXT
            string strText = string.Empty;
            
            try
            {
                using (PdfReader reader = new PdfReader(PDF))
                {
                    ITextExtractionStrategy its = new LocationTextExtractionStrategy();                   
                    for (int pageCounter = 1; pageCounter <= reader.NumberOfPages; pageCounter++)
                    {                      
                        string str = PdfTextExtractor.GetTextFromPage(reader, pageCounter, its);                                              
                        str = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(str)));
                        strText = strText + str; 
                        
                    }
                    reader.Close();                                     
                }
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }
//сплитим и записываем в TXT
string[] result = strText.Split('\n');
            File.AppendAllLines(TXT, result);
Все работает, но есть 2 косяка. 1)В моём TXT файле получается больше 10ти копий сконвертированного PDF. 2)Сплит работает только на первые две страницы, потом каша как было бы без сплита '/n' Помогите пожалуйста разобраться. Голову ломаю давно...

Решение задачи: «Itextsharp из PDF в текст»

textual
Листинг программы
PDDocument doc = PDDocument.load(PDF);
PDFTextStripper stripper = new PDFTextStripper();
string doc1 = stripper.getText(doc);
File.WriteAllText(TXT, doc1);

ИИ поможет Вам:


  • решить любую задачу по программированию
  • объяснить код
  • расставить комментарии в коде
  • и т.д
Попробуйте бесплатно

Оцени полезность:

10   голосов , оценка 4.3 из 5