Itextsharp из PDF в текст - C#
Формулировка задачи:
Доброго времени суток! Не могу понять в чём проблема.
Конвертирую PDF в TXT с помощью ITEXTsharp.
Все работает, но есть 2 косяка.
1)В моём TXT файле получается больше 10ти копий сконвертированного PDF.
2)Сплит работает только на первые две страницы, потом каша как было бы без сплита '/n'
Помогите пожалуйста разобраться. Голову ломаю давно...
//конвертируем PDF в TXT
string strText = string.Empty;
try
{
using (PdfReader reader = new PdfReader(PDF))
{
ITextExtractionStrategy its = new LocationTextExtractionStrategy();
for (int pageCounter = 1; pageCounter <= reader.NumberOfPages; pageCounter++)
{
string str = PdfTextExtractor.GetTextFromPage(reader, pageCounter, its);
str = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(str)));
strText = strText + str;
}
reader.Close();
}
}
catch (Exception ex)
{
MessageBox.Show(ex.Message);
}
//сплитим и записываем в TXT
string[] result = strText.Split('\n');
File.AppendAllLines(TXT, result);Решение задачи: «Itextsharp из PDF в текст»
textual
Листинг программы
PDDocument doc = PDDocument.load(PDF); PDFTextStripper stripper = new PDFTextStripper(); string doc1 = stripper.getText(doc); File.WriteAllText(TXT, doc1);