![]() |
#2 |
Moderator
|
Цитата:
![]() Дело в том, что строго говоря, PDF-формат является скорее графическим чем текстовым. Если я правильно понимаю - там внутри нечто вроде программы для абстрактного устройства вывода, с системой комманд, похожей на Forth-машину. Для удобства поиска, там внутри может содержаться и текст (который можно искать). А может и не содержаться, или быть уж слишком непривычно закодирован. Поэтому, для преобразования PDF в текстовый формат, нужна система распознования текста (например - Abbyy Transformer, но есть и другие). Часть из этих систем может иметь API для вызова извне. В теории, возможно вызывать эти программы, заставлять их преобразовать PDF в Word, потом попробовать почитать содержимое Word через Automation-интерфейс и тп, однако: 1. Заведомо будут ошибки распознования. При этом если язык документа не очень популярный - ошибок будет больше. 2. Лицензия на enterprise-версию распознавалки явно будет не очень дешевой. |
|
|
За это сообщение автора поблагодарили: Rimantas (1). |
Теги |
pdf, импорт, формат файла |
|
|