![]() |
#3 |
Участник
|
Цитата:
Сообщение от fed
![]() Короткий ответ - возможно, но вряд ли это себя окупит
![]() Дело в том, что строго говоря, PDF-формат является скорее графическим чем текстовым. Если я правильно понимаю - там внутри нечто вроде программы для абстрактного устройства вывода, с системой комманд, похожей на Forth-машину. Для удобства поиска, там внутри может содержаться и текст (который можно искать). А может и не содержаться, или быть уж слишком непривычно закодирован. Поэтому, для преобразования PDF в текстовый формат, нужна система распознования текста (например - Abbyy Transformer, но есть и другие). Часть из этих систем может иметь API для вызова извне. В теории, возможно вызывать эти программы, заставлять их преобразовать PDF в Word, потом попробовать почитать содержимое Word через Automation-интерфейс и тп, однако: 1. Заведомо будут ошибки распознования. При этом если язык документа не очень популярный - ошибок будет больше. 2. Лицензия на enterprise-версию распознавалки явно будет не очень дешевой. ![]() |
|
Теги |
pdf, импорт, формат файла |
|
|