Цитата:
Сообщение от
Rimantas
Здраствуйте,
Менеджеры просять сделать перевод из пдф файлов . Обычно они в таком формате получает заказы. Возможно такое ? Пока такой инфо ненашел и решил спросить здесь ..
Заранее спасибо !
Короткий ответ - возможно, но вряд ли это себя окупит

Дело в том, что строго говоря, PDF-формат является скорее графическим чем текстовым. Если я правильно понимаю - там внутри нечто вроде программы для абстрактного устройства вывода, с системой комманд, похожей на Forth-машину. Для удобства поиска, там внутри может содержаться и текст (который можно искать). А может и не содержаться, или быть уж слишком непривычно закодирован. Поэтому, для преобразования PDF в текстовый формат, нужна система распознования текста (например - Abbyy Transformer, но есть и другие). Часть из этих систем может иметь API для вызова извне. В теории, возможно вызывать эти программы, заставлять их преобразовать PDF в Word, потом попробовать почитать содержимое Word через Automation-интерфейс и тп, однако:
1. Заведомо будут ошибки распознования. При этом если язык документа не очень популярный - ошибок будет больше.
2. Лицензия на enterprise-версию распознавалки явно будет не очень дешевой.