Показать сообщение отдельно
Старый 20.03.2014, 12:00   #2  
fed is offline
fed
Moderator
Аватар для fed
Ex AND Project
Соотечественники
Лучший по профессии 2017
Лучший по профессии 2015
Лучший по профессии 2014
Лучший по профессии AXAWARD 2013
Лучший по профессии 2011
Лучший по профессии 2009
 
2,914 / 5737 (197) ++++++++++
Регистрация: 13.03.2002
Адрес: Hüfingen,DE
Цитата:
Сообщение от Rimantas Посмотреть сообщение
Здраствуйте,

Менеджеры просять сделать перевод из пдф файлов . Обычно они в таком формате получает заказы. Возможно такое ? Пока такой инфо ненашел и решил спросить здесь ..

Заранее спасибо !
Короткий ответ - возможно, но вряд ли это себя окупит
Дело в том, что строго говоря, PDF-формат является скорее графическим чем текстовым. Если я правильно понимаю - там внутри нечто вроде программы для абстрактного устройства вывода, с системой комманд, похожей на Forth-машину. Для удобства поиска, там внутри может содержаться и текст (который можно искать). А может и не содержаться, или быть уж слишком непривычно закодирован. Поэтому, для преобразования PDF в текстовый формат, нужна система распознования текста (например - Abbyy Transformer, но есть и другие). Часть из этих систем может иметь API для вызова извне. В теории, возможно вызывать эти программы, заставлять их преобразовать PDF в Word, потом попробовать почитать содержимое Word через Automation-интерфейс и тп, однако:
1. Заведомо будут ошибки распознования. При этом если язык документа не очень популярный - ошибок будет больше.
2. Лицензия на enterprise-версию распознавалки явно будет не очень дешевой.
За это сообщение автора поблагодарили: Rimantas (1).