Как победить PDF: Краткий обзор программ конвертеров PDF (англ. PDF converters)

Задачей этой небольшой статьи-руководства является ответ на поставленный ее заглавием вопрос.
Сразу поблагодарим компанию «Adobe» за этот замечательный формат — PDF . Еще большие благодарности тем, кто заталкивает в этот формат все, что только попадется под руку: и текст, и графику, а также считает дурным тоном прислать вам обычное письмо не конвертировав его в PDF …
Но, спокойно, без нервов! Что нужно переводчику от PDF? Верно — ТЕКСТ. Лучше даже неформатированный (Plain Text). Ну, а на картинки можно посмотреть и в «Adobe Reader» (ранее Acrobat Reader).
Итак, начнем.

ЗАПОМНИТЕ! Если заказчик хочет получить на выходе PDF да еще и с рисунками в растре, и чтобы форматирование сохранилось, смело шлите его к верстальщику с Adobe inDesign! Или осваивайте его сами и требуйте надбавку за верстку!

Сначала попробуйте получить у заказчика исходник PDF — может его как раз из вашего любимого Microsoft Word конвертером PDF и сделали… Если его нет, тогда разберемся, какого вида бывают файлы PDF и как из него выудить текст.

1. PDF содержит настоящий текст (ура!). Его можно извлечь простым выделением и копированием или в обычном «Adobe Reader» (бесплатная программа для чтения PDF) в меню «Файл» выбрать «Сохранить как текст» (или иногда даже «Сохранить как текст с форматированием», если это возможно и нужно). Есть и более сложные и небесплатные варианты, о которых мы подробнее поговорим чуть позже.

1.1. PDF содержит настоящий текст (рановато радуетесь!), но неведомые силы не позволяют нам его копировать — файл защищен паролем и копирование текста запрещено. Что же делать? Либо взять пароль у заказчика, либо воспользоваться утилитой PDF Password Remover.

1.2. PDF содержит настоящий текст (рано радуетесь!). Его можно вытащить простым копированием, но… кодировка какая-то у него не та. И кроме крокозябров и цифр ничего вытащить не удается. Без паники — читаем следующий пункт.

2. PDF собран из картинок или шрифты в нем в кривых или «кривой» кодировке. Вот это уже «тяжелый случай». Тут не обойтись без обожаемого «FineReader» (ABBYY PDF Transformer не дает таких же хороших результатов как конвертер PDF, поскольку не в состоянии правильно определить все блоки автоматически. Скажем так: PDF Transformer — это урезанная автоматическая версия FineReader). За преобразование в текст тоже неплохо бы получить дополнительное вознаграждение, ведь вы расходуете ваше драгоценное время на процесс распознавания, который проходит не всегда так гладко, как хотелось бы. Но ведь заказчику-то все равно, пользуетесь вы электрословарями и средствами автоматизации или нет. Так что это ваши проблемы. :(

3. PDF собран из картинок с неподдающимся распознаванию тексту. Сочувствую. Распечатываем, забываем о всяких «продвинутых прогах», вешаем бумажку на планшет и переводим, совершенствуя свои навыки чмакания по клавиатуре.

Теперь, как и обещал, поподробнее по первому пункту. Для примера возьмем довольно сложный файл нестандартного формата бумаги с руководством к велонавеске с сайта компании Shimano: SI-41R0F-PD-M970_540_520-EN.pdf (182 Кбайт). В нем есть все: и таблицы, и рисунки в растре, и текст в разных шрифтах и размерах. Попробуем преобразовать его по очереди разными способами.

1. В файле разрешено копирование — PDF Password Remover не требуется.
2. Текст «живой». Пробуем бесплатный способ:

Adobe Reader 7.0 или 8.0

Adobe Reader 7.0 или 8.0 Файл — Сохранить как текст — *.txt
(тот же результат, что и сохранение через Word «методом» CTRL+a, CTRL+c, CTRL+v). Есть лишние знаки абзаца, а так вполне пойдет :)
Посмотреть сконвертированный файл:
Save as *.txt
Ctrl+C из Acrobat Reader и Ctrl+V в MS Word (*.doc)

Теперь опробуем специализированные программы-конвертеры PDF (а не конверторы!). :

Adobe Acrobat 7.0 или 8.0

Adobe Acrobat 7.0 или 8.0 Файл — Сохранить как… — *.doc, *.rtf
Лучше их и не смотреть: это ужас какой-то. И это «родной инструмент» для работы с PDF?! Текстовый формат — то же, что и в Adobe Reader.
Посмотреть сконвертированный файл:
Save as *.txt,
Save as *.doc,
Save as *.rtf

Solid PDF Converter 80 USD; 15,6 Mb

Не кривя душой, скажем: «Кривоват текстик-то…» Простой текст содержит лишние знаки абзаца. Могло бы быть и получше. Многие, однако, довольны этой программкой — Solid PDF Converter.
Посмотреть сконвертированный PDF файл:
*.doc
*.txt

PDF to Word 40 USD; 4 Mb

Был выбран автоматический режим обработки. Результат, надо заметить, не плох, но для перевода мало пригоден — те же лишние знаки абзаца, неудобный текст. Здесь также представлен файл, сохраненный в Word «Как простой текст»

Посмотреть сконвертированный PDF файл:
Word *.doc
*.txt

BCL Jade 130 USD; 2 Mb

Штука, конечно, хорошая. Только для работы BCL Jade нужен еще и сам Adobe Acrobat (не Reader). Он в него встраивается как плагин. И привыкнуть к нему придётся — «зонировать» всё придется вручную. Зато он часто справляется с такими вещами, которые другим не под силу (правда, только при условии «живого» PDF). Обычно используется для «довытаскивания» того, что не вытащил или не так вытащил Solid.

BCL easyConverter

Прямо-таки верх аскетизма! Ничего лишнего. То есть, вообще ничего: «Failed to convert» — это единственное, что удалось добиться от BCL easyConverter :(

ScanSoft PDF Converter Professional 100 USD; 434 Mb

Качаем, качаем, качаем… Что ж... скачал! И хотел бы подивиться на распрекрасный файл формата *.doc. Но вот надежды обмануты: несмотря на всю внушительность, программа выдала файл с ОТСУТСТВУЮЩИМИ фрагментами текста! Забыть как страшный сон.

Infix PDF Editor 100 USD; 10 Mb

Уже почти отчаявшись, запускаю некий Infix PDF Editor. Открываю PDF-ку, выбираю сохранить «Как простой текст»… Смотрим… И, о чудо (!) : мы получили удобоваримый в переводческой кухне текст, лишние знаки абзаца отсутствуют как класс — класс, в общем и целом, и «одобрямс» (даже RTF у них приятен глазу — размер и цвет шрифта сохранен).

Посмотреть сконвертированный файл:
*.rtf
*.txt

И на последок бесплатные он-лайн PDF конвертеры: ZamZar и Freepdfconvert. http://www.freepdfconvert.com Встречайте! Но не забудьте: файлы с секретными данными там конвертить не стоит ;)

Online PDF конвертер ZamZar.com


http://www.zamzar.com

Этот он-лайн сервсис предназначен для конвертации всего во все и скачивания фильмов в YouTube и подобных сервисов, но в том числе умеет и конвертировать файлы PDF в форматы DOC, RTF, ODT, TXT

Текстовый файл, вылезший из недр Замзара, ужасен, а вот *.doc приятно удивил — это ПЕРВЫЙ приличный макет документа. Картинки изуродованы изрядно, но текст везде на месте. Даже со спецсимволами. Однако он совсем непригоден для перевода: чересполосица какая-то да и только плюс знаки абзаца в конце КАЖДОЙ строки.

Результат перевода сервисом ZamZar.com тестового PDF файла в формат Microsoft Word - Смотреть *.doc файл
Сконвертированный текстовый *.txt файл

Online PDF конвертер FreePDFConvert


http://www.freepdfconvert.com/convert_pdf_to_source.asp

А вот этот преобразователь поработал на славу: все выглядит очень прилично! И картинки нормального качества и текст. Лишние знаки абзаца (которые можно убрать макросом) стоят там, где и в самом PDF. Если работать только в виде "Разметка страницы", то "твердое четыре".

Результат перевода сервисом Freepdfconvert.com тестового PDF файла в формат Microsoft Word - Смотреть *.doc файл

Есть он-лайн сервис и от самих создателей PDF:

http://www.adobe.com/products/acrobat/access_onlinetools.html

Вывод: Стоит начать с самых надежных и простых программ. Если же результат неудовлетворительный, остается пробовать остальные.

Уф. Так вот он какой, этот «пе-де-эф». Надеюсь, я вам хоть немного помог. Успехов!

© Valerio

Ссылки по теме:
История создания PDF в красивой флешке:

http://www.adobe.com/products/acrobat/adobepdf.html

Комментарии

А как вытащить шрифт?

Есть PDF, есть шрифт в PDF. Требуется вытащить шрифт в исходном формате. Как это сделать? Пишите, пожалуйста, на mail [email protected] Заранее признателен.

КАК ПОБЕДИТЬ PDF

Дорогие ребятушки!Счас в инете есть все :конвертеры, хуертеры
и это все бесплатно!!!!На ПИРАТЕБЕЙ есть почти все а если нет то
на краковских серваках.У меня 99% программ работают с краками.
Cпасибо всем добрым хакерам мира,а то бы я на эти программы 3 своей жизни работал и то хуй бы заработал>Извените за нелите-
ратурную лексику .С уважением Майкл.

спасибо за

спасибо за краткий и конкретный курс над победой PDF

Все это конечно

Все это конечно хорошо и все работает, но у меня следующая проблема - в pdf текст на русском языке и он никак не конвертируется. Т.к. текта много - то это проблема... какая из прог берет русский текст?

Гугл и Пдф

Гугл тут обещался сделать работу - с сохранением - с пдф. Когда, правда, не озвучивается, но хороший ход. Для многих - это будет решением проблем, если конечно кризис ликвидности не прикроет это направление.

Если интересно будет - дайте знать, могу написать обзор (если там будет чего обозревать).

Еще конвертер PDF в текст и Word

Вот нашел программку, называется PDF Bomber http://www.pdf-doc.com. Конвертит PDF в текст замечательно, в RTF и DOC не очень.
Также может создавать PDF из любыйх файлов (HTML, Word и т.д.). Кстати, заметил что интерфейс русский можно включить. Из минусов:
- не бесплатная, 39 USD, но 3 страницы можно конвертировать без ограничений
- конвертирование PDF в Word некачественное, версия которую я проверял была 1.01

Из плюсов:
+ PDF в текст замечательное
+ Word, HTML в PDF хорошо. т.е умеет создавать PDF файлы.
+ Русский интерфейс имеется

Думаю если авторы ее не оставят, составит серьезную конкуренцию Abbyy PDF Transformer.

PDF в DOC

Сложные pdf документы более-менее нормально конвертируются в doc двумя программами:
ABBYY PDF Transformer

http://pdf-reader.ru/converter/abbyy-pdf-transformer.html

и

Solid Converter PDF

http://pdf-reader.ru/converter/solid-converter-pdf.html

По ссылкам можно посмотреть результаты конвертирования действительно непростых pdf файлов в doc.

Ценное замечание от нашего читателя Дмитрия

Ну и по поводу Adobe Reader'a несколько слов.
Посмотрите в сторону программы FoxitReader.
Бесплатный аналог неповоротливому
монстру от Adobe, который работает
значительно быстрее, требует меньше
системных ресурсов.
С уважением, Дмитрий.
---------------------------------------------
от себя добавим:
Foxit Reader - программа доступная для Windows, Windows Mobile. Linux
цена программы без возможностей редактирования PDF $39
cайт: http://www.foxitsoftware.com/

конверторы

Спасибо за ссылки!! Только мне не хватило ума сразу найти генератор ключей :))) Так бы совсем быстро все проблемы решила бы!!

Что делать с ПэДэЭфками?!

обширное обсуждение работы с ПДФ на форуме Города Переводчиков
http://www.trworkshop.net/forum/viewtopic.php?t=1477&start=120&postdays=...