Как победить PDF: Краткий обзор программ конвертеров PDF (англ. PDF converters)
вт, 04/12/2007 - 22:13 — Valeri
Задачей этой небольшой статьи-руководства является ответ на поставленный ее заглавием вопрос.
Сразу поблагодарим компанию «Adobe» за этот замечательный формат — PDF . Еще большие благодарности тем, кто заталкивает в этот формат все, что только попадется под руку: и текст, и графику, а также считает дурным тоном прислать вам обычное письмо не конвертировав его в PDF …
Но, спокойно, без нервов! Что нужно переводчику от PDF? Верно — ТЕКСТ. Лучше даже неформатированный (Plain Text). Ну, а на картинки можно посмотреть и в «Adobe Reader» (ранее Acrobat Reader).
Итак, начнем.
ЗАПОМНИТЕ! Если заказчик хочет получить на выходе PDF да еще и с рисунками в растре, и чтобы форматирование сохранилось, смело шлите его к верстальщику с Adobe inDesign! Или осваивайте его сами и требуйте надбавку за верстку!
Сначала попробуйте получить у заказчика исходник PDF — может его как раз из вашего любимого Microsoft Word конвертером PDF и сделали… Если его нет, тогда разберемся, какого вида бывают файлы PDF и как из него выудить текст.
1. PDF содержит настоящий текст (ура!). Его можно извлечь простым выделением и копированием или в обычном «Adobe Reader» (бесплатная программа для чтения PDF) в меню «Файл» выбрать «Сохранить как текст» (или иногда даже «Сохранить как текст с форматированием», если это возможно и нужно). Есть и более сложные и небесплатные варианты, о которых мы подробнее поговорим чуть позже.
1.1. PDF содержит настоящий текст (рановато радуетесь!), но неведомые силы не позволяют нам его копировать — файл защищен паролем и копирование текста запрещено. Что же делать? Либо взять пароль у заказчика, либо воспользоваться утилитой PDF Password Remover.
1.2. PDF содержит настоящий текст (рано радуетесь!). Его можно вытащить простым копированием, но… кодировка какая-то у него не та. И кроме крокозябров и цифр ничего вытащить не удается. Без паники — читаем следующий пункт.
2. PDF собран из картинок или шрифты в нем в кривых или «кривой» кодировке. Вот это уже «тяжелый случай». Тут не обойтись без обожаемого «FineReader» (ABBYY PDF Transformer не дает таких же хороших результатов как конвертер PDF, поскольку не в состоянии правильно определить все блоки автоматически. Скажем так: PDF Transformer — это урезанная автоматическая версия FineReader). За преобразование в текст тоже неплохо бы получить дополнительное вознаграждение, ведь вы расходуете ваше драгоценное время на процесс распознавания, который проходит не всегда так гладко, как хотелось бы. Но ведь заказчику-то все равно, пользуетесь вы электрословарями и средствами автоматизации или нет. Так что это ваши проблемы. :(
3. PDF собран из картинок с неподдающимся распознаванию тексту. Сочувствую. Распечатываем, забываем о всяких «продвинутых прогах», вешаем бумажку на планшет и переводим, совершенствуя свои навыки чмакания по клавиатуре.
Теперь, как и обещал, поподробнее по первому пункту. Для примера возьмем довольно сложный файл нестандартного формата бумаги с руководством к велонавеске с сайта компании Shimano: SI-41R0F-PD-M970_540_520-EN.pdf (182 Кбайт). В нем есть все: и таблицы, и рисунки в растре, и текст в разных шрифтах и размерах. Попробуем преобразовать его по очереди разными способами.
1. В файле разрешено копирование — PDF Password Remover не требуется.
2. Текст «живой». Пробуем бесплатный способ:
Adobe Reader 7.0 или 8.0
Adobe Reader 7.0 или 8.0 Файл — Сохранить как текст — *.txt
(тот же результат, что и сохранение через Word «методом» CTRL+a, CTRL+c, CTRL+v). Есть лишние знаки абзаца, а так вполне пойдет :)
Посмотреть сконвертированный файл: Save as *.txt Ctrl+C из Acrobat Reader и Ctrl+V в MS Word (*.doc)
Теперь опробуем специализированные программы-конвертеры PDF (а не конверторы!). :
Adobe Acrobat 7.0 или 8.0
Adobe Acrobat 7.0 или 8.0 Файл — Сохранить как… — *.doc, *.rtf
Лучше их и не смотреть: это ужас какой-то. И это «родной инструмент» для работы с PDF?! Текстовый формат — то же, что и в Adobe Reader.
Посмотреть сконвертированный файл: Save as *.txt, Save as *.doc, Save as *.rtf
Не кривя душой, скажем: «Кривоват текстик-то…» Простой текст содержит лишние знаки абзаца. Могло бы быть и получше. Многие, однако, довольны этой программкой — Solid PDF Converter.
Посмотреть сконвертированный PDF файл: *.doc *.txt
Был выбран автоматический режим обработки. Результат, надо заметить, не плох, но для перевода мало пригоден — те же лишние знаки абзаца, неудобный текст. Здесь также представлен файл, сохраненный в Word «Как простой текст»
Штука, конечно, хорошая. Только для работы BCL Jade нужен еще и сам Adobe Acrobat (не Reader). Он в него встраивается как плагин. И привыкнуть к нему придётся — «зонировать» всё придется вручную. Зато он часто справляется с такими вещами, которые другим не под силу (правда, только при условии «живого» PDF). Обычно используется для «довытаскивания» того, что не вытащил или не так вытащил Solid.
BCL easyConverter
Прямо-таки верх аскетизма! Ничего лишнего. То есть, вообще ничего: «Failed to convert» — это единственное, что удалось добиться от BCL easyConverter :(
Качаем, качаем, качаем… Что ж... скачал! И хотел бы подивиться на распрекрасный файл формата *.doc. Но вот надежды обмануты: несмотря на всю внушительность, программа выдала файл с ОТСУТСТВУЮЩИМИ фрагментами текста! Забыть как страшный сон.
Уже почти отчаявшись, запускаю некий Infix PDF Editor. Открываю PDF-ку, выбираю сохранить «Как простой текст»… Смотрим… И, о чудо (!) : мы получили удобоваримый в переводческой кухне текст, лишние знаки абзаца отсутствуют как класс — класс, в общем и целом, и «одобрямс» (даже RTF у них приятен глазу — размер и цвет шрифта сохранен).
И на последок бесплатные он-лайн PDF конвертеры: ZamZar и Freepdfconvert. http://www.freepdfconvert.com Встречайте! Но не забудьте: файлы с секретными данными там конвертить не стоит ;)
Этот он-лайн сервсис предназначен для конвертации всего во все и скачивания фильмов в YouTube и подобных сервисов, но в том числе умеет и конвертировать файлы PDF в форматы DOC, RTF, ODT, TXT
Текстовый файл, вылезший из недр Замзара, ужасен, а вот *.doc приятно удивил — это ПЕРВЫЙ приличный макет документа. Картинки изуродованы изрядно, но текст везде на месте. Даже со спецсимволами. Однако он совсем непригоден для перевода: чересполосица какая-то да и только плюс знаки абзаца в конце КАЖДОЙ строки.
А вот этот преобразователь поработал на славу: все выглядит очень прилично! И картинки нормального качества и текст. Лишние знаки абзаца (которые можно убрать макросом) стоят там, где и в самом PDF. Если работать только в виде "Разметка страницы", то "твердое четыре".
Результат перевода сервисом Freepdfconvert.com тестового PDF файла в формат Microsoft Word - Смотреть *.doc файл
Есть PDF, есть шрифт в PDF. Требуется вытащить шрифт в исходном формате. Как это сделать? Пишите, пожалуйста, на mail seption@yandex.ru. Заранее признателен.
Дорогие ребятушки!Счас в инете есть все :конвертеры, хуертеры
и это все бесплатно!!!!На ПИРАТЕБЕЙ есть почти все а если нет то
на краковских серваках.У меня 99% программ работают с краками.
Cпасибо всем добрым хакерам мира,а то бы я на эти программы 3 своей жизни работал и то хуй бы заработал>Извените за нелите-
ратурную лексику .С уважением Майкл.
Все это конечно хорошо и все работает, но у меня следующая проблема - в pdf текст на русском языке и он никак не конвертируется. Т.к. текта много - то это проблема... какая из прог берет русский текст?
Гугл тут обещался сделать работу - с сохранением - с пдф. Когда, правда, не озвучивается, но хороший ход. Для многих - это будет решением проблем, если конечно кризис ликвидности не прикроет это направление.
Если интересно будет - дайте знать, могу написать обзор (если там будет чего обозревать).
Вот нашел программку, называется PDF Bomber http://www.pdf-doc.com. Конвертит PDF в текст замечательно, в RTF и DOC не очень.
Также может создавать PDF из любыйх файлов (HTML, Word и т.д.). Кстати, заметил что интерфейс русский можно включить. Из минусов:
- не бесплатная, 39 USD, но 3 страницы можно конвертировать без ограничений
- конвертирование PDF в Word некачественное, версия которую я проверял была 1.01
Из плюсов:
+ PDF в текст замечательное
+ Word, HTML в PDF хорошо. т.е умеет создавать PDF файлы.
+ Русский интерфейс имеется
Думаю если авторы ее не оставят, составит серьезную конкуренцию Abbyy PDF Transformer.
Ну и по поводу Adobe Reader'a несколько слов.
Посмотрите в сторону программы FoxitReader.
Бесплатный аналог неповоротливому
монстру от Adobe, который работает
значительно быстрее, требует меньше
системных ресурсов.
С уважением, Дмитрий.
---------------------------------------------
от себя добавим:
Foxit Reader - программа доступная для Windows, Windows Mobile. Linux
цена программы без возможностей редактирования PDF $39
cайт: http://www.foxitsoftware.com/
Комментарии
А как вытащить шрифт?
Есть PDF, есть шрифт в PDF. Требуется вытащить шрифт в исходном формате. Как это сделать? Пишите, пожалуйста, на mail seption@yandex.ru. Заранее признателен.
КАК ПОБЕДИТЬ PDF
Дорогие ребятушки!Счас в инете есть все :конвертеры, хуертеры
и это все бесплатно!!!!На ПИРАТЕБЕЙ есть почти все а если нет то
на краковских серваках.У меня 99% программ работают с краками.
Cпасибо всем добрым хакерам мира,а то бы я на эти программы 3 своей жизни работал и то хуй бы заработал>Извените за нелите-
ратурную лексику .С уважением Майкл.
спасибо за
спасибо за краткий и конкретный курс над победой PDF
Все это конечно
Все это конечно хорошо и все работает, но у меня следующая проблема - в pdf текст на русском языке и он никак не конвертируется. Т.к. текта много - то это проблема... какая из прог берет русский текст?
Гугл и Пдф
Гугл тут обещался сделать работу - с сохранением - с пдф. Когда, правда, не озвучивается, но хороший ход. Для многих - это будет решением проблем, если конечно кризис ликвидности не прикроет это направление.
Если интересно будет - дайте знать, могу написать обзор (если там будет чего обозревать).
Еще конвертер PDF в текст и Word
Вот нашел программку, называется PDF Bomber http://www.pdf-doc.com. Конвертит PDF в текст замечательно, в RTF и DOC не очень.
Также может создавать PDF из любыйх файлов (HTML, Word и т.д.). Кстати, заметил что интерфейс русский можно включить. Из минусов:
- не бесплатная, 39 USD, но 3 страницы можно конвертировать без ограничений
- конвертирование PDF в Word некачественное, версия которую я проверял была 1.01
Из плюсов:
+ PDF в текст замечательное
+ Word, HTML в PDF хорошо. т.е умеет создавать PDF файлы.
+ Русский интерфейс имеется
Думаю если авторы ее не оставят, составит серьезную конкуренцию Abbyy PDF Transformer.
PDF в DOC
Сложные pdf документы более-менее нормально конвертируются в doc двумя программами:
ABBYY PDF Transformer
http://pdf-reader.ru/converter/abbyy-pdf-transformer.html
и
Solid Converter PDF
http://pdf-reader.ru/converter/solid-converter-pdf.html
По ссылкам можно посмотреть результаты конвертирования действительно непростых pdf файлов в doc.
Ценное замечание от нашего читателя Дмитрия
Ну и по поводу Adobe Reader'a несколько слов. http://www.foxitsoftware.com/
Посмотрите в сторону программы FoxitReader.
Бесплатный аналог неповоротливому
монстру от Adobe, который работает
значительно быстрее, требует меньше
системных ресурсов.
С уважением, Дмитрий.
---------------------------------------------
от себя добавим:
Foxit Reader - программа доступная для Windows, Windows Mobile. Linux
цена программы без возможностей редактирования PDF $39
cайт:
конверторы
Что делать с ПэДэЭфками?!
обширное обсуждение работы с ПДФ на форуме Города Переводчиков
http://www.trworkshop.net/forum/viewtopic.php?t=1477&start=120&postdays=...