Вы здесьМои алгоритмы работы с FR11
Опубликовано сб, 04/08/2012 - 03:35 пользователем golma1
Последнее время часто стали возникать вопросы по поводу работы с ФР. Я много раз описывала свои методы - в личке, в форуме. Я большой приверженец работы с ФР. С хорошими исходными файлами он позволяет максимально подготовить текст для экспорта сразу в fb2. Текст во многом писался для друзей, поэтому периодически встречается обращение на "ты". После распознавания сохраните документ ФР. Продолжение: Файл fb2, полученный из FR11
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
PipboyD RE:Подайте бедному копеечку на книжку с литреса... 2 дня
sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 5 дней TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 1 неделя Oleg V.Cat RE:B343695 Александр. Книга 1 1 неделя Isais RE:Калибрятина/Самиздатина 1 неделя md2k15 RE:Относительно Вархаммер 40 000 1 неделя Oleg V.Cat RE:Беженцы с Флибусты 1 неделя tvnic RE:"Коллектив авторов" 2 недели SergL197 RE:Регистрация 2 недели ejik.v RE:Viva Stiver! 2 недели RedRoses3 RE:Флибуста конец? 2 недели Ldrozd RE:Сандра Ньюмен - Джулия [1984] 3 недели konst1 RE: Банда Рафаэля 3 недели Isais RE:Лоренс Даррелл - Горькие лимоны 4 недели Isais RE:B157704 Черепаха Киргала 4 недели sem14 RE:Литературная премия «Ясная Поляна» 4 недели blahblahblah2024 RE:Сборник - Советская морская новелла. Том 1 1 месяц Isais RE:Обновление FictionBook Editor 1 месяц Впечатления о книгах
gruin про Видум: Не ДРД единой (Альтернативная история, Фэнтези, Самиздат, сетевая литература)
08 11 Сения не сказать отличная, но читать можно. Многовато рассуждений описаний. Оценка: неплохо
gruin про Прядеев: Позывной «Курсант» (Альтернативная история, Попаданцы)
08 11 По идее последняя в серии, а не первая. В остальных о предшестаующих событиях в детдоме, они хуже. А эта вполне читабельна. Но только та, которая "Курсант. На Берлин", на флибусте Оценка: неплохо
obivatel про Назипов: Ингвар. Книга 1 [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
08 11 ГГ классический лох (человек, не умеющий «устроиться» и приспособиться к изменениям жизни и в результате обычно небогатый), а лох это судьба. Какие бы плюшки ему вселенная ни накидала, он про профукает, пролопухает, про"№%т. ……… Оценка: нечитаемо
Oleg68 про Кобен: Нарушитель сделки [Deal Breaker ru] (Крутой детектив)
08 11 Хороший триллер- детектив. Автор, как всегда на высоте. Буду продолжать читать серию. Оценка: отлично!
Isais про Берд: Тошнит от колец [Bored of The Rings ru] (Юмористическое фэнтези)
07 11 Поверьте, после этого реально тошнит от колец — после той работы, что пришлось проделать для минимальной удобопонятности этого нестареющего образчика студенческого юмора. Оценка: нечитаемо
Isais про Капельгородская: Зарубежный детектив [энциклопедия] (Энциклопедии, Литературоведение)
07 11 Когда-то покупал эту книгу (печатную) для работы и пользовался ее информацией без претензий и с полным доверием, но только лет через 10, когда появился Тырнет, узнал, что в ней есть довольно много ошибочных сведений, в основном ……… Оценка: хорошо
Barbud про Савинков: Николай I Освободитель. Книга 8 [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
07 11 Кое-как, без интереса и по диагонали листая через десяток страниц, домучил восьмую часть. Девятую, наверное, и начинать читать не буду - опус все скучней и скучней. Кстати, судя по последним строкам, автор смылся из Киева ……… Оценка: нечитаемо
Дей про Старатель
07 11 В целом понравилось. Урал, тайга, охота, рыбалка, вот этот колорит и всё такое. Не понравилось в изложении: манера всякий раз вычурно обставлять диалоги. Почему хотя бы иногда не писать прямую речь без дополнений. Кто ………
vig11 про Видум: Не ДРД единой (Альтернативная история, Фэнтези, Самиздат, сетевая литература)
07 11 Отличная книга. Огромное спасибо. Оценка: отлично!
Lan2292 про Вайс: На границе миров. Том 1 (Космическая фантастика, Самиздат, сетевая литература)
07 11 Сумбурно и под конец сдалась. Не рекомендую
Igrina про Ирина Борисовна Ратушинская
06 11 Ну, Ратушинская вообще слабый поэт и чудовищный прозаик, так что... И очень много брешет, кстати!
badbag про Барчук: Колхоз: Назад в СССР [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
06 11 Не рекомендую читать ночью, во время приема пищи и любых жидкостей. Чревато. Оценка: хорошо |
Комментарии
Отв: Мои алгоритмы работы с FR11
Отв: Мои алгоритмы работы с FR11
Если в ФР номера сносок стоят на своих местах, а текст сносок внизу страницы, сделан стилем сноска, то они прекрасно оформляются как сноски при экспорте в fb2, без всяких дополнительных "костылей".
Ключевое слово - "если".
К сожалению, это бывает не всегда, "поправлять" такие сноски и времени стоит, и гарантии корректного переноса в fb2 не даёт. Поэтому в художественных книгах (а я большей частью делаю именно их) я предпочитаю расставлять их в скобки. В документальных текстах... впрочем я уже об этом писала выше.
Но каждый вправе решить, как ему удобнее. Самое важное - качество результата.
Отв: Мои алгоритмы работы с FR11
Есть ли возможность в ФР11 расставлять скобки { и } не переключая языковой раскладки на клавиатуре?
Отв: Мои алгоритмы работы с FR11
Да. Alt-коды. Удерживаем нажатой alt и одновременно набираем на цифровой клавиатуре "123" - получится "{" Или "125" - получится "}"
Отв: Мои алгоритмы работы с FR11
Методом тыка определила другую возможность. Если нажать на кнопку на панели "Вставить символ" , то появляется раскладка - раздел символы - подмножество: основная латиница. Там эти кавычки присутствуют. А потом, они будут "в недавно используемых символах" - мне показалось это более удобный вариант, нежели с клавишей. Хотя, за подсказку, спасибо.
Отв: Мои алгоритмы работы с FR11
Можно в блокноте поставить пару скобок [ ] или { }. Выделить и запомнить, потом после щелчка правой кнопкой, вставлять в нужные места в ФР. Блокнот свернуть. Если память для чего-либо понадобится, всегда можно возобновить из блокнота.
Есть программа Clipdiary 3.50, она может запоминать несколько тысяч фреймов, а потом по одноve вставлять в нужные места в любых программах. Можно запомнить в ней скобки сразу с номерами от {1} хоть до {2000}, а потом по одной вставлять в ФР. Потом запомнить тексты всех сносок и вставлять по одной в FBE.
Отв: Мои алгоритмы работы с FR11
Не, буфер обмена будет использоваться для копирования сносок.
Да, если сноски обозначены как "*" - то можно заменить их сразу на скобки.
Отв: Мои алгоритмы работы с FR11
Отв: Мои алгоритмы работы с FR11
Отв: Мои алгоритмы работы с FR11
Я попробовала сделать книгу по Вашему способу - мне понравилось! Не надо мучить глаза, выискивать болд и курсив на сканах и ловить пропавшие тире. Но сноски....ррррррр Мне как раз попалась книга с 200+ сносками, он не проставил где-то третью часть. Причем я вроде все просмотрела в ФР, вроде все было на местах, а при конвертации цифирка у сносок осталась, но не стала сноской, а текст вообще пропал.
Отв: Мои алгоритмы работы с FR11
Да, сноски в таком количестве - это беда.
Придётся листать книгу и проверять каждую, чтобы найти и внести недостающие.
Сочувствую.
Отв: Мои алгоритмы работы с FR11
Но сноски....ррррррр Мне как раз попалась книга с 200+ сносками, он не проставил где-то третью часть. Причем я вроде все просмотрела в ФР, вроде все было на местах, а при конвертации цифирка у сносок осталась, но не стала сноской, а текст вообще пропал.
Надо проверять, что текст сносок сделан стилем сноска и соответствие их номерам сносок. Я всегда проверяю и у меня все сноски стоят на своих местах.
Отв: Мои алгоритмы работы с FR11
При большом количестве сносок на странице случается, что последние не экспортируются. Даже если все стили соответствуют. Начиная с 3-ей уже бывает.
Попробуйте как-нибудь на отдельной странице - интересно, поймаете ли этот баг?
И ещё один вопрос, если можно: при большом количестве сносок сравниваете ли Вы их количество в файле с количеством в книге?
А что Вы делаете, если стиль не соответствует? Меняете вручную?
Мне кажется, что я пробовала, но 100%-но оно всё равно не сработало.
Но точно не помню. Я поначалу много всего перепробовала, чтобы прийти к данному алгоритму обработки сканов...
Отв: Мои алгоритмы работы с FR11
При большом количестве сносок на странице случается, что последние не экспортируются. Даже если все стили соответствуют. Начиная с 3-ей уже бывает.
Попробуйте как-нибудь на отдельной странице - интересно, поймаете ли этот баг?
А что Вы делаете, если стиль не соответствует? Меняете вручную?
Мне кажется, что я пробовала, но 100%-но оно всё равно не сработало.
Но точно не помню. Я поначалу много всего перепробовала, чтобы прийти к данному алгоритму обработки сканов...
У меня такого не было. Если стиль не соответствует - меняю вручную. Посмотрите, не занес ли ФР последние сноски в стиль Колонтитул.
Отв: Мои алгоритмы работы с FR11
Точно нет. Я смотрю документ с выключенными колонтитулами.
Но попробую ещё раз поменять стиль вручную, если Вы говорите, что это срабатывает. Спасибо. :)
Отв: Мои алгоритмы работы с FR11
Но попробую ещё раз поменять стиль вручную, если Вы говорите, что это срабатывает. Спасибо. :)
Главное, что-бы стоял стиль - сноска и соответствовали номера. Каким способом они установлены не имеет значения.
Отв: Мои алгоритмы работы с FR11
Попробовала. Результаты не слишком понравились.
Сноска распозналась в ФР как "простой текст". Изменила стиль на "сноска":
Экспортировала в fb2:
- сноска не проставлена
Экспортировала в doc:
- сноска проставлена
Конвертировала в fb2:
- сноска не проставлена, да ещё и курсив утерян.
Для чистоты эксперимента произвела те же действия со сноской, распознанной правильно:
На отсутствие тире в диалогах внимания не обращаем, я выше писала, как с этим бороться. Сейчас внимание уделяла только сноскам.
Вывод: сноски, распознанные неправильно, буду всё-таки переносить к слову в скобки. Это проще, чем потом вылавливать недостающие.
А если в книге их немного, то, наверное, имеет смысл (для надёжности) все перенести. ;)
А Вы каждый раз проверяете расставленные автоматически сноски или иногда? Или вообще не проверяете?
Вдогонку.
Распознала до конца книгу. Для сверки записывала страницы со сносками. Из 30 передалось только 26.
Думала, что это коснётся тех страниц, где две сноски, но нет, они как раз передались нормально.
При постраничной проверке выяснилось, что не передались самые обыкновенные сноски, а в одной из сносок оказался текст другой, которая, в свою очередь, не отобразилась.
Думаю, я останусь при своём проверенном методе. ;)
Наверное, я что-то делаю не так, раз у меня не получается 100%-ное соответствие переноса сносок другими способами. :(
Отв: Мои алгоритмы работы с FR11
Стиль должен быть именно «Сноска». Никаких «Сноска+10 pt», или «Сноска+курсив». Надо сразу объединить все сноски под названием «Сноска» без номеров и т. п. После этого проверить. Несмотря на объединение и, отсутствие других названий в перечне стилей, ФР в некоторых местах оставляет выполнение стилями «Сноска+ …» и т. п. Сноски выполненные такими стилями могут не опознаваться, или даже опознаться комментарием. В крайнем случае, можно добавить недостающие сноски в Ворде.
Отв: Мои алгоритмы работы с FR11
Я сделала именно "Сноска", без всяких дополнительных атрибутов.
Это да.
То есть, Вы всё же контролируете ФР?
Мне нравится работать без промежуточных форматов, поэтому воспользоваться Вашим способом не получится.
Но спасибо за то, что поделились. Может, кому-нибудь пригодится.
Отв: Мои алгоритмы работы с FR11
То есть, Вы всё же контролируете ФР?
А ФР при объединении стилей на многих станицах оставляет старый стиль, несмотря на то, что в списке стилей их уже нет. Я это уже высказал ABBYY.
Я этим способом сделал уже несколько книг и особых проблем у меня не было.
Отв: Мои алгоритмы работы с FR11
Это - самое главное.
Могу только повторить: конечный результат - единственный критерий.
Отв: Мои алгоритмы работы с FR11
У меня по сноскам такая проблема периодически возникает. Допустим, сноски обозначены в книге знаком *. ФР распознает: по тексту - *, а в месте сноски, к примеру " или ', или еще как-нибудь. Или наоборот. С цифрами тоже часто возникают проблемы.(несоответствие обозначений в тексте и в разделе сносок).Пыталась вручную исправлять, но не получается. Сноска остается на основной странице. Хотя стиль "сноска" установлен. Если способы, бороться с такими дефектами распознавания?
Отв: Мои алгоритмы работы с FR11
Я таких методов не знаю. Все попытки вмешаться на стадии распознавания в обозначение сносок (у меня) оказались неудачными.
В беллетристике (где сносок, как правило, не слишком много) я переношу все сноски к слову в фигурных скобках, расставляя их потом в ФБЕ одним кликом.
Во всех остальных случаях оставляю, как есть, проверяя потом соответствие расставленных в ФБЕ сносок с книжными.
Отв: Мои алгоритмы работы с FR11
update 4:
В разговоре о сносках вспомнился ещё один неосвещённый момент.
Речь пойдёт о комментариях, расположенных в конце книги, где указаны номера страниц, к которым они относятся.
1. Я разделяю документ ФР, выделяя отдельным файлом страницы с примечаниями.
Файл -- Разделить на несколько документов -- выделить нужные страницы и перетащить их в поле "новые документы" -- "Создать". При этом страницы из первого документа перейдут во второй.
2. Я пользуюсь клавиатурой, поэтому переключаюсь между документами при помощи "Alt+Tab", но можно и разместить оба документа рядом, если позволяет монитор.
3. Ищем первую страницу, к которой относится комментарий (если удалено не слишком много пустых страниц, то её номер в документе ФР если и не совпадает с номером в книге, то находится довольно близко; переход на нужную страницу в ФР возможен при помощи "Ctrl+G").
4. Находим нужное место и вставляем в фигурные скобки текст комментария (о том, должны ли быть они оформлены как сноски или как комментарии поговорим в другом месте), вырезая (а не копируя) его из второго, вновь созданного документа.
5. Повторяем необходимое число раз.
Второй документ оказывается пустым, закрываем, не сохраняя (если не нужны перерывы в работе). В первом (основном) сохранены все комментарии.
Кому удаление страниц с комментариями кажется слишком рискованным, можно создать второй документ ФР, открывая только страницы с комментариями.
Я предпочитаю этот способ, поскольку:
а) при этом опять-таки экспортируются все варианты форматирования;
б) легко искать место, к которому относятся комментарии, поскольку ФР отображает номера страниц;
в) в ФБЕ такие комментарии обрабатываются одним кликом.
Отв: Мои алгоритмы работы с FR11
Хочу обратить внимание: если при экспорте в FB2 мы выключим опцию "сохранять картинки", то стиль "подписи к картинкам" передаваться не будет.
Отв: Мои алгоритмы работы с FR11
О, это для меня новая информация. Спасибо.
Значит, выделение стиля (в самом начале, в редакторе стилей) имеет смысл. Интуиция не подвела. ;)
Отв: Мои алгоритмы работы с FR11
Спасибо за такую подробную статью, подчерпнул для себя много нового.
Отв: Мои алгоритмы работы с FR11
Вот что я обнаружил:
Если в верху страницы есть небольшой фрагмент текста (1-3 строки), а затем картинка (потом снова текст). В режиме сохранения (просмотра) "точная копия" и "редактируемая копия" все отображается корректно. Но в режиме "форматируемый текст" (именно так будет в FB2) верхний фрагмент может оказаться не на своем месте (обычно в конце страницы).
Исправить можно так: в режиме "форматируемый текст" тащим текст на свое место. Потом в окошке "Изображение" область с "провинившимся" текстом удаляем.
Теперь все верно отображается.
Отв: Мои алгоритмы работы с FR11
update 4.
Ой, какой же Вы молодец! Я совершенно забыла об этом упомянуть.
Более того, подобная ситуация может случиться и без картинок - если на странице несколько областей распознавания. Так бывает, если в начале главы стоит, например, буквица. И не только.
"Лечение", как Вы правильно сказали: упорядочить в режиме "форматируемый текст".
Если на странице с перепутанными по порядку областями - только текст, я их перераспознаю, удалив предварительно все существующие области (Ctrl+Del), выделив весь текст в одну область (в окне "Изображение" или "Крупный план"), придав ему тип "Текст" (Ctrl+2) и для надёжности выбрав назначение текста (ПКМ на область "Текст") как "основной текст".
Если есть картинки, надёжен только вариант, описанный alexej36.
Ещё раз спасибо.
Области вообще-то можно перенумеровать: "Области" -- "Перенумеровать области". Но при наличии картинок не советую, срабатывает не всегда.
P.S. Чуть позже опишу, как можно упростить работу с ФР, настроив панели под себя.
Отв: Мои алгоритмы работы с FR11
К вопросу о сносках.
С некоторого времени я пришел к заключению что нельзя доверять ФР их расстановку. Причины указаны выше. Так что помещение сносок в квадратные скобки кажется мне оптимальным решением, это поможет сохранить время и нервы, которые вы неизбежно потратите на розыски утраченного.
Совершенно не критично, что у помещенного в кв. скобки текста останется стиль "ссылка". На конвертацию в FB2 это не отразится.
Не забываем после перемещения удалять в окне "Изображение" область со сносками.
Помним так же, что квадратные скобки могут быть изначально в тексте - придется временно заменить их на что то другое, а если надежды на свою память нет - пометим их полужирным. Тогда скрипт, расставляющий сноски, на этом месте споткнется и вы вспомните :)
Отв: Мои алгоритмы работы с FR11
Личные настройки
ФР имеет довольно гибкие настройки интерфейса. На примере выбранных мною расскажу, как это можно сделать.
1. Есть 3 основных рабочих окна: "Изображение", "Крупный план", "Текст" и одно вспомогательное "Страницы". Я работаю с "Крупным планом" и "Текстом", а слева идут страницы.
Выглядит это так:
Стрелками указаны: масштаб окна "Крупный план", "спрятанное" окно "Изображение", а также "спрятанные свойства текста".
Свойства текста понадобятся, если текст распознался на цветном фоне цветными же буквами (там же можно исправить стиль, курсив, жирность, размер, но удобнее это делать иначе - опишу ниже). Как правило, "свойства текста" можно скрыть, чтобы максимально использовать площадь монитора.
2. Есть 2 панели - "Главная панель" и "Панель быстрого доступа". Кроме того, можно настроить панель для окон "Изображение" и "Текст".
или
правой кнопкой мыши в любом месте панели:
"Панель предупреждений" открывает внизу экрана специальное поле. Я ею не пользуюсь, поскольку она занимает площадь, а предупреждения ФР даёт в отдельном окне в любом случае.
Отв: Мои алгоритмы работы с FR11
Нажимаем "Настройка панелей и горячих клавиш".
Сначала настроим панели.
Слева в "Категории" для более удобного поиска (поскольку возможностей довольно много) можно выбрать нужный раздел. Я рекомендую просмотреть весь список ("Все команды").
Команды повторяют те, которые содержатся в Главной панели. Поэтому есть возможность отключить Главную панель, а на Панель быстрого доступа вынести нужные вам команды. Дело предпочтений.
Для удобства я группирую иконки, ставя между ними разделитель.
Моя панель быстрого доступа выглядит так:
Слева направо:
- выбор языка распознавания
- показать (убрать) окно "Страницы"
- показать (убрать) окно "Текст"
- показать оба окна ("Изображение" и "Текст")
- повернуть изображение влево
- повернуть изображение вправо
- повернуть изображение на 180°
- ластик
- перенумеровать области
- распознать выделенные страницы (в Главной панели - распознать документ, т. е. все страницы)
- сохранить как fb2
После настройки панели быстрого доступа выбираем справа "Изображение" или "Текст" и настраиваем соответствующие панели. Для "Изображения" я специально не настраивала (я почти не пользуюсь этим окном), а для окна "Текст" моя панель выглядит так:
Слева направо:
- проверка орфографии
- просмотр словарей
- вставить символ
- выделять неуверенно распознанные символы и несловарные слова
- непечатаемые символы
Пользуюсь обычно только последними тремя.
Повторюсь: настройки - дело предпочтений, каждый может (должен) настроить так, как удобно ему.
Закладка сочетания клавиш понятна интуитивно. Я предпочитаю работать с ними, поэтому основные действия "положила" на "горячие" клавиши". Если вам удобнее работать с мышкой, вынесите иконки на соответствующие панели.
Пару общих сведений.
Для редактирования стилей:
Выбор вида текста (я работаю с редактируемой копией, иногда проверяя порядок областей с помощью форматированного текста)
Показать/скрыть картинки и колонтитулы можно при помощи этих кнопок:
Больше (пока?) ничего на ум не приходит. Если нужно что-то уточнить, спрашивайте. :)
Отв: Мои алгоритмы работы с FR11
Круто :)
Начинающим ну очень поможет разобраться.
ПС. Есть два pdf-файла приблизительно одинаковых по объему книг. Один - 68М, а другой - 6М. Каким образом они делаются, что получается такая разница?
Отв: Мои алгоритмы работы с FR11
Зависит от программы, от качества и разрешения страниц. Чем грязнее скан и выше разрешение картинки, тем больше весит пдф.
Отв: Мои алгоритмы работы с FR11
Открыл для себя опцию "перенумеровать области". Очень полезная вещь! Нумеруем области по порядку и перераспознаем страницу. Результат смотрим в режиме "форматированный текст". Если получилось неверно, тогда вновь перенумеровываем области - сначало делаем неправильно, а потом исправляем, вновь распознаем - теперь все верно! Во всяком случае со сканами, что у меня в работе сейчас - все получилось!
Отв: Мои алгоритмы работы с FR11
Отлично! :)
А ещё есть возможность "вырезать" кусок области. Очень удобно, когда есть текст, "обтекающий" картинку.
Кликните на область в окне "Крупный план". Сверху появится контекстное меню (полупрозрачное):
Нажав на первую иконку, можно увеличить область, на вторую - уменьшить. Выделяете мышью нужный кусок, зажав левую кнопку. Рисуемый прямоугольник должен обязательно лежать частично в уже существующей.
Кстати, стрелка (3-я иконка) позволяет передвигать всю область по странице. Бывает полезно, если область вдруг окажется смещённой по отношению к тексту.
А возле буквы Т есть выпадающее меню, где можно изменить тип области.
Не помню, есть ли такая фича в прошлых версиях. Но и без неё можно изменить форму области.
Всё то же самое, только вместо иконки нужно зажать Shift (можно Alt), и так "вырезать" нужный кусок. Он необязательно должен быть точным, важно создать углы, которые позволяют двигать вырезанные стороны.
Отв: Мои алгоритмы работы с FR11
Мелочи и детали
Сюда буду добавлять пункты по мере того, как они будут вспоминаться. ;)
1. В текстах, где есть пустые строки, часто бывает так, что пустая строка попадает на конец страницы. Отмечают это место по-разному.
- отбивают "звёздочками" * * * на следующей странице: легко увидеть (хотя иногда попадает в колонтитул), важно только не забыть заменить их на пустую строку (при этом нужно быть внимательным - а вдруг это действительно subtitle?)
- абзац на другой странице начинается без отступа: поскольку чаще всего такие места означают разрыв абзаца (который, напомню, я помечаю ###), то нужно вернуться на предыдущую страницу и посмотреть, где кончается последняя строка. Если она не полная, то это наверняка предполагает пустую строку в конце страницы, если полная - надо только читать, чтобы решить, разрыв ли это абзаца или другая сцена в действии романа, которая отделена пустой строкой.
- внизу страницы ставят черту ___: самый "незаметный" способ. Нужно обращать внимание на страницы, последняя фраза на которых заканчивается точкой (вопросительным/восклицательным знаком). В этом случае рекомендую не полениться и после распознавания ещё раз пролистать книгу (Alt+Down/стрелка вниз). Я уменьшаю масштаб страницы "Крупный план" так, чтобы она полностью помещалась на экране и, листая, смотрю только на низ страницы. Книгу в 500 страниц можно пролистать менее чем за 2 минуты. Окупает себя почти всегда. Сегодня таким образом я нашла две пропущенные пустые строки.
Самое главное - определить с самого начала, каким способом верстальщик отмечает пустую строку в конце страницы. Поэтому первые 10-20 страниц надо быть особо внимательной - потом уже знаешь, на что надо обращать внимание.
2. Если вы пользуетесь способом переноса текста сноски к слову (в фигурных скобках), не забудьте удалить области сносок или их номера, если текст сноски распознался не отдельной областью, а вместе с текстом. Иначе при экспорте в fb2 образуются ложные сноски - часто пустые, которые придётся удалять.
3. Выше я писала, что при просматривании документа отмечаю имена собственные, подчёркнутые как ошибка, - "пропустить все". Это помогает, кстати, найти ошибки в печатном экземпляре, где они нередко случаются - перепутанные буквы, пропущенные буквы, неправильные буквы, особенно в сложных по написанию фамилиях.
Некоторые общеупотребительные имена и названия имеет смысл внести в словарь.
Но я не вношу в словарь, например, такие слова как "сандвич" и "сэндвич" - в разных книгах предпочитаются разные формы.
Если внести обе формы в словарь, то останется вероятность, что в одной и той же книге встретятся обе формы. А если первую встретившуюся отметить как "пропустить все", то можно соблюсти единообразие написания во всей книге, поскольку вторая форма останется подчёркнутой.
Аналогично с именами "Давид" и "Дэвид" и многими другими именами собственными.
4. Как правильно заметил alexej36, ФР иногда "промахивается" с определением "назначения текста": бывает, что номер страницы или колонтитул распознаны как "основной текст", а заголовок как "колонтитул".
В первом случае достаточно удалить ненужные области в окне "Крупный план".
Во втором может помочь изменение назначения текста (ПКМ на нужную область) на "основной текст". А может и не помочь - иногда заголовок распознаётся как один из стилей "основной текст". Изменения стиля вручную не гарантирует, что при экспорте заголовок будет сделан правильно. Если заголовки имеют общий элемент, проблема решается просто - при помощи скрипта ФБЕ "Разбить документы на разделы". Если же все заголовки уникальны, то пропущенные придётся размечать вручную.
Поэтому для тех заголовков, которые не распознались в стиле заголовок можно сделать следующее:
- если в тексте нет других мест, выделенных болдом, придать им полужирность (форматирование, сделанное вручную, в отличие от стилей при экспорте сохраняется); в ФБЕ при помощи скрипта "Поиск форматирования -- Переход на следующую жирность" такие места легко находятся;
- снова использовать служебные знаки: тот же ### с пометкой title, например, или любой другой, который будет легко искать в ФБЕ;
- комбинированный вариант из первого и второго: перед каждым таким заголовком проставить title. В ФБЕ разметить заголовки при помощи скрипта, а затем убрать массовой заменой слово title (но НЕ в режиме Source, конечно).
Скрипт "Разбить документы на разделы" работает на основании регэкспов. Поэтому при наличии общего элемента работать с ним очень легко.
Отв: Мои алгоритмы работы с FR11
Про настройки сканирования/открытия (первый скрин):
Можно выбрать 2 п. а именно: "автоматически анализировать полученные изображения"
Тогда ФР откроет наши сканы, проведет их анализ, а распознавать не станет.
У нас появляется возможность посмотреть, что получилось и при необходимости исправить.
Листаем страницы и смотрим.
Часто картинки выделяются не корректно (или вообще игнорируются) - правим.
Если в верху страницы заголовок, то скорее всего ФР посчитает его колонтитулом - ПКМ по проблемной области - "назначение текста" - выбираем "основной текст".
Номера страниц: если они в низу, то распознаются обычно как колонтитулы, это нас устраивает, не трогаем. А вот если они сбоку - это очень плохо! Исключаем их из зоны распознавания (иначе потом придется отлавливать циферки в тексте).
Если ФР принял мусор за полезную область - удаляем/корректируем зону полезной области.
Отв: Мои алгоритмы работы с FR11
Учитывая скорость работы ФР11 этот момент перестал быть критичным.
Но Вы правы, бывают ситуации, когда предложенные области распознавания нас не устраивают.
Однако править вручную каждую страницу неэффективно. При сложном оформлении страницы (колонтитулы рисунком, или сбоку, или декоративным шрифтом) лучше применить шаблон(ы) областей распознавания.
Делается это так:
1. Находим наиболее типичную страницу. И тут очень важным оказывается качество скана. Если сканировщик оказался не очень аккуратным (или просто не было другой возможности), текст на странице будет "прыгать": то ближе к левому краю, то к правому. В этом случае не исключено, что одним шаблоном не обойтись.
2. Если же текст расположен более-менее однообразно, то на "типичной" странице выделяем нужную область. Придаём ей нужные характеристики - вид, назначение.
3. Сохраняем шаблон: меню "Области -- Сохранить шаблон области".
4. Применим шаблон ко всем страницам: меню "Области" -- "Загрузить шаблон области". Внизу есть возможность выбора: применить к выделенным или ко всем страницам.
Теперь о тонкостях процесса.
Если Вы не уверены, что шаблон подойдёт ко всем страницам, примените его к первым десяти. Посмотрите, насколько хорошо он подходит, если нужно поправьте (увеличив или уменьшив область распознавания). Бывает также, что какая-то часть книги отсканирована чуть по-другому (в смысле положения текста). Можно применить отдельный шаблон именно к этой части.
Бывают книги, в которых текст на чётных страницах располагается ближе к одному краю, а на нечётных - к другому. В этом случае вам понадобится два шаблона. Сохраните оба.
Затем выберите только чётные страницы: ПКМ в окне "Страницы" -- "Выбрать страницы" -- "Четные".
Затем примените нужную область, не забыв выбрать внизу "применить к выделенным страницам".
То же самое для нечётных страниц.
Теперь, если Вам и придётся менять где-то области вручную, это будут единичные случаи. Повторюсь: условием для этого является хорошее качество скана.
Отв: Мои алгоритмы работы с FR11
Шаблоны хороши если ФР облажался по полной... ну почти везде ошибки. А если ошибки редко - то можно и руками.
Сканировщиков можно и ээ.. "обидеть" - где тогда сканы брать... Лучше к ним относится с любовью.
Отв: Мои алгоритмы работы с FR11
Если ошибки редки, то не нужны промежуточные этапы. ;) Достаточно идти пошагово - от страницы к странице - и по необходимости менять.
Напомню: мой алгоритм предполагает просмотр каждой страницы скана. Если на какой-то из них нужно что-то исправить, это нормально. Не вижу необходимости тратить время на предварительный просмотр.
Как обычно: речь идёт только о моих предпочтениях, каждый волен делать так, как ему больше нравится или удобно.
Насчёт "обидеть" - нельзя ни в коем случае. Как и OCR-щиков, и верстальщиков.
Но всегда можно обсудить детали.
Я иногда, например, прошу увеличить яркость. Ещё никто не обиделся. ;)
Всё приходит с опытом. И для того чтобы улучшать свою работу, необходим feedback. Иначе как сканировщик узнает, что можно (нужно) улучшить?
Отв: Мои алгоритмы работы с FR11
Логично... но все же нужно с ними как то помягче... а то напишет в ответ сканировщик некое идеоматическое выражение, после которого дальнейшее сотрудничество стает невозможным...
Отв: Мои алгоритмы работы с FR11
Так это со всеми так, не только со сканировщиками. В-)
Ничто не стоит так дёшево и не ценится так дорого... ;)
Отв: Мои алгоритмы работы с FR11
Если пренебречь этим советом – такой фрагмент текста будет утрачен (в FB2 не передастся) ну или окажется в конце... это как повезет
Отв: Мои алгоритмы работы с FR11
Если в книге отдельные слова даны разрядкой или есть подчеркнутый текст - помним, что мы лишены возможности сделать так же в FB2. Обозначим такие места в тексте как то по иному.
Отв: Мои алгоритмы работы с FR11
А почему бы не использовать неразрывный пробел? По-моему, очень симпатично получается.
Отв: Мои алгоритмы работы с FR11
Можно эмфазисом, а потом задать CSS-стиль spacing, тогда на CoolReader3 эмфазис будет отображен как в книге, пробелами, а не курсивом, а в других читалках останется курсивом.
Отв: Мои алгоритмы работы с FR11
Мне кажется, это не от читалок зависит, а от используемого шрифта.
Отв: Мои алгоритмы работы с FR11
Есть разные специальные пробелы (широкий, например), с которыми действительно бывают такие проблемы, а обычный неразрывный пробел — символ стандартный, так что у него не должно быть проблем с отображением.
Отв: Мои алгоритмы работы с FR11
Выглядеть будет нормально, это да, а вот с поиском будет напряженка.
Страницы