Мои алгоритмы работы с FR11 | Либрусек

Вы здесь Главная » Блоги » Блог пользователя golma1 Мои алгоритмы работы с FR11 Опубликовано сб, 04/08/2012 - 03:35 пользователем golma1 Последнее время часто стали возникать вопросы по поводу работы с ФР. Я много раз описывала свои методы - в личке, в форуме. Сейчас решила собрать все советы в своём блоге. Никого не собираюсь переубеждать, не буду тратить время на доказывание, что мой метод лучше какого бы то ни было другого; просто делюсь своими наработками - вдруг кому-нибудь пригодится? На вопросы по содержанию с удовольствием отвечу. Я большой приверженец работы с ФР. С хорошими исходными файлами он позволяет максимально подготовить текст для экспорта сразу в fb2. При таком экспорте решается сразу несколько важных проблем: - диалоги сохраняют начальное тире, хотя в ФР после них стоят знаки табулятора (список/перечисление) - сохраняется форматирование курсивом/полужирным - никаких "мягких" переносов - возможен экспорт картинок. Это, правда, половинное преимущество, поскольку картинку всё-таки хорошо бы обработать. Но, во-первых, обрабатывают картинки не все верстальщики, а во-вторых, сразу видно место, где они должны находиться. Текст во многом писался для друзей, поэтому периодически встречается обращение на "ты". Настройки для открытия/сканирования Настройки для распознавания После распознавания сохраните документ ФР. Продолжение: Файл fb2, полученный из FR11 Блог пользователя golma1 Войдите или зарегистрируйтесь, чтобы отправлять комментарии Комментарии Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 26/09/2013 - 12:36 пользователем Алексей_Н Напряженка с поиском возникает и от стандартного ударения и от выделения ударных букв жирным курсивом (как любят делать на HL). Поэтому еще один элемент, мешающий поиску, погоды не делает. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 26/09/2013 - 12:46 пользователем s_Sergius Так-то оно так. Кстати, в FBE и HaaliReader поиск слов с выделением болдом и/или курсивом таки вполне нормально работает. А вот в FBReader, AlReader и обоих CooReader — увы. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 06/09/2012 - 03:14 пользователем golma1 Новая версия скрипта, ищущего ошибки OCR: http://rusfolder.com/32482905 ### В нём разрывы абзацев, обрабатываемые скриптами FBE выделены в отдельную группы и помещены под спойлер: вы можете решить, хотите ли исправить их на этапе распознавания в ФР или уже в самом FBE. Кроме того, улучшено детектирование скриптов. ### Этот скрипт, кроме поиска разрывов абзацев внутри страницы, находит разрывы абзацев страницей, что частенько может ускользнуть от внимания OCR-щика. Только что запустила его на файл новой книги - более 40 проблемных мест. И если глаза могут что-то пропустить, то скрипт - ни за что. ;) В общем, перфекционистам всячески рекомендую. :) Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 06/09/2012 - 04:05 пользователем GMAP У меня этот скрипт стабильно валится с такой ошибкой: Сценарий: c:\_FBEditor\Script\spotter.vbs Строка: 236 Символ: 5 Ошибка: Индекс выходит за пределы допустимого диапазона: 'nStrLen' Код: 800A0009 Источник: Ошибка выполнения Microsoft VBScript Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 06/09/2012 - 04:07 пользователем golma1 GMAP написал: У меня этот скрипт стабильно валится с такой ошибкой: Сценарий: c:\_FBEditor\Script\spotter.vbs Строка: 236 Символ: 5 Ошибка: Индекс выходит за пределы допустимого диапазона: 'nStrLen' Код: 800A0009 Источник: Ошибка выполнения Microsoft VBScript Хммм... А где Вы его запускаете? Это скрипт - НЕ для ФБЕ. Не надо его в директорию ФБЕ копировать. Просто распакуйте архив куда-нибудь, где Вам удобно, и там запустите. И примените его на текстовом файле, полученном из ФР (опции см. выше). Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 26/09/2013 - 11:34 пользователем Zadd golma1 написал: А где Вы его запускаете? Это скрипт - НЕ для ФБЕ. Не надо его в директорию ФБЕ копировать. Просто распакуйте архив куда-нибудь, где Вам удобно, и там запустите. И примените его на текстовом файле, полученном из ФР (опции см. выше). А для какой программы? Для Бэйсика?(судя по расширению VBS=Visual Basic Script) Применять на .fb2, но не в FBE, просто запустив скрипт в cmd, подставив ему имя файла .fb2 как аргумент в командной строке? Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 26/09/2013 - 12:26 пользователем golma1 Zadd написал: golma1 написал: А где Вы его запускаете? Это скрипт - НЕ для ФБЕ. Не надо его в директорию ФБЕ копировать. Просто распакуйте архив куда-нибудь, где Вам удобно, и там запустите. И примените его на текстовом файле, полученном из ФР (опции см. выше). А для какой программы? Для Бэйсика?(судя по расширению VBS=Visual Basic Script) Применять на .fb2, но не в FBE, просто запустив скрипт в cmd, подставив ему имя файла .fb2 как аргумент в командной строке? Есть новая версия этого скрипта. Она работает с файлами, экспортированными из ФР (сохранить как...). Для нее нужно сохранить проект в txt, html, rtf - с определенными опциями. Занимает даже на 600-страничном проекте меньше минуты. Потом на эту троицу запускается скрипт (у него нормальный интерфейс, не нужно никакой командной строки, он на Дельфи, если я не ошибаюсь). Он работает порядка минуты, анализируя результаты, и выдаёт протокол. Как подробно смотреть протокол - каждый решает для себя. Я обращаю внимание только на разрыв абзаца страницей (когда в конце предыдущей страницы стоит точка) и на разрыв абзаца на точке в конце строки. Но скрипт умеет больше: он видит "пропущенные" сноски (которые визуально не выделяются, если предварительно не работать со стилями, как я выше описывала), видит нарушение расположения блоков текста (иногда бывает вокруг картинки не во всю страницу) и ещё кучу мелочей. Если интересует, могу выложить последнюю версию и опции для сохранения документа ФР. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 03:23 пользователем golma1 GMAP написал: У меня этот скрипт стабильно валится с такой ошибкой: Сценарий: c:\_FBEditor\Script\spotter.vbs Строка: 236 Символ: 5 Ошибка: Индекс выходит за пределы допустимого диапазона: 'nStrLen' Код: 800A0009 Источник: Ошибка выполнения Microsoft VBScript Попробуйте эту версию: http://rusfolder.com/32499403 И сохраните всё же скрипт в другом месте, не внутри ФБЕ. Для всех пользователей скрипта: В этой версии разрыв абзаца, обрабатываемый скриптами в ФБЕ, не спрятан в спойлер, а выделен другим цветом (зелёным). То есть, если вы не собираетесь исправлять такие места в ФР, просто игнорируйте. Для тех же, кто хочет исправить разрыв уже на этой стадии, отпадает необходимость раскрывать спойлер. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 06/09/2012 - 04:37 пользователем izekbis golma1 написал: Новая версия скрипта, ищущего ошибки OCR: http://rusfolder.com/32482905 Мне почему-то не скачать с этой ссылки. Все время дает ошибку. Может положите на другой файлообменник. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 06/09/2012 - 04:39 пользователем golma1 izekbis написал: . Все время дает ошибку. Может положите на другой файлообменник. Вот, попробуйте здесь: https://www.rapidshare.com/files/3103890321/spotter_2.20.zip Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 06/09/2012 - 04:48 пользователем izekbis Вот, попробуйте здесь: https://www.rapidshare.com/files/3103890321/spotter_2.20.zip Спасибо! Здесь скачалось. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 06/09/2012 - 17:21 пользователем tvnic А вот у меня, как и с предыдущими двумя версиями, выскакивает вот это Хотя лог и hta создаются -------- Интересно, находил ли кто-нибудь разорванные абзацы после прогонки скриптом? Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 06/09/2012 - 22:32 пользователем Alex2L Дружище tvnic! Уважаемая golma1 внятно писала, что в случае, ежели название вашего файла на КИРИЛЛИЦЕ, да с пробелами внутри скрипт его не сможет вывести на дисплей. Не беда. HTA-файлы запускаються простым "тюк-тюк" мышкой в обозревателе. (Возможно операционка спросит кое о чем. Надо ответить утвердительно.) Либо НЕ ИСПОЛЬЗОВАТЬ кириллицу в названии TXT-файла. Вчитывайтесь в то, что пишет уважаемая golma1 - и будут всё в порядке. Цитата: Интересно, находил ли кто-нибудь разорванные абзацы после прогонки скриптом? - двоих-то я точно знаю. :) И поверьте - когда и у вас получится - мало не покажется! Удачи! Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 04:08 пользователем tvnic Alex2L написал: двоих-то я точно знаю. :) И поверьте - когда и у вас получится - мало не покажется! Удачи! Я не имел в виду - сколько ошибок найдет скрипт. В этом я не сомневаюсь - сам убедился. А ВСЕ ли ошибки он вылавливает? Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 04:16 пользователем golma1 tvnic написал: А ВСЕ ли ошибки он вылавливает? Это уже довольно продвинутые версии, основные ошибки учтены. Но если Вы что-то заметите, пишите. В последних мною "по старинке" (визуально) проверенных файлов, пропущенных мест не было. Сейчас работа идёт больше над уменьшением "ложных" срабатываний. Но и их уже не так много. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 04:28 пользователем tvnic golma1 написал: Но если Вы что-то заметите, пишите. Конечно, в этом случае напишу. Но лучше, чтобы не пришлось это делать. Тогда и для глаз работы меньше. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 04:28 пользователем Alex2L Предположительно, да. Даже есть лишние. На сейчас - "узкое место" - когда абзац разрывается страницей со сносками. Но в этом случае - всё равно глазами смотреть надо. Работа ведёться, как по сокращению "ложных срабатываний" так и по детектированию сносок. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 04:40 пользователем golma1 Alex2L написал: Предположительно, да. Даже есть лишние. На сейчас - "узкое место" - когда абзац разрывается страницей со сносками. Но в этом случае - всё равно глазами смотреть надо. Работа ведётся, как по сокращению "ложных срабатываний" так и по детектированию сносок. Точно! Я как раз зашла, чтобы написать о сносках. Только что столкнулась с ситуацией, когда из-за сноски не был увиден "разрыв абзаца страницей". Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 05:13 пользователем tvnic Alex2L написал: Работа ведёться, как по сокращению "ложных срабатываний" так и по детектированию сносок. В любом случае скрипт очень полезный и нужный. А стыки страниц - не такая уж проблема - знаешь где смотреть. На мой взгляд важнее отловить разрывы внутри страницы (100 % :) ), чтобы не искать их глазами. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 05:17 пользователем golma1 tvnic написал: А стыки страниц - не такая уж проблема - знаешь где смотреть. На мой взгляд важнее отловить разрывы внутри страницы (100 % :) ), чтобы не искать их глазами. +500! Постоянно твержу об этом нашему уважаемому разработчику. Но он перфекционист, ему всё равно. ;) Внутри страницы отлавливаются все. Проверено на 15-20 файлах. После этого проверять перестала. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 05:22 пользователем tvnic Если так, то бальзам на душу. Теперь об этой стороне распознавания/вычитки можно забыть. Естественно, предварительно применив данный скрипт. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пн, 10/09/2012 - 05:49 пользователем golma1 Предположительно последняя версия скрипта (в этом виде): http://rusfolder.com/32538257 Уменьшено количество ложных срабатываний за счёт учитывания подзаголовков типа "* * " и заголовков типа "Глава..." Если значительных ошибок не будет замечено, работа над ним приостановлена. В планах - модификация скрипта с расширением функциональности (сроки не обозначены). Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пн, 10/09/2012 - 06:11 пользователем tvnic Скрипт очень полезен и в таком виде. С функциональностью можно и потерпеть :) Вопрос к golma1, как опытнейшему распознавальщику. В среднем как много Вам в одной книге попадается склеенных абзацев? Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пн, 10/09/2012 - 06:18 пользователем golma1 tvnic написал:* В среднем как много Вам в одной книге попадается склеенных абзацев? В последней версии значительно меньше, чем в предыдущей. Порой - ни одного. Но, поскольку время от времени они всё же встречаются, проверяю в каждой книге всё равно. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пн, 10/09/2012 - 07:58 пользователем golma1 tvnic написал: В среднем как много Вам в одной книге попадается склеенных абзацев? В сегодняшней книге (580 стр.) нашёлся всего один. Причём склеился на точке, проверка которой занимает наибольшее время: Цитата: — Ладно, неважно. Этот человек буквально спас меня. Рия положила трубку, и они с Энди посмотрели друг на друга. Одно препятствие было преодолено, причем почти случайно. Казалось бы, одним склеенным абзацем на 580 страниц можно было бы пренебречь, но у перфекционистов жизнь тяжёлая... :( Было ещё одно место, где в диалоге "-Да." приклеилось к предыдущей реплике, но такие места (мне) сразу видны, я их вылавливаю на первом этапе - при просмотре страниц. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пн, 10/09/2012 - 08:40 пользователем tvnic Ясно. Ведь качество сканов именно на количество склеенных абзацев не влияет? Это уже ФР грешит. И где удобнее сравнивать - в ФР (там в окне "Текст" строки бывают перекошены) или ПДФ с ФБ2? Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пн, 10/09/2012 - 08:57 пользователем golma1 tvnic написал: Ясно. Ведь качество сканов именно на количество склеенных абзацев не влияет? Это уже ФР грешит. И где удобнее сравнивать - в ФР (там в окне "Текст" строки бывают перекошены) или ПДФ с ФБ2? Ээээ... что-то я растерялась. Сравнивать? Искать склеенные абзацы нужно при помощи метода ТаКира (выше описано). В ФР, после основного этапа распознавания (просматривания страниц и расстановки служебных пометок). Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пн, 10/09/2012 - 11:11 пользователем tvnic Честно говоря, думал, что после этого метода не мешало бы глазами проверить. Или это лишнее? Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пн, 10/09/2012 - 11:35 пользователем golma1 tvnic написал: Честно говоря, думал, что после этого метода не мешало бы глазами проверить. Или это лишнее? Абсолютно лишнее. :) Не помню, писала ли я выше, но я проверяю ещё на сочетание »^l Важно для случаев типа «И как ты решила?» в конце абзаца. Встречается крайне редко, но всё-таки... ;) Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 01:41 пользователем golma1 tvnic написал: Интересно, находил ли кто-нибудь разорванные абзацы после прогонки скриптом? Вчера делала книгу, в которой скрипт нашёл более 40 (sic!) случае разрыва абзаца на строке с точкой. В среднем "проблематичных" мест находится от 5 до 15. Сегодняшний "улов": Тривиальный разрыв абзаца страницей - 159 (спрятан в спойлер, не обрабатывается) Разрыв абзаца страницей - 14 (отметила служебными знаками, чтобы соединить в ФБЕ) Подозрительный фрагмент текста - 1 (оказался разрывом абзаца, когда следующая строка начиналась с цифры) Возможный разрыв абзаца - 15 (в 2-х случаях оказался разрывом, остальные - перед *, проверила один раз) Внутриабзацный разрыв - 18 (выделено зелёным, обрабатывается на усмотрение OCR-щика; я разрывы исправила) Затрата времени (с момента запуска скрипта) - 9 минут. Кстати, специально для Вас, tvnic, попробовала ещё раз: оставила название файла на кириллице. Получила сообщение, открыла результативный файл вручную. Так что полминуты можно сбросить. ;) Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 04:18 пользователем GMAP Не предполагал, что текстовый файл может быть только и исключительно после FR11. Попробовал, совершенно не впечатлился, останусь на своих текущих инструментах, то бишь, на регэкспах EmEditor. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 04:41 пользователем golma1 GMAP написал: Не предполагал, что текстовый файл может быть только и исключительно после FR11. Попробовал, совершенно не впечатлился, останусь на своих текущих инструментах, то бишь, на регэкспах EmEditor. Спасибо, что сообщили нам об этом. В-) update: Вообще-то скрипт "заточен" под текстовый файл, полученный из ФР. Именно поэтому так важно сохранить его с теми опциями, которые я описывала выше. Применять его на любых других текстовых файлах, мягко говоря, неразумно. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 00:01 пользователем Alex2L Уточнение. Под "именем файла" подразумевается ПОЛНОЕ имя т.е. начиная с буквы диска:_путь_собственно имя. Так вот, в этом полном имени НЕ ДОЛЖНО быть кириллицы с пробелами. На самом деле это не ошибка скрипта, а невозможность средствави vbs (привет Майкрософту!) запустить на исполнение (по функции run) файл, в ПОЛНОМ имене которого присутствует кириллица с пробелами (без пробелов - прокатит). Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 07/09/2012 - 04:04 пользователем tvnic Alex2L написал: Уточнение. Под "именем файла" подразумевается ПОЛНОЕ имя т.е. начиная с буквы диска:_путь_собственно имя. Вот-вот. Об этом сказано не было. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано сб, 06/10/2012 - 04:55 пользователем alexej36 FineReader и DPI: размер имеет значение Скормил я на днях FR'у присланные мне сканы и ... FR от тех сканов "сошел с ума": разворачивать и делить на страницы отказался почти в 70%, а области с текстом определил как картинки... Подумав немного - решил замерить DPI "руками" - оказалось 110 (вместо заявленных 600) Исправил DPI (использовал программу FastStone Photo Resizer) - OCR прошло почти без ошибок. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано сб, 06/10/2012 - 05:55 пользователем golma1 alexej36 написал: FineReader и DPI: размер имеет значение Скормил я на днях FR'у присланные мне сканы и ... FR от тех сканов "сошел с ума": разворачивать и делить на страницы отказался почти в 70%, а области с текстом определил как картинки... Подумав немного - решил замерить DPI "руками" - оказалось 110 (вместо заявленных 600) Исправил DPI (использовал программу FastStone Photo Resizer) - OCR прошло почти без ошибок. Сам ФР имеет встроенный редактор изображений: "Страница -- Редактировать изображение страницы -- Разрешение изображения (в правой колонке)". Можно воспользоваться им. Часто при распознавании ФР сам предлагает увеличить разрешение. Нужно только щёлкнуть по линку в окне предупреждений. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано сб, 06/10/2012 - 06:37 пользователем alexej36 golma1 написал: ФР имеет встроенный редактор изображений: "Страница -- Редактировать изображение страницы -- Разрешение изображения (в правой колонке)". Можно воспользоваться им. Часто при распознавании ФР сам предлагает увеличить разрешение. Нужно только щёлкнуть по линку в окне предупреждений. Я пробовал в редакторе изображений определить DPI - FineReader определил верно, но с заданием применить его ко всем страницам справился на "плохо" на 1 балл т.е. :( Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано сб, 06/10/2012 - 06:57 пользователем golma1 alexej36 написал: golma1 написал: ФР имеет встроенный редактор изображений: "Страница -- Редактировать изображение страницы -- Разрешение изображения (в правой колонке)". Можно воспользоваться им. Часто при распознавании ФР сам предлагает увеличить разрешение. Нужно только щёлкнуть по линку в окне предупреждений. Я пробовал в редакторе изображений определить DPI - FineReader определил верно, но с заданием применить его ко всем страницам справился на "плохо" на 1 балл т.е. :( Тогда, конечно, имеет смысл обработать сканы в другой программе. У меня обычно речь идёт о максимум 5-7 страницах - по отдельности. С этим ФР справляется на ура. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано сб, 06/10/2012 - 07:14 пользователем alexej36 Как я понимаю - небольше погрешности в определени DPI распознавалка прощает, но если они значительны - будут проблемы... пробовал на тех же сканах поставить 300 - распознались сканы, но... часть строк была утрачена, в оставшихся изрядно ошибок... Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пн, 04/02/2013 - 15:26 пользователем Ergo80 Прошу прощения за смешной вопрос, но у меня возникла вдруг проблема, с которой я раньше не сталкивалась. Итак, есть сканы книги в виде пдф, сделанного из фотографий, фон картинок темно-серого цвета. Распозналось, кстати, очень неплохо, но в окне Текст - тот же темно-серый цвет фона, читать это невозможно - глаза болят. Поменять цвет фона можно - в настройках внизу окна, но это применимо почему-то только к одной конкретной странице, а их более 300. В Сервис-Опции-Вид - возможности изменить цвет фона я тоже не нашла. Хелп плизз!! Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пн, 04/02/2013 - 16:47 пользователем golma1 Ergo80 написал: Прошу прощения за смешной вопрос, но у меня возникла вдруг проблема, с которой я раньше не сталкивалась. Итак, есть сканы книги в виде пдф, сделанного из фотографий, фон картинок темно-серого цвета. Распозналось, кстати, очень неплохо, но в окне Текст - тот же темно-серый цвет фона, читать это невозможно - глаза болят. Поменять цвет фона можно - в настройках внизу окна, но это применимо почему-то только к одной конкретной странице, а их более 300. В Сервис-Опции-Вид - возможности изменить цвет фона я тоже не нашла. Хелп плизз!! В меню "Страница" есть пункт "Редактировать изображение страницы". Это редактор изображения. Попробуйте в нём изменить страницу так, чтобы она читалась. Если получится, выберите в правом нижнем углу "Применить к -- Все страницы". К сожалению, я не увидела там возможности изменить тон. Но может быть получится, если поиграться яркостью и контрастностью. :( Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пн, 04/02/2013 - 17:09 пользователем Ergo80 Спасибо, попробую) Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 21/03/2013 - 05:28 пользователем golma1 TaKir написал: Разбираюсь с ФР 11. Есть вопросы по алгоритму ) Назначение стилей производится в какой момент - после загрузки книги, до наложения блоков или после? До распознавания текста или после? Как применить стили ко всем страницам? Сейчас на распознанном тексте у меня на каждой странице свои стили, те же сноски все разного размера. Не передаются стили "Подписи к картинкам". Распознаются, но не передаются в ворд и фб2. Какой вариант выбирать - форматированный текст, редактируемая копия или точная копия? Влияет ли это на качество распознавания и стили и на передачу в ворд и фб2? Из хорошего текстового pdf не передался в фб2 ни один курсив и болд - чисто плэйн текст. В ворд передается нормально. (Блоки были наложены с помощью шаблона, одинаковые на все страницы, и поправлены в нужных местах). Если несложно, добавь при случае ответы в свой блог по алгоритму работы с ФР, плиз! Т.е. желательно описать процесс с самого начала - открываем ФР, делаем то-то, потом то-то и т.п. Ну, вообще-то я описала пошагово. ;) Но лично для тебя ещё раз. 1. С выбранными опциями (предобработка, разрезать разворот и пр.) распознать книгу. 2. Зайти в редактор стилей. Там у тебя есть выбор, что делать. Можешь объединить все стили "сноска" в один. Но тогда можешь потерять курсив и/или болд. Поэтому рекомендую объединять только стили с одинаковыми параметрами (т.е. курсив с курсивом, болд с болдом). В результате получишь максимум 3 варианта. Если важна оптика, выбери всем один и тот же шрифт и один и тот же размер (насчёт размеров для удобства идентификации неверно распознанных стилей я писала подробно, почитай). Та же история с основным текстом. Если ты его объединишь в один - можешь потерять курсивность/полужирность. 3. Подпись к картинкам не передаётся, только если ты при сохранении выбрал "не сохранять картинки". При сохранении картинок передаются и подписи. 4. Я работаю в режиме "редактируемой копии" - так (для меня) нагляднее. Непринципиально, на распознавание не влияет - это только способ вывода текста в данный конкретный момент. При сохранении ты можешь выбрать то, что тебе удобнее: кнопка "Опции..." внизу слева в окне "Сохранить как..." Вот эти опции уже влияют на качество передаваемого текста. 5. Предполагаю, что отсутствие курсива/болда при передаче из pdf в fb2 связано именно с п. 4. В опциях должен стоять "Форматированный текст". Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 21/03/2013 - 09:10 пользователем TaKir Спасибо! Действительно, был выставлен плэйн текст при передаче в фб2 ) По пошаговость я спрашивал именно потому, что непонятно, когда что делать ) Т.е твой обычный порядок действий? 1) запускаешь ФР. 2) Проверяешь настройки распознавания. 3) Загружаешь сканы в ФР. вот в таком виде хочется понять про то, в какой момент ты начинаешь править стили? Особенно стили интересуют - их надо править на каждой странице? ____________________________________________________________________ На примере хорошего издательского pdf экспериментально выяснил, что 11 версия ФР уступает в аккуратности распознавания старой 8 версии ФР. 8 идеально распознала текст (есть режим извлекать тест из pdf), но не понимает сносок, распознает как обычный текст. 11 версия в режиме тщательного распознавания создала сноску, но потеряла курсив в этой сноске. Т.е явный софтовый регресс при работе с хорошими исходниками в 11 версии ФР ( Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 21/03/2013 - 09:19 пользователем golma1 TaKir написал: Спасибо! Действительно, был выставлен плэйн текст при передаче в фб2 ) По пошаговость я спрашивал именно потому, что непонятно, когда что делать ) Т.е твой обычный порядок действий? 1) запускаешь ФР. 2) Проверяешь настройки распознавания. 3) Загружаешь сканы в ФР. вот в таком виде хочется понять про то, в какой момент ты начинаешь править стили? Особенно стили интересуют - их надо править на каждой странице? Я загружаю сканы сразу с распознаванием (настройки у меня выставлены раз и навсегда; изменять их приходится крайне редко, чтобы не сказать "никогда"). После этого (автоматического) распознавания правлю стили. А потом начинается основная работа - просмотр каждой страницы с целью выявления неуверенно распознанных символов и расстановки служебных пометок (и всё остальное - см. подробное описание). Стили нужно править один-единственный раз: объединить, выставить желаемые шрифт и размер. Всё остальное не комментирую. Я за рекламу ФР11 денег не получаю. ;) Если тебе больше нравится 8-ка, значит, так тому и быть. Я пользуюсь ещё скриптами от Alex2L. Но они "заточены" под особенности ФР11. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 21/03/2013 - 13:12 пользователем TaKir golma1 написал: Если тебе больше нравится 8-ка, значит, так тому и быть. Дык я потому тебя и пытаю, что хочу понять, надо ли переходить или нет ) Ощущения странные. Вроде почти полная автоматизация от скана до фбе, сноски опять же... Но вот странности с распознаванием и туча стилей, которые пока не могу понять как работают, меня сильно напрягают ( golma1 написал: Я пользуюсь ещё скриптами от Alex2L. Но они "заточены" под особенности ФР11. О чем спич? Есть линк? ПС А чего с границами текста в этом топике? Вообще все к краям монитора прилипает ) Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано чт, 21/03/2013 - 13:37 пользователем golma1 TaKir написал: О чем спич? Есть линк? ПС А чего с границами текста в этом топике? Вообще все к краям монитора прилипает ) Первая версия скрипта описана в этой же теме (мой постинг от 03.09). Но сейчас есть следующая версия, которую наш перфекционист-скриптописальщик ещё не считает достаточно зрелой, чтобы выдавать в общее пользование, а постоянно улучшает. ;) Насчёт границ текста - не поняла. У меня всё ОК. TaKir написал: странности с распознаванием и туча стилей, которые пока не могу понять как работают, меня сильно напрягают ( Понимаю. Привычных багов уже не видишь, их "лечение" стало рутиной. А тут надо перестраиваться. Сама поначалу сопротивлялась. Но сейчас баги 11-й версии стали родными. Лечатся (на мой взгляд) просто, а преимущества (опять-таки на мой взгляд) перевешивают. Поэтому, мне кажется, если пересилить себя и поработать какое-то время на "нелюбимой" 11-ке, то привыкнешь и будешь видеть только положительные моменты. Как я. В-) Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 22/03/2013 - 02:41 пользователем Evernet Как-то для интереса сравнила количество склееных абзацев в книге, распознав ее в разных версиях. В FR 9 нашла 25 штук, в FR 11 — всего 4. Оно вроде бы и не трудно самой найти/исправить, но больше к девятому не возвращалась. Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 22/03/2013 - 03:22 пользователем Антонина82 Удручает очень плохая работа ФР со сносками. Сейчас работаю с книгой, где практически на каждой странице есть сноска. Так вот, ФР - 1 в книге видит, по- разному. Но за единицу принимает очень редко. В основном, распознает, как '. 3, может быть и 5 и s. Из-за этого работа со сносками, превращается в мУку. Сноски с одной страницы, переносит на другую, или не переносит вообще. Я обычно радуюсь, когда все комментарии расположены в конце книги. Как ни странно, но работа со сносками происходит значительно быстрее в "ручном режиме", нежели в автоматическом, но в исполнении ФР, т.к. каждую сноску приходится проверять, правильно ли отражена. Может кто знает, как лечить ФР в таких случаях? Отв: Мои алгоритмы работы с FR11 Постоянная ссылка (Permalink) Опубликовано пт, 22/03/2013 - 03:49 пользователем J_Blood Антонина82 написал:** Удручает очень плохая работа ФР со сносками. Я последнее время даже не пытаюсь ФР сноски доверять. По мне лучше потратить время и рассовать их в скобки, чем потом разгребать. Потом скриптом в ФБЕ. Все равно просматриваю, чё он там нараспознавал, пустые строки расставляю, стихи, в одну строку которые, разбиваю... ну и заодно. Страницы « первая ‹ предыдущая 1 2 3 4 5 следующая › последняя »	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии weis RE:Прошу переформатировать, распознать, etc... 6 часов DGOBLEK RE:Подайте бедному копеечку на книжку с литреса... 1 день tvv RE:DNS 1 неделя sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 1 неделя sem14 RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 неделя sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 неделя larin RE:Заблокирован 2 недели konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц fixel RE:Пропал абонемент 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 месяц sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 1 месяц Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 2 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 2 месяца tvv RE:faq brainstorm =) 2 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 месяца larin RE:абонемент не обновлен 3 месяца sem14 RE:За иллюминатором (серия) - чего не хватает? 3 месяца Впечатления о книгах Дей про Черный маг императора 20 04 Немного огорчает, что ГГ немного тупенький. Каким он был в первой книге, таким остался к 25-ой - речь, поведение, рассуждения шестнадцатилетнего юноши ничем не отличаются от таковых двенадцатилетнего пацана. Но серия лёгкая, ……… Олег Макаров. про Лерер: Как мы принимаем решения (Психология, Научная литература: прочее) 19 04 «Человеческий мозг похож на компьютерную операционную систему, которую пытались как можно быстрее вывести на рынок» — Джона Лерер (Jonah Lehrer) Его книгу «Как мы принимаем решения» (How We Decide) рекомендую всем, ……… Оценка: отлично! mysevra про Зорин: Поиск Анны [litres] (Ужасы, Триллер, Детективы: прочее) 18 04 Интересная история. Правда, всё портит подача: сплошная драма. Мало событий и чертовски много переживательно-депрессивных описаний. Ну его. Оценка: неплохо mysevra про Адлер-Ольсен: Дом алфавита [Литрес] (Исторический детектив, Триллер) 18 04 Лихо так закручено, живенько. Прочитала с удовольствием. Оценка: отлично! mysevra про Палий: Бумеранг (Боевая фантастика) 18 04 Ну замечательно же всё шло, бойко, с искрой. И тут появилась журналистка, да ещё и из УФГ – откуда же это в республике «федеральная» газета? Такое небрежное отношение мелочам настораживает. Грустно, батенька. Оценка: неплохо udrees про Мансуров: Восемнадцатое царство [СИ] (Боевик, Самиздат, сетевая литература) 17 04 Не очень большая книга в стиле Стивена Кинга – забрались мальчишки на какой-то заброшенный секретный объект. Ну и нашли на свою задницу приключений. В целом написано, скажу, неплохо, грамотно, кому-то покажется стиль простым, ……… Оценка: неплохо udrees про Мансуров: Жёсткий отбор (Боевая фантастика, Социальная фантастика, Эротика, Приключения: прочее, Самиздат, сетевая литература) 17 04 Книга слабее чем многие другие произведения автора, хотя сюжет немного похож на «Адонис» и еще другие книги. Вообще напоминает компьютерную игру, герой просыпается в зале с оружием и противниками. В процессе обзаводится товарищами ……… Оценка: неплохо udrees про Вальтер: Браконьер 5 (Боевая фантастика, Приключения: прочее, Постапокалипсис, Самиздат, сетевая литература) 17 04 Отличное продолжение. Начинается с того места, как герой потерял свою девушку. Правда мир уже изменился и вампиры с людьми стали жить дружно. Но это конечно видимая часть. Герой это сразу просек и погрузился в недра интриг. ……… Оценка: хорошо udrees про Вальтер: Браконьер 4 (Боевая фантастика, Приключения: прочее, Постапокалипсис, Самиздат, сетевая литература) 17 04 Хорошо написанное продолжение. Главный герой все также угрюм, грязен, упорен и непредсказуем. Отряд уже не дуэт, а трио, но действует все также эффективно. История героя переплетается с Жаждой, серией про Морзе. Диалоги нормальные, ……… Оценка: хорошо udrees про Атаманов: Полигон [litres] (Боевая фантастика) 17 04 Если не воспринимать серьезно, то читается очень даже неплохо. Если бы вместо школьниц были взрослые, то история могла бы прокатить. Но и так книга написана неплохо, пускай и идеалистично про выживание в постапокалипсисе. ……… Оценка: неплохо udrees про Иноземцев: Несовременная страна. Россия в мире XXI века (Публицистика) 17 04 Правильная книга про современную Россию и сложившееся в ней в настоящее время положение, плюс даны исторические оценки того, почему так всегда получалось и что нас ждет. Считаю, что в целом верно приведены факты, насчет положения ……… Оценка: неплохо Sello про Дрент: Вагина. История заблуждений (Культурология, Документальная литература, Эротика, Секс) 17 04 В общем-то интересное сплетение медицины, истории, удивительных фактов, сексологии, странных случаев, этики, социологии и даже литературы. Юмора как такового не заметил. Внимание обратил на следующее. Буквально на днях, уже ……… Оценка: неплохо больше впечатлений