Вы здесьМои алгоритмы работы с FR11
Опубликовано сб, 04/08/2012 - 03:35 пользователем golma1
Последнее время часто стали возникать вопросы по поводу работы с ФР. Я много раз описывала свои методы - в личке, в форуме. Я большой приверженец работы с ФР. С хорошими исходными файлами он позволяет максимально подготовить текст для экспорта сразу в fb2. Текст во многом писался для друзей, поэтому периодически встречается обращение на "ты". После распознавания сохраните документ ФР. Продолжение: Файл fb2, полученный из FR11
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
PipboyD RE:Подайте бедному копеечку на книжку с литреса... 2 дня
sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 5 дней TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 1 неделя Oleg V.Cat RE:B343695 Александр. Книга 1 1 неделя Isais RE:Калибрятина/Самиздатина 1 неделя md2k15 RE:Относительно Вархаммер 40 000 1 неделя Oleg V.Cat RE:Беженцы с Флибусты 1 неделя tvnic RE:"Коллектив авторов" 2 недели SergL197 RE:Регистрация 2 недели ejik.v RE:Viva Stiver! 2 недели RedRoses3 RE:Флибуста конец? 2 недели Ldrozd RE:Сандра Ньюмен - Джулия [1984] 3 недели konst1 RE: Банда Рафаэля 3 недели Isais RE:Лоренс Даррелл - Горькие лимоны 4 недели Isais RE:B157704 Черепаха Киргала 4 недели sem14 RE:Литературная премия «Ясная Поляна» 4 недели blahblahblah2024 RE:Сборник - Советская морская новелла. Том 1 1 месяц Isais RE:Обновление FictionBook Editor 1 месяц Впечатления о книгах
gruin про Видум: Не ДРД единой (Альтернативная история, Фэнтези, Самиздат, сетевая литература)
08 11 Сения не сказать отличная, но читать можно. Многовато рассуждений описаний. Оценка: неплохо
gruin про Прядеев: Позывной «Курсант» (Альтернативная история, Попаданцы)
08 11 По идее последняя в серии, а не первая. В остальных о предшестаующих событиях в детдоме, они хуже. А эта вполне читабельна. Но только та, которая "Курсант. На Берлин", на флибусте Оценка: неплохо
obivatel про Назипов: Ингвар. Книга 1 [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
08 11 ГГ классический лох (человек, не умеющий «устроиться» и приспособиться к изменениям жизни и в результате обычно небогатый), а лох это судьба. Какие бы плюшки ему вселенная ни накидала, он про профукает, пролопухает, про"№%т. ……… Оценка: нечитаемо
Oleg68 про Кобен: Нарушитель сделки [Deal Breaker ru] (Крутой детектив)
08 11 Хороший триллер- детектив. Автор, как всегда на высоте. Буду продолжать читать серию. Оценка: отлично!
Isais про Берд: Тошнит от колец [Bored of The Rings ru] (Юмористическое фэнтези)
07 11 Поверьте, после этого реально тошнит от колец — после той работы, что пришлось проделать для минимальной удобопонятности этого нестареющего образчика студенческого юмора. Оценка: нечитаемо
Isais про Капельгородская: Зарубежный детектив [энциклопедия] (Энциклопедии, Литературоведение)
07 11 Когда-то покупал эту книгу (печатную) для работы и пользовался ее информацией без претензий и с полным доверием, но только лет через 10, когда появился Тырнет, узнал, что в ней есть довольно много ошибочных сведений, в основном ……… Оценка: хорошо
Barbud про Савинков: Николай I Освободитель. Книга 8 [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
07 11 Кое-как, без интереса и по диагонали листая через десяток страниц, домучил восьмую часть. Девятую, наверное, и начинать читать не буду - опус все скучней и скучней. Кстати, судя по последним строкам, автор смылся из Киева ……… Оценка: нечитаемо
Дей про Старатель
07 11 В целом понравилось. Урал, тайга, охота, рыбалка, вот этот колорит и всё такое. Не понравилось в изложении: манера всякий раз вычурно обставлять диалоги. Почему хотя бы иногда не писать прямую речь без дополнений. Кто ………
vig11 про Видум: Не ДРД единой (Альтернативная история, Фэнтези, Самиздат, сетевая литература)
07 11 Отличная книга. Огромное спасибо. Оценка: отлично!
Lan2292 про Вайс: На границе миров. Том 1 (Космическая фантастика, Самиздат, сетевая литература)
07 11 Сумбурно и под конец сдалась. Не рекомендую
Igrina про Ирина Борисовна Ратушинская
06 11 Ну, Ратушинская вообще слабый поэт и чудовищный прозаик, так что... И очень много брешет, кстати!
badbag про Барчук: Колхоз: Назад в СССР [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
06 11 Не рекомендую читать ночью, во время приема пищи и любых жидкостей. Чревато. Оценка: хорошо |
Комментарии
Отв: Мои алгоритмы работы с FR11
Плюспиццот.
Отв: Мои алгоритмы работы с FR11
А кто-нибудь делал книгу с over4000 сносок? У меня целый день провисел вчера (часов 9, пока свет не отрубили) и fb2 обрывается на 1035-й сноске... Может FR!! больше не может?
Через FBTool извращаться не хочется (да и виснет тоже не слабо)... Может сноски объединить со стилем "основной текст"? А потом руками расставлять(((
Отв: Мои алгоритмы работы с FR11
Ага-ага!!!
Хм... Максимум, что попадалось - девятьсот с копейками, и никаких проблем не было.
Я правильно поняла, вы сноски отдельно от основного текста распознавали?
Отв: Мои алгоритмы работы с FR11
Нет. Просто есть стиль "сноска", есть "основной текст" - думал их слить в один стиль "основной текст"...
Но я только что проблему решил, ура!
Дело в том, что было около 20 стилей "сноска" - я их все слил в один и все выгрузилось в fb2 за 15 мин!
Отв: Мои алгоритмы работы с FR11
Ура! :)
Только проверьте теперь, не потерялась ли курсивность там, где надо.
Отв: Мои алгоритмы работы с FR11
Потерялась, конечно. Но я её всё равно корректирую вручную, типа: (англ.). -> (англ.). Кроме того, сохранилась только половина сносок... По всей видимости те области, где стиль сноска был проставлен руками не сохранились...
Я тут поэкспериментировал и получил такой алгоритм:
- на странице исправляем все сноски на правильные (вместо ' / и тп, ставим 1 2 3)
- распознаём заново область сносок (пометив назначение как "основной текст")
Если текст сам распознался, как сноска, то всё ОК, иначе - менять руками стиль на "сноску" бесполезно, они не ассоциированы останутся с 1 2 3 ... в основном тексте, и не выгрузятся в fb2.
Отв: Мои алгоритмы работы с FR11
Мне этот способ не помогает. Простой заменой ' на 1 - проблему не решишь.
Отв: Мои алгоритмы работы с FR11
Я давно об этом писала. Поэтому и не доверяю ФР расставлять сноски. :(
Отв: Мои алгоритмы работы с FR11
надо же! Как всё просто оказалось)))) С чем вас и поздравляю ;-)
Отв: Мои алгоритмы работы с FR11
Привет всем! А как быть с картинками при прямой передачи из FR-11 в формат fb2?
Дело в том, что FR-11 оформляет изображения так
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>
<p>Пример картинки после экспорта в fb2</p></td></tr>
</table>
Но стоит в FBE -2.6 перейти в просмотр кода FBE 2.6 по неведомым законам "корректирует" приведенный выше фрагмент и превращет его в
<table>
<tr>
<td/>
<image l:href="#image1.jpg"/>
<empty-line/>
</tr>
<tr>
<td/>
<p>Пример картинки после экспорта в fb2в</p>
<empty-line/>
</tr>
</table>
и далее наш любимы FBE сообщает об ошибке - ожидается th или td!!!
Как с этим борется народ:?????
Отв: Мои алгоритмы работы с FR11
Таблицей обрамляет только в ситуации, когда стиль текста "Подпись к картинке" (проверил на тексте с 50 изображ, с произвольно распределенным стилем)
К сожалению, простой заменой стиля на "Основной текст" в FR11, проблема не лечится. Видимо создаётся какая-то доп. связь между картинкой и текстом стиля "Подпись к картинке"
Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...
Отв: Мои алгоритмы работы с FR11
Я такой закономерности не проследила, но очень может быть. Обязательно в следующий раз проверю. Спасибо. :)
Можно попробовать не заменять стиль "Подпись картинки", а объединить со стилем "Основной текст" в пользу последнего.
Отв: Мои алгоритмы работы с FR11
Я делал и так, и так - не помогает...
более того, если "схитрить": распознать сначала только текст на странице, атолько потом выделить области картинок, то текст так и остается "основным текстом", но при сохранении картинки "цепляются" к тексту((( Выгружается таблицей...
Кстати, если текст под картинкой пометить, как таблицу, то таблицей выгрузится только текст, картинки в таблицу не включаются))) Тоже вариант - меньше удалять тэгов...
Отв: Мои алгоритмы работы с FR11
Я в следующий раз при наличии стиля "подпись к картинке" попробую поэкспериментировать. Может, что-то получится. Во всяком случае, Ваше наблюдение, что это коррелируется с этим стилем, очень интересно.
Ну, я там выше дала регэксп массовой замены. Ему-то всё равно, сколько тэгов. ;)
Отв: Мои алгоритмы работы с FR11
Это на случай, если в книге есть и настоящие таблицы (причем не собранные в одном месте, а вперемешку с картинками)
Отв: Мои алгоритмы работы с FR11
Wotti написал регэксп для удаления всех элементов таблицы:
(</table>)|(<table>|<td/>|<td/>|</tr>|<tr>|<th/>)
заменить на "ничего".
Делается в режиме Source. Не забудьте отметить "регулярное выражение".
Отв: Мои алгоритмы работы с FR11
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>Пример картинки после экспорта в fb2</td></tr>
</table>
Но, конечно, всё равно маразм. Надо написать на форуме FR, а то вдруг они не знают?
Можно сделать макрос для AkelPad и запускать AkelPad с макросом до запуска FBE.
Отв: Мои алгоритмы работы с FR11
Отв: Мои алгоритмы работы с FR11
[quote Vadi ]Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...
Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!
Отв: Мои алгоритмы работы с FR11
Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!
Попробуйте всё же поэкспериментировать со стилями. Если дело действительно в стиле "подпись к картинке" (что звучит очень правдоподобно), то задача решаема.
Отв: Мои алгоритмы работы с FR11
Подскажте. Вопрос по пользовательским словарям в FR. Задача следующая - нет определенного языка для распознавания - но это не проблема, все настраивается элементарно. Но нет и словаря для данного языка. Что очень и очень сказывается на распознавании, особенно в плане переносов слов... Значит создаем пользовательский словарь... Для старта 85 тыс. слов, но в пользовательском словаре, судя по всему, существует ограничение по размеру!?. Пришлось сделать 14 пользовательских словариков - дабы впихнуть в них, по частям, весь этот словарь... Иметь 14 пользовательских словарей очень неудобно - FR начинает конкретно подтормаживать... Кто сталкивался? Как эту массу слов слить в один пользовательский словарь? (FR9.0 Pro)
Отв: Мои алгоритмы работы с FR11
К сожалению, у меня нет ответа на Ваш вопрос. Словари для языков, которыми я пользуюсь, встроены по умолчанию.
Но наверняка найдётся кто-то, кто владеет этим вопросом. :)
Отв: Мои алгоритмы работы с FR11
А вот я столкнулся с такой проблемой - не открывается документ ридера. До этого корректно сохранил документ и закрыл программу.
Отв: Мои алгоритмы работы с FR11
А что пишет, почему не открывает?
Отв: Мои алгоритмы работы с FR11
А у Вас не портабл?
Отв: Мои алгоритмы работы с FR11
Нет, вроде.
Отв: Мои алгоритмы работы с FR11
Открылся, но странно, почему до этого не получалось.
Было
Отв: Мои алгоритмы работы с FR11
Тоже была разок такая же бяка. И тоже само рассосалось, так и не понял, чё оно вылезало.
Отв: Мои алгоритмы работы с FR11
Интересно, что после первой неудачной попытки открытия файла он пропадал из списка последних открытых.
Отв: Мои алгоритмы работы с FR11
Ну тут оно фиг с ним, попугало маленько и всё. Я два раза сталкивался с настоящей неприятностью. Дома стоит полный (ломаный правда) файнридер, на работе портабельным пользуюсь. Иногда недоделанную книжку таскаю туда-сюда на флешке в виде проекта. И столкнулся, что домашнему иногда не нравится проект, редактированный на работе (FR-11, сборки разные только и разрядность систем). Открывается и редактируется нормально, но при попытке сохранения или передачи текста ругается на некоторые страницы (не помню уже, как именно) и они остаются вроде как нераспознанные, хотя до этого были. Первый раз таких всего десятка два было, поэтому просто удалил их из проекта, заново вставил и распознал. А вот второй раз... Сотни полторы разворотов, разбросанные по 1000-страничной книге, уже вычищенные, блин, похерились. Ладно додумался на след. день опять на работу отнести и там уже закончить. Во радости-то было, что спасти удалось. :))
Это я к тому всё, что лучше без нужды не таскать проект с компа на комп, ну или хотя бы чтоб сборки FR на них были одинаковые.
Отв: Мои алгоритмы работы с FR11
У меня такое изредка бывает в одной и той же программе. Распознайте их просто ещё раз.
Если появляется сообщение о "внутренней ошибке", сдвиньте слегка границу любой области. Если область не приходится изменять, внесённые изменения при повторном распознавании уже будут учтены.
Отв: Мои алгоритмы работы с FR11
Во, именно про "внутреннюю ошибку" и было. Повторно-то оно распознавалось, но при сохранении опять ломалось. Вот области подвигать не дотумкал. Зарубочку сделал, спасибо. :))
Отв: Мои алгоритмы работы с FR11
Помогите вот с такой проблемой. Распознаю книгу в FR11, и он ругается на каждое длинное тире - uncertain character.
Как от этого избавиться?
Отв: Мои алгоритмы работы с FR11
В смысле - выделяет как неуверенно распознанный элемент? Если да, то игнорировать.
Если Вы имеете в виду что-то другое, уточните.
Отв: Мои алгоритмы работы с FR11
Да, как неуверенно распознанный. Я конечно игнорирую, но их там по 20 на странице.
Неужели нельзя его как-то добавить в список нормальных символов?
Я редко FR использую, таких тонкостей не знаю.
Отв: Мои алгоритмы работы с FR11
Теоретически можно, но нужно потратить время на "обучение" ФР и создание пользовательского эталона, а потом распознать ещё раз - уже с этим эталоном.
Овчинка выделки не стоит, на мой взгляд.
Отв: Мои алгоритмы работы с FR11
А если в словарь такие тире добавить?
Тогда просто перераспознать и все.
Отв: Мои алгоритмы работы с FR11
Вряд ли. Так выделяются и известные ФР слова. Просто конкретно в этом проекте тире "путается" с каким-то другим знаком. А может, оно просто слишком тонкое. Значит, нужно "научить" ФР, что это - тире.
Но для интереса можно попробовать. Если сделаешь, напиши, пожалуйста, чтó получилось.
Отв: Мои алгоритмы работы с FR11
Это надо, чтобы medved кусок скана выложил. А иначе как проверить?
У меня с тире проблем ни разу не было. В словарь оно добавляется без проблем, но надо проверять результат на конкретном скане.
Отв: Мои алгоритмы работы с FR11
Ну, при случае. ;)
Бывают такие сканы, где все длинные тире "бирюзовые". Я тоже при случае проверю твою идею.
update:
Случай нашёлся на следующей странице. ;)
Добавила вручную
<— >
(с табулятором) и<—>
. Перераспознала страницу:Отв: Мои алгоритмы работы с FR11
Что забавно, распознал твой скриншот без проблем с тире )
Отв: Мои алгоритмы работы с FR11
Зато с кучей других "неуверенно распознанных символов" и с ошибкой OCR. :-Р
Кстати, на следующей странице слово "ГЛАВА" было полностью бирюзовым. Хоть в словаре, как ты понимаешь, оно есть. Так что дело не в этом.
Отв: Мои алгоритмы работы с FR11
Дык, я не вычитывал же, просто проверить хотел что с тире )
Ты бы пару страничек выложила в нормальном размере, с тире и "главой" интересно уже посмотреть, как у меня распознается )
Отв: Мои алгоритмы работы с FR11
Нет, я не про сами ошибки, а про распознавание. ;)
Держи: http://yadi.sk/d/VrGdUVZ04J3s7
Здесь 2 страницы. Ошибок OCR не было.
Выглядит так:
Отв: Мои алгоритмы работы с FR11
Сделал в 8 Файнридере и в 11.
Ошибок нет нигде, но восьмерка нормально воспринимает тире.
В 11 добавил скопировал тире в словарь - не помогло.
"Глава" в обеих версиях неуверенно распознанным выделена.
Отв: Мои алгоритмы работы с FR11
Вот пара страниц для примера:
http://rghost.net/45520322
Отв: Мои алгоритмы работы с FR11
Никаких проблем с распознаванием, в том числе, с тире (Файнридер 8 версии)
Отв: Мои алгоритмы работы с FR11
Если вспомнить что тире бывают en dash и em dash, от длины N и M, а эти длинные тире в тексте даже превышают em dash, то у FR11 едет крыша. FR8 более устойчив к косякам. Либо плюнуть, либо обучать по эталону, что длиииинное тире в тексте на самом деле будет em dash.
Отв: Мои алгоритмы работы с FR11
Да, FR8 как-то лучше справляется с тире, чем 11 версия.
Отв: Мои алгоритмы работы с FR11
Давно уже вычитываю с включенными непечатными символами. Привыкаешь к ним быстро. Разрывы в словах, неверная разбивка по абзацам после точки... это все легко отслеживается...
Страницы