Вы здесьМои алгоритмы работы с FR11
Опубликовано сб, 04/08/2012 - 03:35 пользователем golma1
Последнее время часто стали возникать вопросы по поводу работы с ФР. Я много раз описывала свои методы - в личке, в форуме. Я большой приверженец работы с ФР. С хорошими исходными файлами он позволяет максимально подготовить текст для экспорта сразу в fb2. Текст во многом писался для друзей, поэтому периодически встречается обращение на "ты". После распознавания сохраните документ ФР. Продолжение: Файл fb2, полученный из FR11
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
NickNem RE:Подайте бедному копеечку на книжку с литреса... 1 день
RAINBOWJOSE RE:Домен и сертификаты 5 дней Саша из Киева RE:Меж двух Америк 6 дней Саша из Киева RE:Красная каска 6 дней Isais RE:Семейственность в литературе 1 неделя sem14 RE:Баг сервиса "Координация сканирования и вычитки" 1 неделя Isais RE:Древний Рим. Подборка книг 2 недели konst1 RE:Сборник - Антология сатиры и юмора России XX века. Том 3. ... 2 недели tvnic RE:Багрепорт - 2 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 3 недели larin RE:не открывается книга 3 недели Саша из Киева RE:Всё - даже свою жизнь! 4 недели sem14 RE:«Блуждающие звезды», серия издательства «Книжники» 1 месяц Саша из Киева RE:Мир на рубеже XXI века. Международная панорама 1 месяц Nicout RE:СПАСТИ FB2 на винте 1 месяц Саша из Киева RE:Америка. Разговор по душам 1 месяц nehug@cheaphub.net RE:Доступ 1 месяц Саша из Киева RE:Помни их имена 1 месяц Впечатления о книгах
lvovich48 про Иванов: Я — матрос «Гангута»! (История, Биографии и Мемуары)
19 09 Такие личности остаются в памяти тех, кто знал и встречался с ними. Время их прошло, но им есть, чем гордиться. Думаю, что эти люди свято верили в то, что делали. В моей детской памяти остались впечатления о встрече с ……… Оценка: хорошо
Kiesza про Поселягин: Целитель [litres] (Фэнтези, Попаданцы)
19 09 Эта серия более-менее просматриваемая за счет неуёмной фантазии и динамики. Логика, как и в других опусах данного автора, отсутствует напрочь; разные МВД/КГБ и другие структуры не более чем детсадовские выпекатели пирамидок ……… Оценка: неплохо
Олег Макаров. про Волшебник
18 09 Обожемой, какой бред. СССР погубили торгаши, которые мешали славным коммунистам строить коммунизм. У автора в голове не каша, а какое-то конфетти
svengali про Книга дебютов
18 09 Совершенно бездарное и безграмотное графоманство. У автора представления о политике и истории как у десятилетнего школьника. Уровень детской литературы для среднего школьного возраста, но автор совершенно не знает русского ………
Barbud про Иванов: Здравствуй, 1984-й [litres] (Попаданцы)
17 09 Начал читать, одолел примерно пятую часть, потом как-то смутно появилось понимание, что это уже мною читано лет пару назад. Настолько незапоминающийся опус, что не сразу его и узнал... Оценка: неплохо
xZiminxx про Евдокимов: Попал так попал. Том 1 [СИ] (Космическая фантастика, Попаданцы, Самиздат, сетевая литература)
17 09 проплаченная гадасть. все враги одна росия правильная страна Оценка: нечитаемо
Lan2292 про Земляной: Кудесник [СИ] (Альтернативная история, Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
16 09 да. сказка. я бы даже сказала мечта и не одного человека, воплощенная на бумаге, класс Оценка: отлично!
pulochka про Ефиминюк: Ускользающий мир (Любовная фантастика)
16 09 Ужасно. От начала до конца. Невнятный ,занудный сюжет. Герои никакие .Порывалась бросить несколько раз. Закончила из чистого упрямства. И конец не порадовал! А ведь многие книги автора стали любимыми! Наверно нужно Марине ……… Оценка: нечитаемо
Лысенко Владимир Андреевич про Земляной: Князь Серединного мира [СИ] (Боевая фантастика, Героическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
15 09 Огромная благодарность за книгу! Жду продолжения серии Страж. Оценка: отлично!
Shelest2000 про Земляной: Синий пепел [СИ] (Постапокалипсис, Самиздат, сетевая литература)
15 09 жмека ,увидишь рядом бусик - беги :)
Sello про Труайя: Екатерина Великая (Историческая проза, Биографии и Мемуары)
15 09 В который раз убеждаюсь в таланте этого писателя, умевшего связывать факты, события и необходимое беллетрическое повествование точными и емкими словами, расписывать их яркими сочными красками. Оценка: отлично!
udrees про Александр: Королева Виктория [La Dernière Reine. Victoria 1819–1901 ru] (История, Биографии и Мемуары)
14 09 Впечатление неоднозначное. С одной стороны подробное изложение ее жизни, с разными подробностями личной жизни. С другой стороны, упор сделан на описание удобств что ли, в карете со сколькими лошадями она ехала, какую шляпку ……… Оценка: плохо |
Комментарии
Отв: Мои алгоритмы работы с FR11
Плюспиццот.
Отв: Мои алгоритмы работы с FR11
А кто-нибудь делал книгу с over4000 сносок? У меня целый день провисел вчера (часов 9, пока свет не отрубили) и fb2 обрывается на 1035-й сноске... Может FR!! больше не может?
Через FBTool извращаться не хочется (да и виснет тоже не слабо)... Может сноски объединить со стилем "основной текст"? А потом руками расставлять(((
Отв: Мои алгоритмы работы с FR11
Ага-ага!!!
Хм... Максимум, что попадалось - девятьсот с копейками, и никаких проблем не было.
Я правильно поняла, вы сноски отдельно от основного текста распознавали?
Отв: Мои алгоритмы работы с FR11
Нет. Просто есть стиль "сноска", есть "основной текст" - думал их слить в один стиль "основной текст"...
Но я только что проблему решил, ура!
Дело в том, что было около 20 стилей "сноска" - я их все слил в один и все выгрузилось в fb2 за 15 мин!
Отв: Мои алгоритмы работы с FR11
Ура! :)
Только проверьте теперь, не потерялась ли курсивность там, где надо.
Отв: Мои алгоритмы работы с FR11
Потерялась, конечно. Но я её всё равно корректирую вручную, типа: (англ.). -> (англ.). Кроме того, сохранилась только половина сносок... По всей видимости те области, где стиль сноска был проставлен руками не сохранились...
Я тут поэкспериментировал и получил такой алгоритм:
- на странице исправляем все сноски на правильные (вместо ' / и тп, ставим 1 2 3)
- распознаём заново область сносок (пометив назначение как "основной текст")
Если текст сам распознался, как сноска, то всё ОК, иначе - менять руками стиль на "сноску" бесполезно, они не ассоциированы останутся с 1 2 3 ... в основном тексте, и не выгрузятся в fb2.
Отв: Мои алгоритмы работы с FR11
Мне этот способ не помогает. Простой заменой ' на 1 - проблему не решишь.
Отв: Мои алгоритмы работы с FR11
Я давно об этом писала. Поэтому и не доверяю ФР расставлять сноски. :(
Отв: Мои алгоритмы работы с FR11
надо же! Как всё просто оказалось)))) С чем вас и поздравляю ;-)
Отв: Мои алгоритмы работы с FR11
Привет всем! А как быть с картинками при прямой передачи из FR-11 в формат fb2?
Дело в том, что FR-11 оформляет изображения так
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>
<p>Пример картинки после экспорта в fb2</p></td></tr>
</table>
Но стоит в FBE -2.6 перейти в просмотр кода FBE 2.6 по неведомым законам "корректирует" приведенный выше фрагмент и превращет его в
<table>
<tr>
<td/>
<image l:href="#image1.jpg"/>
<empty-line/>
</tr>
<tr>
<td/>
<p>Пример картинки после экспорта в fb2в</p>
<empty-line/>
</tr>
</table>
и далее наш любимы FBE сообщает об ошибке - ожидается th или td!!!
Как с этим борется народ:?????
Отв: Мои алгоритмы работы с FR11
Таблицей обрамляет только в ситуации, когда стиль текста "Подпись к картинке" (проверил на тексте с 50 изображ, с произвольно распределенным стилем)
К сожалению, простой заменой стиля на "Основной текст" в FR11, проблема не лечится. Видимо создаётся какая-то доп. связь между картинкой и текстом стиля "Подпись к картинке"
Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...
Отв: Мои алгоритмы работы с FR11
Я такой закономерности не проследила, но очень может быть. Обязательно в следующий раз проверю. Спасибо. :)
Можно попробовать не заменять стиль "Подпись картинки", а объединить со стилем "Основной текст" в пользу последнего.
Отв: Мои алгоритмы работы с FR11
Я делал и так, и так - не помогает...
более того, если "схитрить": распознать сначала только текст на странице, атолько потом выделить области картинок, то текст так и остается "основным текстом", но при сохранении картинки "цепляются" к тексту((( Выгружается таблицей...
Кстати, если текст под картинкой пометить, как таблицу, то таблицей выгрузится только текст, картинки в таблицу не включаются))) Тоже вариант - меньше удалять тэгов...
Отв: Мои алгоритмы работы с FR11
Я в следующий раз при наличии стиля "подпись к картинке" попробую поэкспериментировать. Может, что-то получится. Во всяком случае, Ваше наблюдение, что это коррелируется с этим стилем, очень интересно.
Ну, я там выше дала регэксп массовой замены. Ему-то всё равно, сколько тэгов. ;)
Отв: Мои алгоритмы работы с FR11
Это на случай, если в книге есть и настоящие таблицы (причем не собранные в одном месте, а вперемешку с картинками)
Отв: Мои алгоритмы работы с FR11
Wotti написал регэксп для удаления всех элементов таблицы:
(</table>)|(<table>|<td/>|<td/>|</tr>|<tr>|<th/>)
заменить на "ничего".
Делается в режиме Source. Не забудьте отметить "регулярное выражение".
Отв: Мои алгоритмы работы с FR11
<table>
<tr><td><image l:href="#image1.jpg"/></td>
</tr>
<tr><td>Пример картинки после экспорта в fb2</td></tr>
</table>
Но, конечно, всё равно маразм. Надо написать на форуме FR, а то вдруг они не знают?
Можно сделать макрос для AkelPad и запускать AkelPad с макросом до запуска FBE.
Отв: Мои алгоритмы работы с FR11
Отв: Мои алгоритмы работы с FR11
[quote Vadi ]Можно тупо удалить все табличные теги из fb2, если, конечно, в книге нет нормальных таблиц...
Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!
Отв: Мои алгоритмы работы с FR11
Я то же экспериментировал, но FR-11 упорно создаёт именно картинки в таблицах!
Для книг с иллюстрациями это становится мучительно! Тем более трудно придумать хорошую замену разом всё меняющую!
Поэтому - если много иллюстраций, то удобнее обычным путём через doc!
Попробуйте всё же поэкспериментировать со стилями. Если дело действительно в стиле "подпись к картинке" (что звучит очень правдоподобно), то задача решаема.
Отв: Мои алгоритмы работы с FR11
Подскажте. Вопрос по пользовательским словарям в FR. Задача следующая - нет определенного языка для распознавания - но это не проблема, все настраивается элементарно. Но нет и словаря для данного языка. Что очень и очень сказывается на распознавании, особенно в плане переносов слов... Значит создаем пользовательский словарь... Для старта 85 тыс. слов, но в пользовательском словаре, судя по всему, существует ограничение по размеру!?. Пришлось сделать 14 пользовательских словариков - дабы впихнуть в них, по частям, весь этот словарь... Иметь 14 пользовательских словарей очень неудобно - FR начинает конкретно подтормаживать... Кто сталкивался? Как эту массу слов слить в один пользовательский словарь? (FR9.0 Pro)
Отв: Мои алгоритмы работы с FR11
К сожалению, у меня нет ответа на Ваш вопрос. Словари для языков, которыми я пользуюсь, встроены по умолчанию.
Но наверняка найдётся кто-то, кто владеет этим вопросом. :)
Отв: Мои алгоритмы работы с FR11
А вот я столкнулся с такой проблемой - не открывается документ ридера. До этого корректно сохранил документ и закрыл программу.
Отв: Мои алгоритмы работы с FR11
А что пишет, почему не открывает?
Отв: Мои алгоритмы работы с FR11
А у Вас не портабл?
Отв: Мои алгоритмы работы с FR11
Нет, вроде.
Отв: Мои алгоритмы работы с FR11
Открылся, но странно, почему до этого не получалось.
Было
Отв: Мои алгоритмы работы с FR11
Тоже была разок такая же бяка. И тоже само рассосалось, так и не понял, чё оно вылезало.
Отв: Мои алгоритмы работы с FR11
Интересно, что после первой неудачной попытки открытия файла он пропадал из списка последних открытых.
Отв: Мои алгоритмы работы с FR11
Ну тут оно фиг с ним, попугало маленько и всё. Я два раза сталкивался с настоящей неприятностью. Дома стоит полный (ломаный правда) файнридер, на работе портабельным пользуюсь. Иногда недоделанную книжку таскаю туда-сюда на флешке в виде проекта. И столкнулся, что домашнему иногда не нравится проект, редактированный на работе (FR-11, сборки разные только и разрядность систем). Открывается и редактируется нормально, но при попытке сохранения или передачи текста ругается на некоторые страницы (не помню уже, как именно) и они остаются вроде как нераспознанные, хотя до этого были. Первый раз таких всего десятка два было, поэтому просто удалил их из проекта, заново вставил и распознал. А вот второй раз... Сотни полторы разворотов, разбросанные по 1000-страничной книге, уже вычищенные, блин, похерились. Ладно додумался на след. день опять на работу отнести и там уже закончить. Во радости-то было, что спасти удалось. :))
Это я к тому всё, что лучше без нужды не таскать проект с компа на комп, ну или хотя бы чтоб сборки FR на них были одинаковые.
Отв: Мои алгоритмы работы с FR11
У меня такое изредка бывает в одной и той же программе. Распознайте их просто ещё раз.
Если появляется сообщение о "внутренней ошибке", сдвиньте слегка границу любой области. Если область не приходится изменять, внесённые изменения при повторном распознавании уже будут учтены.
Отв: Мои алгоритмы работы с FR11
Во, именно про "внутреннюю ошибку" и было. Повторно-то оно распознавалось, но при сохранении опять ломалось. Вот области подвигать не дотумкал. Зарубочку сделал, спасибо. :))
Отв: Мои алгоритмы работы с FR11
Помогите вот с такой проблемой. Распознаю книгу в FR11, и он ругается на каждое длинное тире - uncertain character.
Как от этого избавиться?
Отв: Мои алгоритмы работы с FR11
В смысле - выделяет как неуверенно распознанный элемент? Если да, то игнорировать.
Если Вы имеете в виду что-то другое, уточните.
Отв: Мои алгоритмы работы с FR11
Да, как неуверенно распознанный. Я конечно игнорирую, но их там по 20 на странице.
Неужели нельзя его как-то добавить в список нормальных символов?
Я редко FR использую, таких тонкостей не знаю.
Отв: Мои алгоритмы работы с FR11
Теоретически можно, но нужно потратить время на "обучение" ФР и создание пользовательского эталона, а потом распознать ещё раз - уже с этим эталоном.
Овчинка выделки не стоит, на мой взгляд.
Отв: Мои алгоритмы работы с FR11
А если в словарь такие тире добавить?
Тогда просто перераспознать и все.
Отв: Мои алгоритмы работы с FR11
Вряд ли. Так выделяются и известные ФР слова. Просто конкретно в этом проекте тире "путается" с каким-то другим знаком. А может, оно просто слишком тонкое. Значит, нужно "научить" ФР, что это - тире.
Но для интереса можно попробовать. Если сделаешь, напиши, пожалуйста, чтó получилось.
Отв: Мои алгоритмы работы с FR11
Это надо, чтобы medved кусок скана выложил. А иначе как проверить?
У меня с тире проблем ни разу не было. В словарь оно добавляется без проблем, но надо проверять результат на конкретном скане.
Отв: Мои алгоритмы работы с FR11
Ну, при случае. ;)
Бывают такие сканы, где все длинные тире "бирюзовые". Я тоже при случае проверю твою идею.
update:
Случай нашёлся на следующей странице. ;)
Добавила вручную
<— >
(с табулятором) и<—>
. Перераспознала страницу:Отв: Мои алгоритмы работы с FR11
Что забавно, распознал твой скриншот без проблем с тире )
Отв: Мои алгоритмы работы с FR11
Зато с кучей других "неуверенно распознанных символов" и с ошибкой OCR. :-Р
Кстати, на следующей странице слово "ГЛАВА" было полностью бирюзовым. Хоть в словаре, как ты понимаешь, оно есть. Так что дело не в этом.
Отв: Мои алгоритмы работы с FR11
Дык, я не вычитывал же, просто проверить хотел что с тире )
Ты бы пару страничек выложила в нормальном размере, с тире и "главой" интересно уже посмотреть, как у меня распознается )
Отв: Мои алгоритмы работы с FR11
Нет, я не про сами ошибки, а про распознавание. ;)
Держи: http://yadi.sk/d/VrGdUVZ04J3s7
Здесь 2 страницы. Ошибок OCR не было.
Выглядит так:
Отв: Мои алгоритмы работы с FR11
Сделал в 8 Файнридере и в 11.
Ошибок нет нигде, но восьмерка нормально воспринимает тире.
В 11 добавил скопировал тире в словарь - не помогло.
"Глава" в обеих версиях неуверенно распознанным выделена.
Отв: Мои алгоритмы работы с FR11
Вот пара страниц для примера:
http://rghost.net/45520322
Отв: Мои алгоритмы работы с FR11
Никаких проблем с распознаванием, в том числе, с тире (Файнридер 8 версии)
Отв: Мои алгоритмы работы с FR11
Если вспомнить что тире бывают en dash и em dash, от длины N и M, а эти длинные тире в тексте даже превышают em dash, то у FR11 едет крыша. FR8 более устойчив к косякам. Либо плюнуть, либо обучать по эталону, что длиииинное тире в тексте на самом деле будет em dash.
Отв: Мои алгоритмы работы с FR11
Да, FR8 как-то лучше справляется с тире, чем 11 версия.
Отв: Мои алгоритмы работы с FR11
Давно уже вычитываю с включенными непечатными символами. Привыкаешь к ним быстро. Разрывы в словах, неверная разбивка по абзацам после точки... это все легко отслеживается...
Страницы