Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Paul von Sokolovski RE:На 78-м году жизни скончался советский и российский... 8 часов
Paul von Sokolovski RE:Бушков умер. 8 часов нэнси RE:Подайте бедному копеечку на книжку с литреса... 1 день lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 день Larisa_F RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 дня mig2009 RE:Багрепорт - 2 4 дня Isais RE:Издательство "Медуза" 5 дней babajga RE:Народные сказки - Сказки народов Сибири = Fairy-Tales of... 2 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели sibkron RE:Серия "Библиотека французской литературы" (Макбел) 2 недели Isais RE:Игорь Северянин - Том 2. Поэзоантракт 3 недели sem14 RE:Современная корейская литература. Книжная серия... 3 недели sem14 RE:Семейственность в литературе 3 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц Саша из Киева RE:Подводное течение 1 месяц konst1 RE:Переименовать ник (имя учетки) 1 месяц Larisa_F RE:Таррин Фишер 2 месяца Aleks_Sim RE:Беженцы с Флибусты 2 месяца Впечатления о книгах
Олег Макаров. про Путилов: Опасные манипуляции [СИ] (Детективная фантастика, Городское фэнтези, Самиздат, сетевая литература)
23 10 Мастерское затягивание текста. Ничего не происходит, но вот-вот произойдет. 5,66% и я сломался. Так писать нельзя Оценка: нечитаемо
дядя_Андрей про Каратист
23 10 Какие-то однообразно у ГГ всё получается. Что в каратэ, что с девушками. И, на мой взгляд, произведение излишне перегружено специфической терминологией. Ладно, мне она знакома, а вот неподготовленный читатель может и завязнуть.
Анни-Мари про Панарин: Эволюционер из трущоб (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
21 10 Мдя. Я все понимаю, взрослое сознание в теле младенца и вот это все, но физиологию куда дели?! Младенец, которому нет еще месяца, умудряется встать на ноги и стоять! О_о Автор детей новорожденных видел хоть раз? Хотя бы на картинке?
mysevra про Стругацкие: Обитаемый остров (Вариант 1971 года) (Космическая фантастика)
20 10 Одновременно и восхитительно, и запредельно бесчеловечно. Пробирает. Великолепная книга, которая читается взахлёб. Оценка: отлично!
mysevra про Дочинец: Многії літа. Благії літа [uk] (Современная проза)
20 10 Так гарно, душевно та мудро. Доки не згадується втеча, описана у інший книзі – «В’язень замку Паланок». Тоді вже всі слова автора сприймаються як лицемірство. Оценка: неплохо
mysevra про Лазарев: Кочевница (Боевая фантастика)
20 10 Мир далёк от канона, и события не такие уж яркие. Опять же, текст не правлен стилистически - тавтология почти на каждой странице. В принципе, история хороша, изложить бы её красиво. Продолжение читать желания нет, но отдельное «спасибо» за идею. Оценка: хорошо
mig2009 про Мур: Дурак [Fool ru] (Юмористическая проза)
20 10 Этакая интерпретация-пародия-видение автора (шута) на известную трагедию. Корделию он не умертвил, а так, в целом все по канве. Зашел глянуть, не появилась ли третья книга (в смысле перевод) из цикла, в 2020 издана, Shakespeare for Squirrels. Ан нет( Оценка: хорошо
Stager про Бохэннон: ЕВА. История эволюции женского тела. История человечества [litres] (История, Биология, Научпоп)
20 10 Почему американцы такие тупые? Оценка: нечитаемо
Oleg68 про Кобен: Скованные одной цепью [Live Wire ru] (Крутой детектив)
19 10 Как всегда-отлично. Это последняя книга в серии о Майроне Болитаре? Оценка: отлично!
Олег Макаров. про Путилов: Постовой [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
18 10 Феерически безграмотный текст. Просто невозможно читать Оценка: нечитаемо
lukyanelena про Сергей Васильевич Лукьяненко
18 10 Фантастический писатель Лукьяненко. Вроде и книги пишет с моралью, и метания главного героя всегда правильные высокоморальные... но как же бесит этот русский шовинизм, лезущий из всех щелей, просто ужас. И Украину обязательно ………
mixentiy про Ильичев: Ворожей Горин: зов крови [СИ] (Городское фэнтези, Мистика, Самиздат, сетевая литература)
18 10 Многословно. Тот случай, когда диалоги и размышлизмы должны быть проще. Забавненько. Немного утомляют медицинские познания автора, вываливаемые на читателя к месту и совсем не. Но "специалист подобен флюсу" - суть ……… |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Не понимаю, зачем нужно останавливаться на каждом тире. Есть ведь отдельный скрипт "Дефис-тире".
Отв: Типичные ошибки распознавания - собираем статистику ...
TaKir
Не пойму, почему эта строчка находит ёлочки в начале строки? Их вроде нет в перечислении элементов в элементов
addRegExp("^[\].,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");
Добавил в поиск "мусора" ®°™εє
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, там забавный глюк... Это из-за дефиса. Если его перенести в начало или убрать вообще, то не ловит елочки в начале строки )
addRegExp("^[-\\].,:;!»\\?·)(]","","Найдено:знаки препинания в начале строки");
Отв: Типичные ошибки распознавания - собираем статистику ...
Понял. Прикольно. )))
Отв: Типичные ошибки распознавания - собираем статистику ...
Присоединяюсь к данной просьбе. Установил вариант, предложенный shokons и уже опробовал. Чудная вещь.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот мой вариант на сегодня:
http://narod.ru/disk/4216311001/search_with_regexp_TaKir_24_01_2011.rar.html
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо! :)
Отв: Типичные ошибки распознавания - собираем статистику ...
Уже опробовал. В файле, проверенном ранее скриптом shokons, выявлено ещё несколько (3) неточностей. Спасибо всем!
Отв: Типичные ошибки распознавания - собираем статистику ...
А какие именно, не могли бы подсказать? ))
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. А для какой версии FBE этот скрипт подходит? В 2.4 будет корректно работать?
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, должен работать... Только может (имхо) не отображаться статус найденной ошибки
Отв: Типичные ошибки распознавания - собираем статистику ...
Ради интереса попробовал на версии 2.0 BETA от 2008 года. Скрипт и там работает. Точнее, плюхи находит, но сообщение в строке статуса не пишет.
Отв: Типичные ошибки распознавания - собираем статистику ...
Да, возможность скриптам менять текст строки статуса SeNS добавил (специально для сабжевого скрипта) в какой-то из последних версий FBE, то ли 2.5, то ли 2.6.
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо, TaKir!
Отв: Типичные ошибки распознавания - собираем статистику ...
Помню два: вместо союза(?) и было п; отсутствие пробела перед тире. Хочу отметить, что я правил без очков и вполне возможно, что просто проглядел.
Отв: Типичные ошибки распознавания - собираем статистику ...
Проверил.
"П" вместо "и" находится нормально (так же, как и другие "отдельные буквы в пробелах")
Прилипшее тире - если это был примерно такой текст
То таки да - я такое не ищу, а меняю массово регеспом, который писал выше.
Меняет на такое:
То-есть вставляет пробел между последней буквой и тире
Так, что наверное вы просто ошиблись ))
Отв: Типичные ошибки распознавания - собираем статистику ...
Скорее всего.
Сейчас смотрю стихи. Есть одно неудобство: обращает внимание на запятую в конце строки (новая строка с большой буквы). Было бы замечательно это неудобство ликвидировать. А в целом я очень доволен тем, что есть в настоящее время. Спасибо.
Отв: Типичные ошибки распознавания - собираем статистику ...
Я очень прошу прощения за оффтоп, но не скажет ли мне кто из уже установивших версию 2.6 - убивает ли FBE этой версии стили при копипасте из Ворда? 2.5 не убивал, поэтому я его и не ставила. Но вот скрипт TaKir-а явно удобнее юзать в новых версиях. Может, хоть в 2.6-м можно грохнуть стили, прилезающие из FR?
Отв: Типичные ошибки распознавания - собираем статистику ...
Только что специально попробовала. Нет, при копипасте все стили сохранились в FBE. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
А о чем конкретно речь?
Можно пример привести? Сорцы там или скриншот из боди?
Отв: Типичные ошибки распознавания - собираем статистику ...
< p>< style name="a0">Да, она была умна. В первом же стихотворении, с которым она меня познакомила, «Балладе о ночных часах» ван Вейка Лау, идет речь о нескольких часах безумной, пьяной страсти во всех подробностях — и эротичных, и печальных. А в конце наступает рассвет; герой встречает утро со стаканом в руке. Для него наступает «час темной жажды». После очередного соития я лежал на ней, усталый, опустошенный, а она шептала мне на ухо стихи — так тихо, что приходилось напрягать слух. А когда я наконец услышал, для меня открылся другой мир, слова приобрели смысл. Наверное, тогда я в первый раз понял, что такое настоящее искусство.< /style>< /p>< p>< style name="a0">Бетта объяснила, что в сексе всегда так: посткоитальная депрессия — проклятие мужчин. Она привела в пример французов, которые называют оргазм «маленькой смертью», но пояснила, что секс с любимым человеком — всегда исключение из общего правила. Секс с любимым человеком сродни исцелению от всех недугов. Ее слова произвели на меня неизгладимое впечатление. Они служили мне путеводным огнем в поисках единственной великой любви, предзнаменованием и предвкушением которой были отношения моих родителей, а потом и рассуждения Бетты Вандраг. Мне казалось, что жизнь обязательно должна подарить мне такую любовь.< /style></p>
Это ещё приличный вид. Бывает внутри строки стиль меняется. :(
Бывает только при копипасте.
Отв: Типичные ошибки распознавания - собираем статистику ...
Действительно, штука неудобная и явно лишняя. Я избавляюсь путем замены. Выделяю тег "style" - заменяю на ничего.
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Сейчас вдруг вспомнил, что как-то уже сталкивался с такой проблемой. Тогда решение оказалось очень простым: в Ворде выделил все, назначил шрифт Таймс Нью Роман, 12. Изменился только шрифт, все остальное в тексте сохранилось, и болды, и курсивы. Перенес в ФБЕ, стили не перетащились.
Отв: Типичные ошибки распознавания - собираем статистику ...
Чё-то у меня не получилось. Всё равно остались стили. Правда, меньше стало.
Отв: Типичные ошибки распознавания - собираем статистику ...
И у меня остались - меньше, но все равно куча. Даже если все в стиль "обычный текст" перевести с сохранением курсива и болда, все равно эти проклятые разные стили откуда-то вылезают, РАО их побери! ((((
Отв: Типичные ошибки распознавания - собираем статистику ...
Было давно, на тулзах или первой двойке. Не выложите где-нибудь исходники, потестиовать бы?
Кстати, раз были версии ФБЕ не подхватывающие стили, то стоит дать знать Сенсу, может прикрутит опцию Отключить перенос стилей
UPD
Оставил сообщение в Группе.
Отв: Типичные ошибки распознавания - собираем статистику ...
Какие исходники? Дока после ФР?
Отв: Типичные ошибки распознавания - собираем статистику ...
его самого, если сохранились, конечно.
Отв: Типичные ошибки распознавания - собираем статистику ...
Угу. Я как раз пробовала на небольшом файле.
Вот он - сразу после ФР. После замены на единый шрифт и копипаста в ФБЕ осталось 2 или 3 стиля.
http://www.multiupload.com/TPF5MG47VW
Отв: Типичные ошибки распознавания - собираем статистику ...
Спасибо. Скачал и пробовал, и пробовал - ничего хорошего. Отвлекся потроллить на флибусте, вернулся, открыл Test.doc WordPad-ом, сохранил как Test0.doc, новый документ открыл обычным Вордом, выделил, перетащил в ФБЕ - стилей нет, ни одного! Лекарство - WordPad
Отв: Типичные ошибки распознавания - собираем статистику ...
Можно и не пересохранять обратно в Word, а так из WordPad-а и перетаскивать в FBE.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ой-ей, чуть не забыл: в WordPad-е выделил все и назначил размер шрифта 12, на всякий случай, ФБЕ такой размер нравится.
Отв: Типичные ошибки распознавания - собираем статистику ...
Я ничего не менял, какой был размер шрифта, такой и оставил. Ненавистные "стили" не перенеслись.
Отв: Типичные ошибки распознавания - собираем статистику ...
Ничего не скажу. Молчать буду молча. Ожидая вечера и глядя на бутылку коньяка, а там пять звезд - в каком же он звании?
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет, там с абзацами не всё в порядке получается.
А при копировании из Ворда после предварительных танцев с бубном - хорошо. Спасибо, sd!
Отв: Типичные ошибки распознавания - собираем статистику ...
Точно! Помогает.
Сам раньше вставлял прямо из WordPad-а, но заметил не хорошую тенденцию - стилей нет - хорошо, но пропали пустые строки в тексте - очень плохо.
TaKir - отличный скрипт! Вот в копилку: ои -> он го -> по или то нот -> пот И такой вопрос - была книга, где дефис не распознался, имеет ли смысл в добавлении: гдето -> где-то какогото -> какого-то изза -> из-за какойто -> какой-то чтото -> что-то... Скрипт слипшихся слов - игнорирует эти ошибки...
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня 2.4, на нем отлично скрипт юзается. Зачем мне отдельная табличка с тем, что именно и в каком количестве скрипт нашел? Курсор ставится туда, где подозрение на косяк, можно сразу править, можно идти дальше.
Типа только ради общего отчета табличка? Не понимаю, в чем плюс более поздней версии ФБЕ, если речь именно о данном скрипте Sclex-a (а не моем).
Отв: Типичные ошибки распознавания - собираем статистику ...
Может кому потребуется:
addRegExp("^[a-zа-яё\d]","","Найдено:маленькие буквы, цифры в начале строки","-stanza -poem");
Находит строки, начинающиеся с маленькой буквы или цифры, кроме стихов.
Объясню- зачем добавил эту строку. ФР часто определяет цифры, как список и doc2fb их съедает. Остаётся начало строки в примерно таком виде: июня началось наводнение
Попробую
Посмотел - там вроде стоит ограничение на стихи, но попробую у себя воспроизвести и отпишусь потом
Посмотрел - у меня стихи пропускает, да и в строчке скрипта это отражено
-title -subtitle -stanza -poem");
А стихи у вас уже выделены тегами stanza -poem ? Если ещё не выделены, тогда правильно всё - будет спотыкаться о запятые.
Отв: Типичные ошибки распознавания - собираем статистику ...
Большое спасибо TaKir!
Отловились шесть ошибок OCR, не найденных иными всякими проверками. (FBE 2.4) Только не всегда понятно, что скрипту не нравится - то ли он нашел латиницу в кириллице, то ли просто буквосочетание подозрительное. Но это мелочь, на самом-то деле. Спасибо еще раз.
Отв: Типичные ошибки распознавания - собираем статистику ...
Вот для этого-то и служит сообщение в строке статуса: пишет каждый раз, что́ именно найдено. Так гораздо удобнее.
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня кроме TM именно trade mark) ещё постоянное превращение
Исходное 13.1 .1980 распознано как 13ЛЛ980. то есть .1.1 превращается в ЛЛ
Отв: Типичные ошибки распознавания - собираем статистику ...
По ТМ (trade mark) я уже писал:
Откройте скрипт блокнотом, найдите строку с комментом -----Найдено:мусор после скана------
И замените её на эту
addRegExp("[/\\>|'<{_×}^~›@$&•■♦•·®°™©εβє]","","Найдено:мусор после скана");
Здесь я добавил элементы ®°™©εβє Можете добавить ещё какие считаете нужным (без пробелов, запятых)
Насчёт цифр - попробуйте на проблемной странице книги в ФР включить режим РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ.
Имхо легче один раз Фаню натаскать, чем постоянно искать огрехи.
Отв: Типичные ошибки распознавания - собираем статистику ...
Знак препинания и после него тире без пробела (обычного или неразрывного).
Пробел перед знаком препинания.
[\.:\?…][^А-Яа-я]*[а-я] - строчная буква в начале предложения.
Отв: Типичные ошибки распознавания - собираем статистику ...
Тигра, такое впечатление, что ты актуальными скриптами совсем не пользуешься. :(
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Твои варианты лечатся банальной генуборкой и данным скриптом.
Отв: Типичные ошибки распознавания - собираем статистику ...
Кстати, "[,:;][^А-Яа-я]*[А-Я]" - эти тоже не берёт.
Отв: Типичные ошибки распознавания - собираем статистику ...
Юзай массовую замену "дефис+пробел" на "дефис" перед ГУ. Потом пройдись скриптом "Слова".
Отв: Типичные ошибки распознавания - собираем статистику ...
Но скрипты-то можно поставить. Думаю, они все должны работать и под 2.4.
http://scripts.fictionbook.org/
Страницы