Вы здесьТипичные ошибки распознавания - собираем статистику для скрипта ФБЕ
Опубликовано чт, 06/01/2011 - 11:12 пользователем TaKir
Собираю статистику по наиболее частым типичным ошибкам распознавания для включения их в скрипт ФБЕ: Варианты: Прошу участвовать всех желающих. Дополненный список я хочу включить в недавно обновленный скрипт "Поиск по набору регэкспов", автор Sclex (http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384), работающий под ФБЕ. Сейчас данный скрипт у меня ищет: Использование этого скрипта заметно сокращает время работы над книгой в ФБЕ.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
kopak RE:О группе Дятлова. О той самой, того самого... 2 часа
Леди Стервa RE:Подайте бедному копеечку на книжку с литреса... 12 часов ProstoTac RE:Таинственная личность админа Флибусты 22 часа Isais RE:Кармен Мола - Пурпурная сеть [litres] 2 дня Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 дня Isais RE:Катя Водянова - Дом и два жениха в придачу 1 неделя Aleks_Sim RE:Прошу переформатировать, распознать, etc... 1 неделя Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 2 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 2 недели Саша из Киева RE:Детям о Ленине (Издание 1965 года) 3 недели Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 3 недели babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц zlyaka RE:С Новым годом! 1 месяц SparkySpirit RE:Жорж Санд - переводы 19 века 1 месяц Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Впечатления о книгах
Синявский про Поль-Лу Сулитцер
07 02 Скандальный французский писатель и сценарист Поль-Лу Сулицер скончался 6 февраля в возрасте 78 лет на острове Маврикий, информирует IMDb. Причиной смерти писателя стал инсульт.
Belomor.canal про Лубникова: От Рафаэля до Кавалера д’Арпино. Устройство римских живописных мастерских XVI века (История, Искусство и Дизайн, Искусствоведение)
07 02 Многие думают, что фрески Рафаэля — это всё он сам нарисовал. А вот и нет! На самом деле, их делали подмастерья в его мастерской. Они делали всё: от начала и до конца! Интересно, как были устроены эти «фабрики живописи»? ……… Оценка: отлично!
mysevra про Пауэлл: Магия тёмная и загадочная [litres] (Фэнтези, Городское фэнтези)
07 02 Поступки главной героини удивляют своей железбетонной глупостью, непорядочностью и самоуверенностью. Грустно, девицы. Оценка: плохо
mysevra про Чайлд: Лед-15 [Terminal Freeze ru] (Научная фантастика, Триллер)
07 02 Понравилось: бодренько и без личной драмы, так популярной ныне. За тех, кто ехал по льду, переживала больше, чем за тех, кто бегал по базе. Финальное предположение, что же это было, добавило каплю милоты. Оценка: хорошо
decim про Слободчиков: Облака над Суренью (Советская классическая проза)
07 02 Вот этим вот примерно до 1987 были забиты полки книжных магазинов. Жаль варварски вырубленных на целлюлозу ёлок, жаль ненужных усилий автора - честного лесника, зачем-то подавшегося в литературу. Нечитаемо. Оценка: нечитаемо
Kiesza про Лиманов: Пять лет спустя, или Вторая любовь д'Артаньяна [СИ] (Исторические приключения, Фанфик)
06 02 Не Дюма. Изложение скучноватое, неспешное. Кардинал мелочен, Рошфор глуп, д`Артаньян задрот. Оценка: плохо
sicomd про Никонов: От Второй мировой к холодной войне. Немыслимое (История, Публицистика)
06 02 Почему так корежит некоторых …. Когда речь заходит о СССР — только поэтому читать стоит!
Oleg68 про Куанг: Опиумная война [The Poppy War ru] (Фэнтези)
05 02 Очень понравилась книга. Необычно. Нравится слог автора. Оценка: отлично!
decim про Светлана Сергеевна Тюльбашева
05 02 Столкновение орков и вампирш, посвящённых 2-3 поколения назад и не осознающих своё вампирство. А кто другой может прошляться пол-лета по болотам, питаясь одной черникой и не быть съеденными комарами, когда кончится репеллент(столичным ………
Skyns71 про Олшейкер: Психологический портрет убийцы. Методики ФБР (Психология, Юриспруденция)
04 02 ...автор почётный поциент клиники Somerville Asylum в Бельмонте, опус - много слов поциента ни о чём". Уважаемый 187 - вы книгу-то читали? А хотя бы статью в Википедии про автора? Не стыдно нести чушь?
Barbud про Шалашов: Господин следователь 4 [СИ] (Альтернативная история, Исторический детектив, Попаданцы, Самиздат, сетевая литература)
04 02 Читать можно. Повествование идет неторопливо и размеренно, в тексте много всяких бытовых подробностей - особенностей топки печей, пользования самоваром, найма прислуги, обращения с ней и т.д и т.п. ГГ ходит на службу, вкусно ……… Оценка: хорошо
virtcatty про Никонов: От Второй мировой к холодной войне. Немыслимое (История, Публицистика)
03 02 Для тех кто комментировал ранее. План "Немыслимое" всё-таки был. И холодная война была, и как всегда виновата РОССИЯ! |
Комментарии
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
У меня на памяти только 3 часто встречающихся варианта с "ф":
фоб -гроб
неф - негр
фаната - граната
Отв: Типичные ошибки распознавания - собираем статистику ...
фазу - сразу
Отв: Типичные ошибки распознавания - собираем статистику ...
А если рядом получаются Ь или Ы и любая специфическая буква кириллицы - то тоже крах. : типа -ьф, -шь, -ьш, итд..
Отв: Типичные ошибки распознавания - собираем статистику ...
угу, бьш и бьша у меня просто фавориты из последнего скана.... (был и была)
Отв: Типичные ошибки распознавания - собираем статистику ...
Самая безнадега в распознавании дореформенной орфографии. А Файны всё хвалятся...
Отв: Типичные ошибки распознавания - собираем статистику ...
Как раз сейчас делаю книжку с дореформенной орфографией. Ошибок не больше, чем при обычном скане. Все ошибки типичны и исправляются обычным "Изменить на...".
Отв: Типичные ошибки распознавания - собираем статистику ...
Вам повезло.
Отв: Типичные ошибки распознавания - собираем статистику ...
Не сказал бы, что все так страшно. Дореформенные книги FR9 распознаются вполне на уровне. Яти, фиты, еры и прочее распознаются на ура.
С дореформенными сложность скорее возникает в правке орфографии. Впрочем от скрипта чистящего старую орфографию я бы тоже не отказался бы.)
Отв: Типичные ошибки распознавания - собираем статистику ...
Скрипту совершенно по барабану правила любого языка. Что напишут - то и будет искать
Так что набрасывайте примеров косяков из старой орфографии и пользуйтесь )
Отв: Типичные ошибки распознавания - собираем статистику ...
есть такакая прога ocr pad
статистика там большая вроде
но как её взять не знаю
Отв: Типичные ошибки распознавания - собираем статистику ...
. 1/1 -> . И
Отв: Типичные ошибки распознавания - собираем статистику ...
пропустил своп, (хотя это свои) пропустил па (на) , пропустил слово просплп ( просили)
малень– кой ( маленькой) Поляиовке ( Поляновке ) Дем?нтий (Дементий) M це иске ( Mценске ) поляновски? (поляновские) до– черьми (дочерьми) Лйя (Лия) втот (этот) втот (этот) ваписка (записка) втот (этот) стоа (стон ) Ht (ж) їдейственная (единственная) обрывкн (обрывки) маркиэка (маркизка)
Отв: Типичные ошибки распознавания - собираем статистику ...
В каждой книжке есть свои заморочки.
"Малень- кой", "до- черьми" - не распознан знак переноса.
"Дем?нтий" - скорей всего буква вместо вопросительного знака стояла под ударением.
Надо ли всё это включать в общий скрипт?
Отв: Типичные ошибки распознавания - собираем статистику ...
Стоит включить "- ".
"?" в середине слова ловится "слипшимися словами".
Отв: Типичные ошибки распознавания - собираем статистику ...
"- " вроде тоже ловится "слипшимися словами".
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Часто встречаю: "ведено" вместо "велено", "юнкере" вместо "юнкерс" (второй, вероятно, родственник "Тайме").
Отв: Типичные ошибки распознавания - собираем статистику ...
Внесены добавки в скрипт, согласно многим вашим комментам...
На всякий случай уточняю, что скрипт только ищет подозрительные места, и ничего автоматом не заменяет, во избежание...
Любую строчку можно поправить или отключить, (стерев полностью или закомментировав ее с помощью // )
Не получается запостить корректно все строки скрипта, поэтому просто дам ссылку на обновленную версию:
http://narod.ru/disk/3209760001/Poisk_po_naboru_regexpov_TaKir_2_6.rar.html
Если какие-то еще явные косяки кто вспомнит-придумает - прошу отзываться.
Также прошу комментировать неправильную работу поиска, если такая проявится.
Отв: Типичные ошибки распознавания - собираем статистику ...
Сегодня опять "дошлифовала" твоим скриптом новый файл. И это снова повод сказать - огромное спасибо.
Твой скрипт вошёл в число обязательных.
Отв: Типичные ошибки распознавания - собираем статистику ...
Присоединяюсь. Прицепил этот скрипт на F4. Теперь это одна из «любимых» клавиш.
Отв: Типичные ошибки распознавания - собираем статистику ...
Решил попробовать...
Сразу же несколько вопросов:
Скрипт действует только до первого сомнительного места? Чтобы продолжать, его надо снова включать?
Застрял на слове "хозяин". Сочетание "яи" оказалось слишком частым, и меня это стало раздражать.
Почему-то скрипт останавливается на кавычках - «. Они что, тоже записаны в сомнительные символы?
Частица "б" в текстах используется часто. Надо ли ее включать в скрипт?
А вот что еще можно включить, так это однобуквенные предлоги и частицы с последующей запятой, типа: "в," "б," "о,".
Отв: Типичные ошибки распознавания - собираем статистику ...
Тоже показывает только «, яи и ). Щелкаю минут пять уже и ничего пока другого. :)
Чуть позже:
Находит, кое что, все-таки. Можно пользоваться.:)
Отв: Типичные ошибки распознавания - собираем статистику ...
Я пользуюсь предыдущей версией. Никаких "яи" и прочего упомянутого не заметила.
Может, дело в этом?
Отв: Типичные ошибки распознавания - собираем статистику ...
Согласен, остановки на словах типа «хозяин» несколько раздражают, но никто ведь не мешает убрать из скрипта соответствующую строчку.
А вот если бы он еще и обучался по ходу дела, вообще бы цены не было.
Отв: Типичные ошибки распознавания - собираем статистику ...
В скрипте надо поправить соответствующие строки:
1) чтобы не искало кавычку в начале строки, строку:
addRegExp("^[\]».,:;!\?-·)(\"]","","Найдено:знаки препинания в начале строки");
заменить на:
addRegExp("^[-\\]».,:;!\?·)(]","","Найдено:знаки препинания в начале строки");
2) поправить "хозяина", чтобы не мешал ))
tagRegExp("(яи)[а-м,о-я]","i","Найдено: часть слова \"яи\" (\"ян\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
Чтобы не экранировать кавычки (т.е. не ставить рядом с ними слэш), можно снаружи аргумента функции написать одинарные кавычки:
tagRegExp("(?<![а-яё])ке(?![а-яё])","i",'Найдено: слово "ке" ("не" с опечаткой).');
Так исходник скрипта, наверное, будет читаться приятней.
Отв: Типичные ошибки распознавания - собираем статистику ...
Sclex:
Ага, спасибо!
А как все же задать начало или конец слова при поиске в ФБЕ?
стандартные варианты типа >, <, \b что-то не хотят у меня работать...
Отв: Типичные ошибки распознавания - собираем статистику ...
\b работает, но только для английских букв. Ничего лучше, чем (?<![а-яёa-z]), предложить не могу.
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Где можно взять Ваш скрипт? И как его использовать? Извините, я с такими вещами не сталкивался и проверял проверкой правописания.
Отв: Типичные ошибки распознавания - собираем статистику ...
Еще ФР часто разрывает аббревиатуры типа "ССС Р"
Отв: Типичные ошибки распознавания - собираем статистику ...
В последнее время книжках в трех с обилием курсива массово встречалось распознавание "рк" вместо "уж"...
Не придумал, как массово контролировать.:(
Отв: Типичные ошибки распознавания - собираем статистику ...
Отличный скрипт! Сам все собирался написать что-то вроде этого, но...
TaKir-у респектище!!! Человек-гигант!
По скрипту: я себе добавил еще вот это:
tagRegExp("(?<![а-яё])мыс(?![а-яё])","i","Найдено: слово \"мыс\" (\"мы с\" с опечаткой).");
tagRegExp("(?<![а-яё])ноты(?![а-яё])","i","Найдено: слово \"ноты\" (\"но ты\" с опечаткой).");
tagRegExp("(?<![а-яё])нотам(?![а-яё])","i","Найдено: слово \"нотам\" (\"но там\" с опечаткой).");
tagRegExp("(?<![а-яё])ода(?![а-яё])","i","Найдено: слово \"ода\" (\"о да\" с опечаткой).");
tagRegExp("(?<![а-яё])яс(?![а-яё])","i","Найдено: слово \"яс\" (\"я с\" с опечаткой).");
tagRegExp("(?<![а-яё])яв(?![а-яё])","i","Найдено: слово \"яв\" (\"я в\" с опечаткой).");
tagRegExp("(?<![а-яё])атак(?![а-яё])","i","Найдено: слово \"атак\" (\"а так\" с опечаткой).");
tagRegExp("(?<![а-яё])итак(?![а-яё])","i","Найдено: слово \"итак\" (\"и так\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
tagRegExp("(?<![а-яё])гак(?![а-яё])","i","Найдено: слово \"гак\" (\"так\" с опечаткой).");
tagRegExp("(?<![а-яё])гут(?![а-яё])","i","Найдено: слово \"гут\" (\"тут\" с опечаткой).");
tagRegExp("(?<![а-яё])тог(?![а-яё])","i","Найдено: слово \"тог\" (\"тот\" с опечаткой).");
tagRegExp("(?<![а-яё])гот(?![а-яё])","i","Найдено: слово \"гот\" (\"тот\" с опечаткой).");
tagRegExp("(?<![а-яё])еше(?![а-яё])","i","Найдено: слово \"еше\" (\"еще\" с опечаткой).");
Отв: Типичные ошибки распознавания - собираем статистику ...
Обычно прилипшие тире чистятся скриптом "генуборка", но не все варианты (спасибо shokons за подсказку).
Добавка в скрипт "Поиск по набору регэкспов", автор Sclex для тех случаев, которые генуборка не исправляет:
прилипшие тире:
addRegExp("[A-Za-zА-яЁё][—]","","Найдено: прилипшее тире в конце и середине слова");
addRegExp("[—][A-Za-zА-яЁё]","","Найдено: прилипшее тире в начале и середине слова");
Отв: Типичные ошибки распознавания - собираем статистику ...
Неожиданно.
Грецию -> Грешно
Польши -> Полыни
Отв: Типичные ошибки распознавания - собираем статистику ...
Странно - это только у меня при OCR окончание сти превращется в трейд марк на конце - вместо "сущности" получаем "сущностм
а что есть за tagRegExp? Это в каком редакторе? Я пользуюсь FBE 2.6
Отв: Типичные ошибки распознавания - собираем статистику ...
Я думаю, что это скорее всего, сущности
У меня тоже бывает, когда некоторые буквы распознаются как будто бы они были в верхнем индексе, хотя на самом деле на скане ничего подобного не было. Возможно, тут виноват перекос скана.(Сканировщик сканировал страницу под углом, который FR не смог распознать). Иногда из-за перекоса текст становится курсивным.
Отв: Типичные ошибки распознавания - собираем статистику ...
В принципе можно добавить
tagRegExp("[а-яёa-z]< sup>[а-яёa-z]+?< /sup>|< sup>[а-яёa-z]+?< /sup>[а-яёa-z]","i","Найдено: Найдено: верхний индекс в средней части слова.");
tagRegExp("[а-яё]< sup>[а-яё]+?< /sup>|< sup>[а-яё]+?< /sup>[а-яё]","i","Найдено: Найдено: верхний индекс.");
tagRegExp("< sup>[а-яёa-z]+?< /sup>[а-яёa-z]|[а-яёa-z]< sup>[а-яёa-z]+?< /sup>","","Найдено: верхний индекс в начале или конце слова.");
tagRegExp("[а-яёa-z]< sub>[а-яёa-z]+?< /sub>|< sub>[а-яёa-z]+?< /sub>[а-яёa-z]","i","Найдено: нижний индекс в средней части слова.");
tagRegExp("[а-яё]< sub>[а-яё]+?< /sub>|< sub>[а-яё]+?< /sub>[а-яё]","i","Найдено: нижний индекс части слова.");
tagRegExp("< sub>[а-яёa-z]+?< /sub>[а-яёa-z]|[а-яёa-z]< sub>[а-яёa-z]+?< /sub>","","Найдено: нижний индекс в начале или конце слова.");
tagRegExp("[а-яёa-z]< strong>[а-яёa-z]+?< /strong>|< strong>[а-яёa-z]+?< /strong>[а-яёa-z]","i","Найдено: жирность в средней части слова.");
tagRegExp("[а-яё]< strong>[а-яё]+?< /strong>|< strong>[а-яё]+?< /strong>[а-яё]","i","Найдено: жирность части слова.");
tagRegExp("< strong>[а-яёa-z]+?< /strong>[а-яёa-z]|[а-яёa-z]< strong>[а-яёa-z]+?< /strong>","","Найдено: жирность в начале или конце слова.");
tagRegExp("(ыи)","i","Найдено: часть слова \"ыи\" (\"ьш\" с опечаткой).");
--------------------------------
Вот только не знаю - будет ли скрипт тормозить из-за увеличения кол-ва выражений?
Я себе поставил - вроде изменения скорости визуально не заметил, а специально мерить неохота )))
Кстати - по поводу тире.
А где-нибудь нужно, чтобы тире "прилипало" к слову? (текст— текст )
Если нет ( а я так и не вспомнил - где нужно ) то можно регеспом массово: (текст — текст )
([а-яё\d"».,)])([—])(\s)
в замену: $1 — $3
Отв: Типичные ошибки распознавания - собираем статистику ...
Нет это именн превращение в тм!
оставлености получилось оставленное™
захваченности получилось захваченное™
Отв: Типичные ошибки распознавания - собираем статистику ...
Неоднократно тоже встречал такое в ФР.
Отв: Типичные ошибки распознавания - собираем статистику ...
А где теперь дополнение? У меня поход по ссылека приводит к
SearchWithRegexpSet_v21.rar (3.2 КБ)
Файл удален.
Отв: Типичные ошибки распознавания - собираем статистику ...
http://groups.google.com/group/fiction-book-editor/browse_thread/thread/b4700ee54d255384/e200b7b6f319c4c8
Актуальная на сегодня версия - 2.7.
Скрипт "Поиск по набору регэкспов v2.7":
Скачать:
http://rghost.ru/3955874
или
http://scripts.fictionbook.org/files/SearchWithRegexpSet_v27.rar
Напоминаю, что исходный скрипт не содержит поисковых строк. Их надо скопировать из старой версии, которой вы сейчас пользуетесь и закомментарить следующую строку:
addRegExp("","i","Задайте список регэкспов, отредактировав скрипт в текстовом редакторе (кодировка UTF-8). Инструкция – в скрипте.");
Ускорена работа скрипта.
Теперь у функций addRegExp и tagRegExp появился пятый параметр:
ограничение на длину строки, которую могут находить конструкции просмотра назад, т.е. (?<= ...) и (?
Отв: Типичные ошибки распознавания - собираем статистику ...
Сорри, почему-то не отражаются теги. Поставлю пробел после угловой скобки
Отв: Типичные ошибки распознавания - собираем статистику ...
Отв: Типичные ошибки распознавания - собираем статистику ...
Кто-нибудь, выложите пожалуйста скрипт со всеми поисковыми строками, и закомменченый, где нужно... У меня с этим проблемы.
Отв: Типичные ошибки распознавания - собираем статистику ...
Это мой вариант ( со всеми здешними дополнениями) http://ifolder.ru/upload/?session=e304e600145a5b151f77b967e9ab7b2a
Отв: Типичные ошибки распознавания - собираем статистику ...
спасибо..
Страницы