Вы здесьОбновление скрипта "Поиск по набору регэкспов" для FBE - тестируем!
Опубликовано пт, 06/09/2019 - 04:13 пользователем TaKir
Дошли руки существенно дополнить, обновить, почистить и структурировать по смыслу скрипт "Поиск по набору регэкспов" для Fiction Book Editor (FBE). Автор этого скрипта (как и многих других скриптов для FBE) - Sclex, за что ему отдельное гран мерси. Наполнение скрипта мое, Sclex-а + учтены все возможные пожелания книгоделов из двух старых здешних тем: Типичные ошибки распознавания... Пользоваться и тестировать могут все желающие, отзывы, примеры, предложения по улучшению категорически приветствуются. Просьба приводить конкретные примеры: - ошибок скрипта, ложных срабатываний Очень приветствуется помощь тех, кто хорошо знаком с регулярными выражениями для дальнейшего совершенствования скрипта. Ссылка на последнюю версию скрипта (30-09-2019): альтернативные ссылки: Заменить этим файлом имеющийся файл (или положить новый вариант скрипта рядом) в папке: Скрипту удобнее назначить горячую клавишу F2 (меню: Сервис-Настройки-Клавиши-Скрипты-Поиск по набору регэкспов). Перед запуском данного скрипта лучше обработать текст скриптами "Генеральная уборка", "Латиница в кириллице" По мере накопления отзывов о работе скрипта, планирую периодически пополнять скрипт и выкладывать обновленную версию. P.S. На Флибусте открыта аналогичная тема, можно писать в любую.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
NickNem RE:Подайте бедному копеечку на книжку с литреса... 1 час
Isais RE:Семейственность в литературе 11 часов kopak RE:Таинственная личность админа Флибусты 4 дня kopak RE:О группе Дятлова. О той самой, того самого... 4 дня babajga RE:Ласси возвращается домой 5 дней sem14 RE:Подборка о Первой Мировой 6 дней Isais RE:удаление "двойников" 1 неделя Isais RE:Кармен Мола - Пурпурная сеть [litres] 2 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели Isais RE:Катя Водянова - Дом и два жениха в придачу 3 недели Aleks_Sim RE:Прошу переформатировать, распознать, etc... 3 недели Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 4 недели Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 1 месяц Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 месяц Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 месяц babajga RE:Белая княжна 1 месяц Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 1 месяц mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 1 месяц Впечатления о книгах
187 про Царевич: За Отчизну! (История)
21 02 Годная детская книжка, как и Приключения Каспера Берната в Польше и других странах. Оценка: отлично!
Дей про Воспитанник орков
21 02 Какой же ГГ тряпка и слюнтяй. Нет, он храбр и, в общем-то, довольно сообразительный, хоть и несколько тугодум, но он трясётся над жизнью каждой мрази, встречающейся на его пути. Он оставил за спиной несчитанное количество ………
dolle про Корнев: Артефакт острее бритвы (Фэнтези, Приключения: прочее, Самиздат, сетевая литература)
21 02 Неплохо. С каждой книгой сюжет становится динамичнее, интриг и врагов становится больше . Оценка: хорошо
tlittle про Никитин: Бешеный лев (Фэнтези)
20 02 Примитивно. Очень примитивно. Такое впечатление, что художественные "изыски" добавляли в рассказ при втором проходе, они выглядят чужеродными. При этом куча (просто хренова гора) примитивных орфографических ошибок. "Ни как", ……… Оценка: плохо
Barbud про Семин: Конструктор (Попаданцы, Самиздат, сетевая литература)
20 02 Малоинтересное чтиво без художественных достоинств и исторической достоверности. Автор поднаторел на написании сказок с магией и прочими вытребеньками, где не нужно знать историю и следить за отсутствием анахронизмов, поэтому ……… Оценка: нечитаемо
nik_ol про Донцова: Дезертир из рая [litres] (Иронический детектив)
19 02 Ребятки, а что так редко стали выкладывать Донцову, Луганцеву и Полякову? Ну, Полякова-то понятно, там её невестка как бы сейчас книги пишет, а Донцова? Скучаю уже, я её между Пелевеным читаю, например, для разгузки мозга))). Оценка: хорошо
decim про Ксенз: Золотая стена (Современная проза, Публицистика)
19 02 Автор не буйный , это хорошо. Больше ничего хорошего. Ну там Фаэтон, Гиперборея, Атлантида... а Чёрное море, должно быть, выкопали на сдачу. Потомков ассуров(так в книге) сдали на съедение Горбачёв с Волкогоновым. Который ……… Оценка: нечитаемо
mysevra про Зорич: Очень мужская работа [HL] (Боевая фантастика)
19 02 Здесь больше Зорича, чем Жарковского. «Тварь» показалась интереснее. Оценка: плохо
mysevra про Жарковский: Времена смерти [litres] (Космическая фантастика, Научная фантастика)
19 02 Это было необычно, мне бы хотелось продолжения. Оценка: хорошо
alexk про Скабер: Двойник короля. Книга 5 [СИ] (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
19 02 Неужели так сложно понять, что если аннотация не отображается, то в ней присутствуют символы, которые сайт либрусека игнорирует? И поправить залитый файл? Я уж не мечтаю о том, что вы будете заливать валидные файлы сразу...
decim про Бобров: Эпоха мертворожденных [= Украина в огне] (Альтернативная история)
19 02 Автор не взял тяжёлую тему. Надорвался при первом подходе. Можно усвоить, что война была неизбежна. В данном раскладе да. И что мы усвоим ещё - что автор любит боёвку, аж пищит, и не любит баб как пол. И всё! Что ………
Nicout про Владимирский: На киевском направлении (Военная документалистика)
18 02 Сколько погибло советских солдат при взятии Киева? По немецким данным, под Киевом к 24 сентября было взято в плен 665 тысяч человек. По данным, опубликованным в 1993 году Генштабом Вооружённых Сил РФ, советские потери ……… |
Комментарии
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Ну, я не специалист-филолог, но мне кажется, скрипт должен ориентироваться на литературный, а не на просторечный вариант.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
В FBE есть проверка по словарю. "Орфография" F7 тыц. У поиска по набору регэкспов другая задача.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Не буду спорить. Свою задачу я вижу в том, чтобы набрать статистику. Что из нее учитывать, а что не учитывать, думаю должны решать разработчики.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Идеальный скрипт в любом случае не сделать.
Писалось выше - улучшить бы "Генеральную уборку".
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Пока не вижу примеров для доработки скрипта, кроме прилипшего многоточия и удаления пробела перед маркером сноски.
Какие улучшения нужны?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
А апостроф?
...предусмотреть замену всех возможных различных вариаций апострофов - ´ ʼ ′ ˙ ΄ - на ' (буква «э» на англ. раскладке), который U+0027.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
V_E, вы, вообще, в курсе, что пробел и нижнее подчеркивание, это разные символы?
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Прошу прощения, но не совсем понял, в связи с чем возник этот вопрос? Если ответить коротко - да, в курсе, но, по-моему, про нижнее подчеркивание я ничего не писал? И на его проверку не жаловался. Может, конечно, что-то запамятовал, уточните, если не сложно, почему вы меня об этом спрашиваете.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
V_E, потому что во многих ваших книгах, загруженных сюда, в названии книги вместо пробелов стоят нижние подчеркивания.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Можно попросить ссылку? И уточните, о чем идет речь: о названии книги (печатное издание) или имени файла? Нижнее подчеркивание использую в имени файла. Это давняя привычка, обусловленная определенными причинами. А вот в названии книги - что-то за собой такого не помню. Если дадите ссылку, проверю по своим оригиналам. Может быть, это какая-то ошибка, тем более, что она есть "во многих файлах". Надо посмотреть, что это такое.
RE:Обновление скрипта "Поиск по набору регэкспов" для FBE -...
Теперь еще по поводу работы скрипта, столкнулся с моментами, вызвавшими легкое удивление:
скрипт иногда обнаруживает, а иногда пропускает полужирное начертание отдельной буквы предлог "и", местоимение "я". Удивило, что иногда полужирное начертание обнаруживается, а иногда нет. Может, конечно, он реагирует на что-то иное, совпадающее с полужирным начертанием.
Также пропускает сочетание ., (точка и запятая). Также пропускает слово нащ (должно быть - наш). Но это, видимо, тоже относится к орфографическим ошибкам, которые скрипт не проверяет?
Добавлено позже:
Обрабатывал скриптом книгу, в которой при распознавании был пропущены все дефисы в словах типа как-то, кто-то кто-либо, когда-либо и т.д. Заметил, что скрипт пропускает словосочетание дватри (два-три); и тотмто (том-то в выражении "в том-то и дело")
Страницы