Курьезы сканировщика
Опубликовано вс, 31/07/2011 - 09:26 пользователем Алексей_Н
Forums: Забавные нелепицы иной раз рождаются при сканировании. Вот, например, сегодня вместо "высокопоставленным лицам" вдруг возникло "высокопоставленным яйцам".
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Isais RE:Обновление FictionBook Editor 3 часа
Incanter RE:Беженцы с Флибусты 4 часа palla RE:Флибуста конец? 4 часа aidarfar RE:Подайте бедному копеечку на книжку с литреса... 4 часа Isais RE:Как тут читать и скачивать книги? 1 день konst1 RE:Домен и сертификаты 2 дня HEPO RE:Багрепорт - 2 2 дня Саша из Киева RE:Помогите найти книгу! 3 дня Саша из Киева RE:Меж двух Америк 2 недели Саша из Киева RE:Красная каска 2 недели Isais RE:Семейственность в литературе 2 недели sem14 RE:Баг сервиса "Координация сканирования и вычитки" 2 недели Isais RE:Древний Рим. Подборка книг 3 недели konst1 RE:Сборник - Антология сатиры и юмора России XX века. Том 3. ... 3 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц larin RE:не открывается книга 1 месяц Саша из Киева RE:Всё - даже свою жизнь! 1 месяц sem14 RE:«Блуждающие звезды», серия издательства «Книжники» 1 месяц Впечатления о книгах
dolle про Цысинь: Задача трех тел [The Three-Body Problem ru] (Научная фантастика)
27 09 В первой книге интересно читать про китай , китайцев, культурную революцию из первых уст "первого" китайского фантаста.Сама фантастика на уровне СИ.Вторую книгу осилил с трудом , остальные не заинтересовали ,хотя автор и ученый ,многие идеи очень спорны. Оценка: хорошо
Columbus про Глебов: Запрет на вмешательство [СИ litres] (Боевая фантастика, Героическая фантастика, Попаданцы, Самиздат, сетевая литература)
27 09 Совершенно немотивированное вступление в боевые действия инопланетянина на стороне СССР. Начистили тебе хлебало и повезли на фронт. Прирежь конвой и свали на противоположную сторону или, что логичнее, лесами-полями иди в нейтральные ……… Оценка: нечитаемо
dolle про Дяченко: Vita Nostra. Работа над ошибками (Героическая фантастика, Социальная фантастика, Научная фантастика)
27 09 .Первая книга великолепна и самодостаточна .Вся проблема в завышенных ожиданиях от продолжения.В фильме "Криминальное чтиво" сам Тарантино не знал что в чемодане ,а Дяченко открыли свой чемодан через 14 лет и вывали всю эту ……… Оценка: отлично!
dolle про Фонд: Конторщица [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
27 09 Если не обращать внимание на заклепки , описание жизни почти достоверно для тех кто застал СССР и адаптировано для тех кто родился при капитализме , но читателю важен не поиск неточностей , а интерес . При таком простеньком ……… Оценка: неплохо
dolle про Лукьяненко: Месяц за Рубиконом [litres] (Героическая фантастика, Космическая фантастика, Социальная фантастика)
27 09 Увлекательно , но через месяц уже не помню о чем . Обычный конструктор фантастики от Лукьяненко . Оценка: хорошо
dolle про Михайлов: ПереКРЕСТок одиночества 4. Часть 2 [СИ] (Детективная фантастика, Социальная фантастика, Фантастика: прочее, Самиздат, сетевая литература)
27 09 Михайлов вовремя завершил цикл,этот ледяной мир мал , однообразен и перспектив развития сюжета как у Низшего особо нет, все точки над " i "автор расставил и вполне логично завершил на пятой книге. Финал открытый , но это не точно. Оценка: хорошо
Masterion про Изотов: Убить топа (Боевая фантастика, Героическая фантастика, ЛитРПГ, Самиздат, сетевая литература)
27 09 Шляпа лютая. Брызжет пафосом и тупостью. ГГ в реале свинья, вытирающая об себя руки, забивающая на мойку посуды по несколько дней, и живущая в тесном свинарнике. Он постоянно повторяет "Я же профи". При этом, идя на заказ ……… Оценка: нечитаемо
Masterion про Корнев: Цейтнот. Том I [СИ] (Боевая фантастика, Социальная фантастика, Шпионский детектив, Технофэнтези, Самиздат, сетевая литература)
27 09 Нечитаемая муть. Начиналась серия просто отлично, магия, развитие, все дела. В конце скатилась в унылую бытовуху с псевдореволюционными звиздостраданиями. Не ожидал от Корнева такой... даже не халтуры - видно, что старается. ………
Masterion про Винтеркей: Антидемон [СИ litres] (Фэнтези, Попаданцы, Самиздат, сетевая литература)
27 09 Примитив. Автор негров себе завел? Даже по стилю и близко на "Эгиду" не похоже. Скучно, нудно, инфантильно.
Masterion про отшельник: Наемник «S» ранга [СИ] (Фэнтези, Самиздат, сетевая литература)
27 09 Примитив. С перекосом на тему секса. Автору не дают что-ли?
Masterion про Коткин: Сережа, не обижай демонов [СИ] (Фэнтези, Попаданцы, Самиздат, сетевая литература)
27 09 Хрень. Или даже эклектичная хтонь. Автор, в попытке выделится из огромной толпы графоманов, которых внезапно торкнуло, что они мамкины пейсатели, решил смешать ЛитРПГ и боярку. Но забыл, что если в бочку мёда добавить ложку говна, то получится бочка говна. Оценка: нечитаемо
Masterion про Глебов: Запрет на вмешательство [СИ litres] (Боевая фантастика, Героическая фантастика, Попаданцы, Самиздат, сетевая литература)
27 09 Отлично. Уж насколько я не любитель космической фантастики... но это на 5 баллов. Оценка: отлично! |
Отв: Курьезы сканировщика
И у меня тут недавно при распознавании курьёз случился.
Отв: Курьезы сканировщика
Шля - Галя
Отв: Курьезы сканировщика
У меня наоборот, были гнойные пидеры, а стали - гнойные лидеры! :=)
Отв: Курьезы сканировщика
Милое и привычное «н»=«п»
вошел в гостиничный помер
раздавили бунтовщиков тапками
высокопоставленные чипы
члепы Политбюро
Отв: Курьезы сканировщика
"ветхий дом с голубыми наяичниками"
Отв: Курьезы сканировщика
По-моему, это прекрасно: чеболыпой костерок = небольшой костерок.
Отв: Курьезы сканировщика
Замечательная ошибка просто.
Сноска: «Баффи — потребительница вампиров» — американский телесериал о девушке...
Отв: Курьезы сканировщика
Мальчик-с-нальчик
Отв: Курьезы сканировщика
Отлично!! Это про Билана!
Отв: Курьезы сканировщика
сканировщик - онанировщик
Отв: Курьезы сканировщика
(задумчиво) а в чем-то оно право....
Отв: Курьезы сканировщика
докус та вместо до куста, голов удержит вместо голову держит
Отв: Курьезы сканировщика
Писхолог отрицательно покачал пальцем.
Причем так и на бумаге. И не понятно, блин, опечатка или автор над психологом приколоться решил. Придется так оставить.
Отв: Курьезы сканировщика
Бороны беззвучно пролетали от мест кормежки к деревьям — спать.
Представил себе картинку. Это прямо ужастик какой-то выходит...
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Мне почему-то пришел в голову другой вариант, более логичный. Не сиять они туда летали...
На самом деле там были "бараны". Это ж очевидно. :)
Отв: Курьезы сканировщика
А, может, вараны? Тоже неплохой ужастик просматривается. Такие громадные... С высунутыми языками...
Отв: Курьезы сканировщика
"Пенис священнослужителей" вместо "Пение священнослужителей".
Отв: Курьезы сканировщика
В тексте достаточно часто появляется фамилия Стиханов, фр упорно распознаёт её Стаханов. "наряду" у него "народу", но есть ошибки которые практически невозможно выловить),напр. вместо "исписанные",распознаёт "написанные". У меня развивается маниакальная подозрительность к его распознаванию.))
Отв: Курьезы сканировщика
Что-то в Эбби начудили в последних версиях ФР.
До сих пор юзаю ФР 8 и таких проблем нет )
Распознает почти идеально, и отсебятиной не занимается.
Встречаются редкие косяки, но они легко ловятся.
Если со всякими неудобствами в более старых версий ФР вроде лишней ручной работы можно смириться, то такое корежение текста в новых версиях, которое зачастую вообще ничем не выловишь - нафиг-нафиг.
UPD.
Я понял.
Это у эбби такая задумка по договоренности с Мин. культуры.
Каждый сканировщик-распознаватель должен внимательно прочесть всю книгу в процессе распознавания ее.
Типа повышения культурного уровня населения.
Отв: Курьезы сканировщика
согласно кивает собственной ГН головой
Отв: Курьезы сканировщика
Это от исходного материала зависит. Есть такие книжки, где буквы н, и, п, ц даже глазом различить трудно. И с, о, е тоже. Вот в них-то такие лулзы и встречаются.
Отв: Курьезы сканировщика
Качество распознавания у последней версии намного выше, чем у предпоследней. А у той было намного выше, чем предпредпоследней и т. д.
Можем с тобой провести эксперимент: распознать один и тот же текст разными версиями и сравнить результат (без доп. обработки).
Есть книги, где едва наберётся с десяток ошибок распознавания (при хорошем качестве скана), а есть такие, где вся страница в кляксах "неуверенно распознанных символов" (особенно старая полиграфия этим грешит). Такшта... ;)
Отв: Курьезы сканировщика
У меня даже была одна фотканная книга, где было менее 10 ошибок.
Отв: Курьезы сканировщика
Дык это... )
Давай сканы нескольких страниц, что лично у тебя так криво распознавались в твоем 2911-м ФР, что смысл текста менялся и только вычитка могла помочь...
Я посмотрю у себя ) На версии, которая по твоему убеждению сильно хуже распознает )
Кто ж против )
Мне эти фразы типа ...качество "намного выше" а потом "еще намного выше" ни о чем не говорят )
Поскольку 8 версия ФР распознает нормальные сканы и так прекрасно, если шрифт более-менее стандартный и бумага - не газета 100-летней давности, содранная из-под обоев )
Отв: Курьезы сканировщика
Ну, так, чтобы смысл текста менялся - у меня такого не было. А "сложные", когда приходится внимательно смотреть и частенько править, - изволь:
14 стр.
Выложи экпорт после распознавания, а я выложу свой. Сравним. :)
К тому же ФР11 работает в несколько раз быстрее, чем предыдущие версии (даже ФР10), но оставим это за скобками. ;)
Отв: Курьезы сканировщика
Спс, забрал, прогнал через ФР - 10 мелких косяков, большинство в сносках, которые мелким текстом.
Попозже выложу получившееся (отметил косяки распознавания красным болдом), дома инет побыстрее )
Отв: Курьезы сканировщика
Ну, если порядка 10, то можно и не выкладывать. У меня приблизительно столько же. Может, 8. Может, 7. Не слишком принципиально.
Большинство из них вылавливается при помощи скрипта "поиск по регэкспам", который ты, собственно, и заполнил большей частью. ;)
Но поверь мне, 11-я версия - это качественный скачок вперёд даже по сравнению с 10-й. У меня-то есть опыт работы с каждой, начиная с 6-й. И последняя значительно отличается от всех остальных. Хоть и со своими "заскоками", отрицать не буду.
Я не уговариваю тебя переходить на неё, но говорить о том, что 8-я лучше... э-э-э... м-м-м... ну, неправильно, скажем так. ;)
Отв: Курьезы сканировщика
Кинь в меня рабочей версией, плиз, (можно в личку), я ее посмотрю параллельно )
Качественный скачок говоришь? )
Я бы рад согласиться, но только и слышу, начиная с 10 версии, ФР о "чудесах" распознавания, включая полную отсебятину в тексте, массы дурацких стилей, потерю кусков текста, потерю сносок и проч.
Каждый раз читаю такие топики про новые ФР и удивляюсь, все было ок с распознаванием, а тут такие косяки лезут.
Оно мне надо?
Скорость распознавания в новых версиях выросла?
Зато потом прочитать от корки до корки придется каждое слово?
Оно мне зачем?
Я поставил распознаваться 500 страниц и пошел курить или чай-кофе пить )
3 минуты мне погоды не сделают )
Зато уверен, что текст не будет искорежен )
Отв: Курьезы сканировщика
Угу.
У ФР11 есть один очень серьёзный баг: распознавание диалога иногда в стиле "содержание", при этом при экспорте в фб2 эта часть текста не передаётся. Как с ним бороться, я писала в своём блоге. Это разовая акция в каждой книге, которая обезопасит тебя от опасности потерять куски текста.
Похожая ситуация - с текстом в нижней трети страницы, отделённым от остального текста, который иногда распознается как сноска. Лечится одновременно с предыдущим.
И ещё мне очень не хватает отменённой возможности добавлять в словарь все парадигмы слова. Но это терпимо. Многие и не пользовались этой возможностью вовсе.
ФР11 можно взять, например, здесь.
Отв: Курьезы сканировщика
1) Не понял, в чем тут скачок? Позволяет тем, кто хочет тяп-ляп, сразу получить фб2, и закинуть в инет?
Пользуюсь после ФР вордом со скриптами и ФБД, заодно отлавливаются разные кривые концовки предложений и проч. Потом уже в ФБЕ.
2) В чем скачок тут? На 8 версии никогда не наблюдал проблем с сохранением или добавлением руками болдов-италиков. Только что проверил в 8 версии - прекрасно сохраняется и добавляется.
3) Уж не помню, когда последний раз были проблемы с тире в диалогах. ЕМНИП - может, в 6 версии сталкивался, да и то нечасто.
4) Сама понимаешь, сомнительный аргумент. Склейка отслеживается в ФР без проблем. Разорванные легко лечатся скриптами ворда, фбе и т.п.
5) Чистка и правка текста никуда не денется. Мне, например, многое сильно проще скриптами и регэкспами в ворде поймать. И потом все равно найти еще какие-то буковки для правки в ФБЕ )
6) Насколько быстрее? Компенсирует ли это отсебятину в тексте? (подлинным - по длинным и подобное)?
7) Назвать хорошим распознавание, когда надо следить, не пропал ли текст, я назвать не могу при всем желании.
Для меня это главный кошмар, когда надо за ФР еще проверять, весь ли текст распознается и передается.
Для чего возня со стилями - в чем преимущество вообще в их наличии в ФР? Можно ли выключить стили совсем (не потеряв болдов-курсивов) и не переживать за сохранность кусков текста?
8) Обработка сносок - существенный момент, когда их много.
В итоге - очень сомнительные преимущества лично для меня.
Спс, гляну )
Отв: Курьезы сканировщика
Ну и ладно. Зачем мне переубеждать всем довольного ТаКира? В-)
Отв: Курьезы сканировщика
Да, я ретроград )
Как в том анекдоте - "только ради бога, ничего не трогай, ничего не меняй" )
(Привет Тигра)
Но 11 ФР качаться поставил, спасибо )
Отв: Курьезы сканировщика
Кстати, появился ли в 11 ФР поиск и вставка знака абзаца?
Отв: Курьезы сканировщика
Нет. Разрыв строки и мягкий перенос - как и в предыдущих версиях.
Отв: Курьезы сканировщика
А у меня остались ностальгически-светлые воспоминания об FR5.
Возможно он и проигрывает нынешним версиям в скорости и где-то в качестве распознавания, но у него были и огромные преимущества, например, на автомате очень точно подбирал яркость так, чтобы тень в развороте книги (в ямке) не сливалась с текстом, т.е. не было ни кляксы, ни белой дырки. Это позволяло сканировать книги довольно бережно, не разворачивая и не прижимая их так сильно, как часто требовалось в более поздних версиях. Проблем с диалогами было меньше, потому что оформление их списками появилось позже, начиная с версии 6. И главное, ни разу не было, чтобы какой-то кусок страницы (особенно последние строки) вдруг просто проигнорировался, как сейчас бывает. А тогда я сканировал реально помногу. Сейчас-то только балуюсь иногда.
Отказаться от FR5 пришлось (с огромным сожалением) только из-за перехода на новые версии Windows.
И что характерно, у меня это была единственная лицензионная версия, все последующие были ломаными. Может это играет какую-то роль?
Отв: Курьезы сканировщика
Задумалась. У меня ФР11 лицензионный. Может, и правда дело в этом?
Отв: Курьезы сканировщика
Разбираюсь с ФР 11.
Есть вопросы по алгоритму )
Назначение стилей производится в какой момент - после загрузки книги, до наложения блоков или после? До распознавания текста или после?
Как применить стили ко всем страницам? Сейчас на распознанном тексте у меня на каждой странице свои стили, те же сноски все разного размера.
Не передаются стили "Подписи к картинкам". Распознаются, но не передаются в ворд и фб2.
Какой вариант выбирать - форматированный текст, редактируемая копия или точная копия?
Влияет ли это на качество распознавания и стили и на передачу в ворд и фб2?
Из хорошего текстового pdf не передался в фб2 ни один курсив и болд - чисто плэйн текст. В ворд передается нормально.
(Блоки были наложены с помощью шаблона, одинаковые на все страницы, и поправлены в нужных местах).
Если несложно, добавь при случае ответы в свой блог по алгоритму работы с ФР, плиз!
Т.е. желательно описать процесс с самого начала - открываем ФР, делаем то-то, потом то-то и т.п.
Отв: Курьезы сканировщика
Добавила. :)
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Исследовал явление "отсебятинга" на книге "Сироты квартала Бельвилль". Буковки тоненькие, FR постоянно путает "и", "н" и "п". Персонажа зовут Рири, соответственно на выходе - примерно равновероятны все 9 вариантов. :-( Занёс слово "Рири" в словарь и прогнал распознавалку по новой - как рукой сняло. :-)
Отв: Курьезы сканировщика
Я при обнаружении подобной постоянной ошибки делаю массовую замену - с учетом регистра и - в подходящем случае "только слово целиком".
Фокус со словарём мне несколько раз не помог, поэтому я им не пользуюсь.
Спасибо за нормализацию сайта!
Спасибо администрации Либрусека за нормализацию функционирования Библпотеки! Теперь можно вернуться
Отв: Курьезы сканировщика
Я использую FR11 выпуск 11.02.102.583 - практически никаких проблем. В последних книгах плохо распознавал сочетание "гр" выдавал, например, вместо гроб - фоб.
Отв: Курьезы сканировщика
При проблемах с распознаванием ФР ищет ближайшее слово в словаре. Отсюда эти курьезы. При хороших сканах ничего подобного не наблюдается. На сайте Twirx скачал две книги. Кто-то залил не проверяя. Видно прямо из ФР. Там по всему тексту вместо "гр" - "ф", "ыо" - "ью", "JI или J1 - Л" и т. п.
Отв: Курьезы сканировщика
(del)
Отв: Курьезы сканировщика
На счет FR11
Делаю книгу 900 стр. где-то 4000 сносок
ворд (точная) и djvu - минут за 5 создались
pdf - вылетает с ошибкой после 20 мин думания, на любых настройках
fb2 - висит третий час. Прерывал первый раз выгрузку в fb2 через час, получился недописанный 3,5 метровый файл - остановилось на сноске №1085))
А ещё минусы, но это не только у FR11, - использует только одно ядро проца(1/4) и 250М памяти. Хотя памяти 16гиг, можно было бы все туда сгрузить и не "свопить" на диск
Отв: Курьезы сканировщика
У меня нет советов в данном случае. :( Не сталкивалась. Может, кто-то другой подскажет.
Разве что удивляюсь скорости экспорта в djvu. У меня обычно длится намного дольше. Наверное, зависит от исходного скана.
Отв: Курьезы сканировщика
в настройках экспорта djvu поставил 150dpi...
Я pdf или djvu(реже) всегда делаю: так удобнее вычитывать, чем по сканам, да и пропавшую часть текста можно по ходу скопипастить...
Страницы