Курьезы сканировщика
Опубликовано вс, 31/07/2011 - 09:26 пользователем Алексей_Н
Forums: Забавные нелепицы иной раз рождаются при сканировании. Вот, например, сегодня вместо "высокопоставленным лицам" вдруг возникло "высокопоставленным яйцам".
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
konst1 RE:Переименовать ник (имя учетки) 14 часов
sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 день sem14 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 4 дня Океана RE:Подайте бедному копеечку на книжку с литреса... 2 дня Larisa_F RE:Современная корейская литература. Книжная серия... 2 недели Larisa_F RE:Таррин Фишер 2 недели Aleks_Sim RE:Беженцы с Флибусты 2 недели Саша из Киева RE:Как приобретать друзей и оказывать влияние на людей 2 недели Isais RE:Семейственность в литературе 3 недели miri.ness_ RE:Доступ 27 3 недели bmusanov Оплатил, но абонемент не отображается 3 недели holla RE:Багрепорт - 2 4 недели konst1 RE:Файнридер для Win11 1 месяц larin RE:Оплатил, но абонемент не отображается 1 месяц sem14 RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц Isais RE:Национальный конкурс на лучшее литературное произведение... 1 месяц Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц sem14 RE:«Морской роман» — книжная серия Калининградского книжного... 1 месяц Впечатления о книгах
Stager про Дроздов: Невеста инопланетянина (Альтернативная история, Космическая фантастика, Самиздат, сетевая литература)
01 09 Ну, тут не говно, просто либеральный бред. Но литературные достоинства строго отрицательные, даже предмета для обсуждения нет. В общем, если кто не прочёл, тот ничего не потерял. Даже где-то приобрёл. Оценка: плохо
svetik489 про Капба: На золотом крыльце - 2 (Киберпанк, Городское фэнтези, Самиздат, сетевая литература)
01 09 а чего тут такого восхитительного? так на троечку,с натягом... Оценка: неплохо
udrees про Каку: Физика невозможного [Physics of the Impossible: A Scientific Exploration into the World of Phasers, Force Fields, Teleportation, and Time Travel ru] (Физика, Научпоп)
31 08 Увлекательно прочитать про возможности и открытия, которые могут быть доступны в ближайшие сотню лет или больше. Книга немного уже устарела, информация базируется видимо на сведениях 2006-2007 годов. Сейчас в 2025 году часть ……… Оценка: хорошо
udrees про Роузвуд: Джеффри Дамер. Ужасающая история одного из самых известных маньяков в мире [litres] [Jeffrey Dahmer: A Terrifying True Story of Rape, Murder & Cannibalism ru] (Биографии и Мемуары, Публицистика, Документальная литература)
31 08 Кому интересно почитать про историю ужасных преступлений Джеффри Дамера – почитайте книгу. Она достаточно подробно на 50 страницах описывает его похождения и убийства мужчин, без особых кровавых подробностей, хотя описания ……… Оценка: неплохо
udrees про Мантикор: Зеркало Мисы (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
31 08 Как увлекательно становится читать долгую историю приключений друида, который по силе невероятно прокачался по ветке РПГ, что практически стал богом, когда он натыкается на препятствия и противников, которые сводят на нет ……… Оценка: отлично!
Stager про Дроздов: Зубных дел мастер (Космическая фантастика, Попаданцы, Самиздат, сетевая литература)
31 08 Ну это даже не третьесортная литература. Это вообще не литература. Ещё это редкое говно по содержанию. Неожиданно для Дроздова. У них там в Белоруссии так плохо? Оценка: плохо
Amfortas про Бачигалупи: Навола (Социальная фантастика, Городское фэнтези, Историческое фэнтези)
30 08 Скучно. Невыносимо скучно. Не одолел, бросил на половине. Слащавый "роман воспитания" с кучей банальных деталей. Повествование, ведущее в никуда. Не спасает даже стилизация под итальянское Возрождение. Лучше почитать словарь. Веселее и более интригующе. Оценка: плохо
Олег Макаров. про Юдковски: Гарри Поттер и методы рационального мышления [Harry Potter and the Methods of Rationality ru] (Фэнтези, Фанфик)
30 08 Один из лучших в мире специалистов по критическому мышлению написал фанфик по Гарри Поттеру для того, чтобы большее количество людей заинтересовались критическим мышлением. Представляете, что получилось? Оценка "отлично". ……… Оценка: отлично!
Олег Макаров. про Капба: На золотом крыльце - 2 (Киберпанк, Городское фэнтези, Самиздат, сетевая литература)
30 08 Капба это Капба. К его книгам не читайте аннотаций, читайте сами книги. 5 баллов это недостаточное количество баллов. Оценка: отлично!
Sello про Мережковский: Петр и Алексей (Историческая проза)
30 08 Поздновато, конечно, я разобрался, почему "не прет" мне Мережковский - лишь с третьей попытки, на третьем романе серии. Потому что там, где религия перетягивает на себя одеяло в ущерб историческому повествованию, истина, всегда, ……… Оценка: неплохо
mysevra про Эйрес: Оззи. Автобиография без цензуры [I Am Ozzy ru] (Биографии и Мемуары)
29 08 Несмотря на множество грустных моментов, книга просто пропитана оптимизмом и юмором. Возможно, местами позитив слишком уж натужный, но по-другому никак не выжить в некоторых обстоятельствах, тут тянешь себя за волосы как Мюнхгаузен. Оценка: отлично!
mysevra про Тюльбашева: Лес (Ужасы, Триллер, Мистика)
29 08 Слишком "мыльный" привкус. Где, собственно, события? Заблудились, пропали, шли, шли, поели макарон, шли, шли, совсем пропали. Часть вторая… Оценка: плохо |
Отв: Курьезы сканировщика
И у меня тут недавно при распознавании курьёз случился.
Отв: Курьезы сканировщика
Шля - Галя
Отв: Курьезы сканировщика
У меня наоборот, были гнойные пидеры, а стали - гнойные лидеры! :=)
Отв: Курьезы сканировщика
Милое и привычное «н»=«п»
вошел в гостиничный помер
раздавили бунтовщиков тапками
высокопоставленные чипы
члепы Политбюро
Отв: Курьезы сканировщика
"ветхий дом с голубыми наяичниками"
Отв: Курьезы сканировщика
По-моему, это прекрасно: чеболыпой костерок = небольшой костерок.
Отв: Курьезы сканировщика
Замечательная ошибка просто.
Сноска: «Баффи — потребительница вампиров» — американский телесериал о девушке...
Отв: Курьезы сканировщика
Мальчик-с-нальчик
Отв: Курьезы сканировщика
Отлично!! Это про Билана!
Отв: Курьезы сканировщика
сканировщик - онанировщик
Отв: Курьезы сканировщика
(задумчиво) а в чем-то оно право....
Отв: Курьезы сканировщика
докус та вместо до куста, голов удержит вместо голову держит
Отв: Курьезы сканировщика
Писхолог отрицательно покачал пальцем.
Причем так и на бумаге. И не понятно, блин, опечатка или автор над психологом приколоться решил. Придется так оставить.
Отв: Курьезы сканировщика
Бороны беззвучно пролетали от мест кормежки к деревьям — спать.
Представил себе картинку. Это прямо ужастик какой-то выходит...
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Мне почему-то пришел в голову другой вариант, более логичный. Не сиять они туда летали...
На самом деле там были "бараны". Это ж очевидно. :)
Отв: Курьезы сканировщика
А, может, вараны? Тоже неплохой ужастик просматривается. Такие громадные... С высунутыми языками...
Отв: Курьезы сканировщика
"Пенис священнослужителей" вместо "Пение священнослужителей".
Отв: Курьезы сканировщика
В тексте достаточно часто появляется фамилия Стиханов, фр упорно распознаёт её Стаханов. "наряду" у него "народу", но есть ошибки которые практически невозможно выловить),напр. вместо "исписанные",распознаёт "написанные". У меня развивается маниакальная подозрительность к его распознаванию.))
Отв: Курьезы сканировщика
Что-то в Эбби начудили в последних версиях ФР.
До сих пор юзаю ФР 8 и таких проблем нет )
Распознает почти идеально, и отсебятиной не занимается.
Встречаются редкие косяки, но они легко ловятся.
Если со всякими неудобствами в более старых версий ФР вроде лишней ручной работы можно смириться, то такое корежение текста в новых версиях, которое зачастую вообще ничем не выловишь - нафиг-нафиг.
UPD.
Я понял.
Это у эбби такая задумка по договоренности с Мин. культуры.
Каждый сканировщик-распознаватель должен внимательно прочесть всю книгу в процессе распознавания ее.
Типа повышения культурного уровня населения.
Отв: Курьезы сканировщика
согласно кивает собственной ГН головой
Отв: Курьезы сканировщика
Это от исходного материала зависит. Есть такие книжки, где буквы н, и, п, ц даже глазом различить трудно. И с, о, е тоже. Вот в них-то такие лулзы и встречаются.
Отв: Курьезы сканировщика
Качество распознавания у последней версии намного выше, чем у предпоследней. А у той было намного выше, чем предпредпоследней и т. д.
Можем с тобой провести эксперимент: распознать один и тот же текст разными версиями и сравнить результат (без доп. обработки).
Есть книги, где едва наберётся с десяток ошибок распознавания (при хорошем качестве скана), а есть такие, где вся страница в кляксах "неуверенно распознанных символов" (особенно старая полиграфия этим грешит). Такшта... ;)
Отв: Курьезы сканировщика
У меня даже была одна фотканная книга, где было менее 10 ошибок.
Отв: Курьезы сканировщика
Дык это... )
Давай сканы нескольких страниц, что лично у тебя так криво распознавались в твоем 2911-м ФР, что смысл текста менялся и только вычитка могла помочь...
Я посмотрю у себя ) На версии, которая по твоему убеждению сильно хуже распознает )
Кто ж против )
Мне эти фразы типа ...качество "намного выше" а потом "еще намного выше" ни о чем не говорят )
Поскольку 8 версия ФР распознает нормальные сканы и так прекрасно, если шрифт более-менее стандартный и бумага - не газета 100-летней давности, содранная из-под обоев )
Отв: Курьезы сканировщика
Ну, так, чтобы смысл текста менялся - у меня такого не было. А "сложные", когда приходится внимательно смотреть и частенько править, - изволь:
14 стр.
Выложи экпорт после распознавания, а я выложу свой. Сравним. :)
К тому же ФР11 работает в несколько раз быстрее, чем предыдущие версии (даже ФР10), но оставим это за скобками. ;)
Отв: Курьезы сканировщика
Спс, забрал, прогнал через ФР - 10 мелких косяков, большинство в сносках, которые мелким текстом.
Попозже выложу получившееся (отметил косяки распознавания красным болдом), дома инет побыстрее )
Отв: Курьезы сканировщика
Ну, если порядка 10, то можно и не выкладывать. У меня приблизительно столько же. Может, 8. Может, 7. Не слишком принципиально.
Большинство из них вылавливается при помощи скрипта "поиск по регэкспам", который ты, собственно, и заполнил большей частью. ;)
Но поверь мне, 11-я версия - это качественный скачок вперёд даже по сравнению с 10-й. У меня-то есть опыт работы с каждой, начиная с 6-й. И последняя значительно отличается от всех остальных. Хоть и со своими "заскоками", отрицать не буду.
Я не уговариваю тебя переходить на неё, но говорить о том, что 8-я лучше... э-э-э... м-м-м... ну, неправильно, скажем так. ;)
Отв: Курьезы сканировщика
Кинь в меня рабочей версией, плиз, (можно в личку), я ее посмотрю параллельно )
Качественный скачок говоришь? )
Я бы рад согласиться, но только и слышу, начиная с 10 версии, ФР о "чудесах" распознавания, включая полную отсебятину в тексте, массы дурацких стилей, потерю кусков текста, потерю сносок и проч.
Каждый раз читаю такие топики про новые ФР и удивляюсь, все было ок с распознаванием, а тут такие косяки лезут.
Оно мне надо?
Скорость распознавания в новых версиях выросла?
Зато потом прочитать от корки до корки придется каждое слово?
Оно мне зачем?
Я поставил распознаваться 500 страниц и пошел курить или чай-кофе пить )
3 минуты мне погоды не сделают )
Зато уверен, что текст не будет искорежен )
Отв: Курьезы сканировщика
Угу.
У ФР11 есть один очень серьёзный баг: распознавание диалога иногда в стиле "содержание", при этом при экспорте в фб2 эта часть текста не передаётся. Как с ним бороться, я писала в своём блоге. Это разовая акция в каждой книге, которая обезопасит тебя от опасности потерять куски текста.
Похожая ситуация - с текстом в нижней трети страницы, отделённым от остального текста, который иногда распознается как сноска. Лечится одновременно с предыдущим.
И ещё мне очень не хватает отменённой возможности добавлять в словарь все парадигмы слова. Но это терпимо. Многие и не пользовались этой возможностью вовсе.
ФР11 можно взять, например, здесь.
Отв: Курьезы сканировщика
1) Не понял, в чем тут скачок? Позволяет тем, кто хочет тяп-ляп, сразу получить фб2, и закинуть в инет?
Пользуюсь после ФР вордом со скриптами и ФБД, заодно отлавливаются разные кривые концовки предложений и проч. Потом уже в ФБЕ.
2) В чем скачок тут? На 8 версии никогда не наблюдал проблем с сохранением или добавлением руками болдов-италиков. Только что проверил в 8 версии - прекрасно сохраняется и добавляется.
3) Уж не помню, когда последний раз были проблемы с тире в диалогах. ЕМНИП - может, в 6 версии сталкивался, да и то нечасто.
4) Сама понимаешь, сомнительный аргумент. Склейка отслеживается в ФР без проблем. Разорванные легко лечатся скриптами ворда, фбе и т.п.
5) Чистка и правка текста никуда не денется. Мне, например, многое сильно проще скриптами и регэкспами в ворде поймать. И потом все равно найти еще какие-то буковки для правки в ФБЕ )
6) Насколько быстрее? Компенсирует ли это отсебятину в тексте? (подлинным - по длинным и подобное)?
7) Назвать хорошим распознавание, когда надо следить, не пропал ли текст, я назвать не могу при всем желании.
Для меня это главный кошмар, когда надо за ФР еще проверять, весь ли текст распознается и передается.
Для чего возня со стилями - в чем преимущество вообще в их наличии в ФР? Можно ли выключить стили совсем (не потеряв болдов-курсивов) и не переживать за сохранность кусков текста?
8) Обработка сносок - существенный момент, когда их много.
В итоге - очень сомнительные преимущества лично для меня.
Спс, гляну )
Отв: Курьезы сканировщика
Ну и ладно. Зачем мне переубеждать всем довольного ТаКира? В-)
Отв: Курьезы сканировщика
Да, я ретроград )
Как в том анекдоте - "только ради бога, ничего не трогай, ничего не меняй" )
(Привет Тигра)
Но 11 ФР качаться поставил, спасибо )
Отв: Курьезы сканировщика
Кстати, появился ли в 11 ФР поиск и вставка знака абзаца?
Отв: Курьезы сканировщика
Нет. Разрыв строки и мягкий перенос - как и в предыдущих версиях.
Отв: Курьезы сканировщика
А у меня остались ностальгически-светлые воспоминания об FR5.
Возможно он и проигрывает нынешним версиям в скорости и где-то в качестве распознавания, но у него были и огромные преимущества, например, на автомате очень точно подбирал яркость так, чтобы тень в развороте книги (в ямке) не сливалась с текстом, т.е. не было ни кляксы, ни белой дырки. Это позволяло сканировать книги довольно бережно, не разворачивая и не прижимая их так сильно, как часто требовалось в более поздних версиях. Проблем с диалогами было меньше, потому что оформление их списками появилось позже, начиная с версии 6. И главное, ни разу не было, чтобы какой-то кусок страницы (особенно последние строки) вдруг просто проигнорировался, как сейчас бывает. А тогда я сканировал реально помногу. Сейчас-то только балуюсь иногда.
Отказаться от FR5 пришлось (с огромным сожалением) только из-за перехода на новые версии Windows.
И что характерно, у меня это была единственная лицензионная версия, все последующие были ломаными. Может это играет какую-то роль?
Отв: Курьезы сканировщика
Задумалась. У меня ФР11 лицензионный. Может, и правда дело в этом?
Отв: Курьезы сканировщика
Разбираюсь с ФР 11.
Есть вопросы по алгоритму )
Назначение стилей производится в какой момент - после загрузки книги, до наложения блоков или после? До распознавания текста или после?
Как применить стили ко всем страницам? Сейчас на распознанном тексте у меня на каждой странице свои стили, те же сноски все разного размера.
Не передаются стили "Подписи к картинкам". Распознаются, но не передаются в ворд и фб2.
Какой вариант выбирать - форматированный текст, редактируемая копия или точная копия?
Влияет ли это на качество распознавания и стили и на передачу в ворд и фб2?
Из хорошего текстового pdf не передался в фб2 ни один курсив и болд - чисто плэйн текст. В ворд передается нормально.
(Блоки были наложены с помощью шаблона, одинаковые на все страницы, и поправлены в нужных местах).
Если несложно, добавь при случае ответы в свой блог по алгоритму работы с ФР, плиз!
Т.е. желательно описать процесс с самого начала - открываем ФР, делаем то-то, потом то-то и т.п.
Отв: Курьезы сканировщика
Добавила. :)
Отв: Курьезы сканировщика
Отв: Курьезы сканировщика
Исследовал явление "отсебятинга" на книге "Сироты квартала Бельвилль". Буковки тоненькие, FR постоянно путает "и", "н" и "п". Персонажа зовут Рири, соответственно на выходе - примерно равновероятны все 9 вариантов. :-( Занёс слово "Рири" в словарь и прогнал распознавалку по новой - как рукой сняло. :-)
Отв: Курьезы сканировщика
Я при обнаружении подобной постоянной ошибки делаю массовую замену - с учетом регистра и - в подходящем случае "только слово целиком".
Фокус со словарём мне несколько раз не помог, поэтому я им не пользуюсь.
Спасибо за нормализацию сайта!
Спасибо администрации Либрусека за нормализацию функционирования Библпотеки! Теперь можно вернуться
Отв: Курьезы сканировщика
Я использую FR11 выпуск 11.02.102.583 - практически никаких проблем. В последних книгах плохо распознавал сочетание "гр" выдавал, например, вместо гроб - фоб.
Отв: Курьезы сканировщика
При проблемах с распознаванием ФР ищет ближайшее слово в словаре. Отсюда эти курьезы. При хороших сканах ничего подобного не наблюдается. На сайте Twirx скачал две книги. Кто-то залил не проверяя. Видно прямо из ФР. Там по всему тексту вместо "гр" - "ф", "ыо" - "ью", "JI или J1 - Л" и т. п.
Отв: Курьезы сканировщика
(del)
Отв: Курьезы сканировщика
На счет FR11
Делаю книгу 900 стр. где-то 4000 сносок
ворд (точная) и djvu - минут за 5 создались
pdf - вылетает с ошибкой после 20 мин думания, на любых настройках
fb2 - висит третий час. Прерывал первый раз выгрузку в fb2 через час, получился недописанный 3,5 метровый файл - остановилось на сноске №1085))
А ещё минусы, но это не только у FR11, - использует только одно ядро проца(1/4) и 250М памяти. Хотя памяти 16гиг, можно было бы все туда сгрузить и не "свопить" на диск
Отв: Курьезы сканировщика
У меня нет советов в данном случае. :( Не сталкивалась. Может, кто-то другой подскажет.
Разве что удивляюсь скорости экспорта в djvu. У меня обычно длится намного дольше. Наверное, зависит от исходного скана.
Отв: Курьезы сканировщика
в настройках экспорта djvu поставил 150dpi...
Я pdf или djvu(реже) всегда делаю: так удобнее вычитывать, чем по сканам, да и пропавшую часть текста можно по ходу скопипастить...
Страницы