Вы здесьТехническая тема о распознавании скриншотов
Опубликовано чт, 19/07/2012 - 11:53 пользователем Verdi1
Попробовал я на днях такой вот подход к оцифровке книг, которые можно читать только через всякие хитрожопые интерфейсы, где до собственно текста не добраться, типа как в гугл-букс. Вот, думаю, можно же нарезать скриншоты, а потом их и распознать, как сканы. Рука устанет, конечно, но книжка-то будет! Качество распознавания, думаю я дальше, должно быть просто отменным – ведь никаких дефектов изображения и мушиных какушек на скриншотах нет по определению. И вот такой обрадованный я приступил к экспериментам. FineReader 11, открывая скриншот, выругался таково: «Разрешение исходного изображения было исправлено». Я так понимаю, с присущих скриншотам 96 dpi на любимые Файнридером 150. После этого исправления буковки на скриншоте стали мелконькие, но всё равно довольно чёткие. Однако когда Файнридер начал их распознавать, он сделал столько ошибок, сколько я не видел даже на сканах вытащенных буквально из жопы страниц, в которые перед этим рыбу заворачивали (язык я правильно выставил, можете не сомневаться). К примеру, он воткнул апостроф после почти (!) каждой буквы w. Как заставить его НЕ исправлять разрешение картинки, я не нашёл. Нашёл в нём редактор изображений, но он позволяет лишь вернуть разрешение опять на 96 dpi у уже уменьшенного изображения. После такой двойной операции буквы расплываются и распознаются ещё хуже. В общем, какая-то совершенно дебильная ситуация, противоречащая всему моему жизненному опыту. Подскажите чего-нибудь.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
sem14 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 час
Саша из Киева RE:Подайте бедному копеечку на книжку с литреса... 2 часа Larisa_F RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 дня Larisa_F RE:Современная корейская литература. Книжная серия... 1 неделя Larisa_F RE:Таррин Фишер 1 неделя Aleks_Sim RE:Беженцы с Флибусты 1 неделя Саша из Киева RE:Как приобретать друзей и оказывать влияние на людей 2 недели Isais RE:Семейственность в литературе 2 недели miri.ness_ RE:Доступ 27 2 недели bmusanov Оплатил, но абонемент не отображается 3 недели holla RE:Багрепорт - 2 3 недели konst1 RE:Файнридер для Win11 3 недели larin RE:Оплатил, но абонемент не отображается 4 недели sem14 RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц Isais RE:Национальный конкурс на лучшее литературное произведение... 1 месяц Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 1 месяц sem14 RE:«Морской роман» — книжная серия Калининградского книжного... 1 месяц larin RE:Оплатил,но абонемент не отображается 1 месяц Впечатления о книгах
Barbud про Демин: 3 книга. 1 глава. Одна планета одно правительство, основной язык общения русский. 15 письмо проекта Главам государств, от 07.12.2023 года [СИ] (Публицистика, Ненаучная фантастика, Самиздат, сетевая литература)
28 08 Сезонное обострение? Рано вроде... Оценка: нечитаемо
дядя_Андрей про Ахмаров: В августе 79-го, или Back in the USSR (Исторические приключения, Ненаучная фантастика, Попаданцы)
28 08 Ну, в общем ляпы-то у него есть. Например, Андропов жалуется, что не в ЦК, хотя действие повестушки происходит в 1979-1980 гг. А Андропов был членом не просто ЦК, а Политбюро ЦК с 1973 года. А, в остальном, отторжения ……… Оценка: неплохо
udrees про Шульц: Как мы умираем. Конец жизни и что мы должны о нем знать (Публицистика, Психотерапия и консультирование)
28 08 Какая страшная книга, которую я только что прочитал. Закончив последние строчки, ощутил что сердце бьется сильнее обычного и меня переполняют эмоции. Книга безжалостна, описывает одно из трех значимых событий в жизни человека ……… Оценка: хорошо
udrees про Мантикор: Несуществующие земли (Боевая фантастика, ЛитРПГ, Самиздат, сетевая литература)
28 08 Отрадно прочитать, что автор не забыл наконец про фатумы в этой книге. Хорошо написанная очередная книга из серии литРПГ. Книга получилась довольно объемной, может даже несколько наскучить. Половину книги персонажи готовятся ……… Оценка: отлично!
pulochka про Свержин: Детективное агентство Шейли-Хоупса [litres] (Исторический детектив, Современная проза, Юмористическая проза)
28 08 В общем неплохо. НО! Автор видимо не в курсе, что мусульманам запрещено употреблять спиртное? Об этом даже детям об этом известно? А как тогда еще ляп про Джинн ,упоминая Мохаммеда ,закусывает это самое спиртное свининой!Ну,положим ……… Оценка: неплохо
alex064 про Кирилл Юрьевич Шарапов
27 08 Зазеркалье В общем - неплохо. Не вау. Автор владеет русским языком, поэтому читается хорошо. Перебор!!!, конечно, с описанием личных отношений. Но читаемо. На любителя "боевых, магических, любовных искусств", плюс интересные миры.
Barbud про Алексин: Потом и кровью (Альтернативная история, Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
27 08 Автор наделил своего героя сверхспособностью регулярно попадать из одной глубокой задницы в другую и собирать разные неприятности. Даже как-то обидно - что же ему так не везет? Но в целом читабельно. Оценка: неплохо
Stager про Юдковски: Гарри Поттер и методы рационального мышления [Harry Potter and the Methods of Rationality ru] (Фэнтези, Фанфик)
26 08 Американский ортодоксальный еврей с сомнительным литературным талантом решил написать фанфик. Представляете, что получится? Ну вот это и получилось. Плохой перевод лишь оттеняет. Оценка: плохо
obivatel про Поселягин: Пацифист [СИ] (Боевая фантастика, Попаданцы, Самиздат, сетевая литература)
26 08 Ох, как же достали дающие советы космического масштаба и столь же космической глупости по проф.Преображенскому. Ну не просто так сняли кабину стрелка с Ил-2. Планер исходно готовился под определённый двигатель, но планер готов, ……… Оценка: нечитаемо
svetik489 про Макаренков: Объект «Фенрир» [litres] (Боевая фантастика, Героическая фантастика, Космическая фантастика, Научная фантастика)
25 08 поставила неплохо,но винегрет ещё тот ... Оценка: неплохо
decim про Стивенс: Пять королевств Ирландии (Фэнтези, Классическая проза)
25 08 Фамилия автора обычно пишется Стивенз.
Lena Stol про Листратов: Моя Академия (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
25 08 Половина прочитана с интересом, вторую половину читала с пятого на десятое Оценка: неплохо |
Комментарии
Отв: Техническая тема о распознавании скриншотов
Вот мне тоже интересно. Иногда все же получается, но так редко
Отв: Техническая тема о распознавании скриншотов
Мнэ-э-э... Мне вот помогает - на малых текстах - распознавалка прямо с экрана, даже без предварительного скриншотенья: ABBYY Srceenshot Reader. Просто увеличиваю картинку в браузере и напускаю эту прожку. Кряхтеть будет в зависимости от объема текста, но ни разу еще не подводила, не висла, не вываливалась.
...Есть планы этой хней отщелкать онлайновый сборник в .swf, думаю, сможет; но планы пока далекие - пусть автор попродает его немного.
Подойдет ли к гуглобуксу - ХЗ.
Отв: Техническая тема о распознавании скриншотов
через скантейлор прогоните скриншоты, на выходе там можно выбрать нужное dpi , это правда как из пушки по воробьям) вроде в разных просмотрщиках можно менять, но как то не требовалось, откуда хоть пытаетесь выдирать то?
Отв: Техническая тема о распознавании скриншотов
Отв: Техническая тема о распознавании скриншотов
На флибусте задайте вопросик sonat10 про то как из киндлов выдирать текст, у меня небыло - не попробовать самому, а вот она говорила что какой то способ был :) и довольно хороший как я убедился, пусть у трудоемкий..
Отв: Техническая тема о распознавании скриншотов
Обрабатывать перед распознаванием скриншоты пакетной обработкой в какой нибудь прожке типа FastStone Photo Resizer. Задавать там увеличение до 150 dpi c сохранением физического размера — тогда оно в FineReadere елозить не будет.
Отв: Техническая тема о распознавании скриншотов
Это лишь ликвидирует сообщение файнридера при открытии картинки, всё остальное останется так же - картинка мельче чем исходный скриншот и ужасающее качество распознавания идеального вроде бы текста.
А программка полезная, пригодится.
Отв: Техническая тема о распознавании скриншотов
Не сохранения размера файла (в байтах), а физического размера картинки (в сантиметрах).
Ну или можно обрабатывать пакетом одновременно увеличение в два раза (пикселы) и dpi 150.
Прожка полезная.
Отв: Техническая тема о распознавании скриншотов
Но мне всё-таки чисто теоретически интересно, почему он потенциально безупречный текст так херово распознаёт?
Отв: Техническая тема о распознавании скриншотов
У меня скриншоты с Адоберидера на ура распознались.
Отв: Техническая тема о распознавании скриншотов
По-английски? Я в данный момент конкретно с английским текстом вожусь.
Отв: Техническая тема о распознавании скриншотов
Нет, на русском.
Шрифты увеличивать пробовали?
Отв: Техническая тема о распознавании скриншотов
Попробовал. Если сделать буквы реально крупными (значительно крупнее, чем обычно), то, действительно, распознавание получается гораздо чище. Сейчас попробовал на одной главе - ни одной ошибки. Хотя по какому принципу он модифицирует разрешение, я так и не понял. Некоторые скриншоты он ужимает, другие оставляет в исходном разрешении.
В общем, похоже, это единственный работающий подход пока. Хотя это существенно увеличивает количество скриншотов и, соответственно, нагрузку на правое запястье.
Отв: Техническая тема о распознавании скриншотов
В FastStone Photo Resizer.
1. Поставить галку в «Use advanched option» — появится кнопка «Аdvanched option» — щёлкаем в неё.
2. В закладке «dpi» ставим галку и выбираем dpi 150×150.
3. В закладке «Resize» ставим галку и выбираем «In percentage» и 200%.
Отв: Техническая тема о распознавании скриншотов
Скриншот выглядит примерно так (уменьшенный, понятное дело):
Распознанный текст вот такой:
Красненьким я выделил необъяснимые и ничем, с моей точки зрения, не оправданные ошибки распознавания.
Лично мне это напоминает диверсию и саботаж.
Отв: Техническая тема о распознавании скриншотов
Стрёмные буквы W в этом шрифте.
А нельзя его поменять в читалке на рубленый (без засечек)?
Отв: Техническая тема о распознавании скриншотов
О, и я о том же.
Отв: Техническая тема о распознавании скриншотов
Хммм... А может быть, дело просто в штрифте? Смотрите: ФР "видит" простое "w" как его же с апострофом. Это типичная ошибка.
Попробуйте пройтись с обучением. Научить распознавать именно "w".
Отв: Техническая тема о распознавании скриншотов
Используйте Corel Capture и будет вам счасте )
Отв: Техническая тема о распознавании скриншотов
Где взять? Чтоб чего лишнего не прихватить
Отв: Техническая тема о распознавании скриншотов
Скриншот сохранять не в JPEG, а в TIFF.
И потом уже с ним работать.
Отв: Техническая тема о распознавании скриншотов
Хм, а если у меня только в ping сохраняет?