Вы здесьТехническая тема о распознавании скриншотов
Опубликовано чт, 19/07/2012 - 11:53 пользователем Verdi1
Попробовал я на днях такой вот подход к оцифровке книг, которые можно читать только через всякие хитрожопые интерфейсы, где до собственно текста не добраться, типа как в гугл-букс. Вот, думаю, можно же нарезать скриншоты, а потом их и распознать, как сканы. Рука устанет, конечно, но книжка-то будет! Качество распознавания, думаю я дальше, должно быть просто отменным – ведь никаких дефектов изображения и мушиных какушек на скриншотах нет по определению. И вот такой обрадованный я приступил к экспериментам. FineReader 11, открывая скриншот, выругался таково: «Разрешение исходного изображения было исправлено». Я так понимаю, с присущих скриншотам 96 dpi на любимые Файнридером 150. После этого исправления буковки на скриншоте стали мелконькие, но всё равно довольно чёткие. Однако когда Файнридер начал их распознавать, он сделал столько ошибок, сколько я не видел даже на сканах вытащенных буквально из жопы страниц, в которые перед этим рыбу заворачивали (язык я правильно выставил, можете не сомневаться). К примеру, он воткнул апостроф после почти (!) каждой буквы w. Как заставить его НЕ исправлять разрешение картинки, я не нашёл. Нашёл в нём редактор изображений, но он позволяет лишь вернуть разрешение опять на 96 dpi у уже уменьшенного изображения. После такой двойной операции буквы расплываются и распознаются ещё хуже. В общем, какая-то совершенно дебильная ситуация, противоречащая всему моему жизненному опыту. Подскажите чего-нибудь.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
macs1112 RE:Подайте бедному копеечку на книжку с литреса... 2 дня
Ldrozd RE:Сандра Ньюмен - Джулия [1984] 4 дня konst1 RE: Банда Рафаэля 4 дня Isais RE:Лоренс Даррелл - Горькие лимоны 5 дней Isais RE:B157704 Черепаха Киргала 6 дней Oleg V.Cat RE:Беженцы с Флибусты 6 дней sem14 RE:Литературная премия «Ясная Поляна» 6 дней blahblahblah2024 RE:Сборник - Советская морская новелла. Том 1 1 неделя Ма-Рита RE: День рождения человечества 1 неделя Isais RE:Обновление FictionBook Editor 1 неделя Alex_61 RE:Windows 7 безопасна благодаря помощи NSA??? 2 недели Саша из Киева RE:Лимонные дольки 2 недели Trinki RE:Любительские переводы 2 недели nehug@cheaphub.net RE:Подробнее о правилах, если можно? 2 недели Isais RE:Семейственность в литературе 2 недели kopak RE:Небольшой тест. 2 недели nehug@cheaphub.net RE:Как тут читать и скачивать книги? 2 недели nehug@cheaphub.net RE:Домен и сертификаты 2 недели Впечатления о книгах
DGOBLEK про Андреев: ЧВК «Вагнер». Летопись: Донбасс. Сирия (Биографии и Мемуары, Военная документалистика)
17 10 Краткое содержание - Везде ...лей отхватывают от Игила в Сирии, от Азова в Украине, В собственной стране карлик всю верхушку в небе на небеса отправил, ну а остатки туареги в Африке недавно разгромили. Новое мясо набирают ……… Оценка: нечитаемо
Aleks_Sim про Андреев: ЧВК «Вагнер». Летопись: Донбасс. Сирия (Биографии и Мемуары, Военная документалистика)
17 10 DGOBLEK а про Бахмут, где вагнеровцы азовцев раздербанили ты что от скромности умалчиваешь... Оценка: отлично!
Oleg V.Cat про Мания: История атомной бомбы (История, Физика, Научпоп)
17 10 Неряшливо... «Это почти так же невероятно, как если бы швырнуть фанату на лист шелковой бумаги — и она рикошетом попала бы в тебя самого». Ну ладно, непосредственно за "фанату" ответственнен ocrщик, но Набатниковой ……… Оценка: хорошо
Ратослава про Конофальский: Божьим промыслом. Пожары и виселицы (Фэнтези, Историческая проза)
15 10 В целом, хорошо. Но не пора ли отпустить старого генерала на покой? Оценка: хорошо
Belomor.canal про Заграевский: Новые исследования памятников архитектуры Владимиро-Суздальского музея-заповедника (История, Искусство и Дизайн, Архитектура)
15 10 Книга написана кандидатом мастра спорта по боксу, обладателем коричневого пояса и бывшем председателем банка, не имевшим архитектурного образования - кончил МАДИ и занимался логистикой тары на ЭВМ(!) - но шустрым медийный ……… Оценка: хорошо
Belomor.canal про Анонимус: Каирский дебют. Записки из синей тетради [litres] (Исторический детектив)
14 10 Слишком короткие рассказики для нормального чтения, на любителя! Оценка: неплохо
tvv про Манцуров: Рагнарёк Онлайн. Трансмигратор ( Том 1 и 2 ) (Фанфик, ЛитРПГ, Самиздат, сетевая литература)
14 10 На АТ уже 9 томов, все бесплатно.
DGOBLEK про Микулов: Тропа длиною в жизнь [Книга не полностью] (Фэнтези, Научная фантастика)
14 10 Книга не полностью. Отсутствует в книге - Олег Микулов. Предисловие, стр. 5-6 М. Аникович. Комментарий археолога, стр. 507-526
Oleg V.Cat про Волков: Специалист по выживанию. Том II (Боевая фантастика, Самиздат, сетевая литература)
14 10 Скучно. Когда крыса с человеческим сознанием (первая книга) бегает по крысиным тропам - это, как минимум, забавно. Когда человек косплеит крысу в канализации - это интересно только как сексуальное извращение.
Oleg V.Cat про Волков: Специалист по выживанию (том I) (ЛитРПГ, Самиздат, сетевая литература)
14 10 Так себе. Полное отсутствие какой-либо оригинальности, но читается более-менее гладко. Как практически у любого автора "про там" - некоторые напряги с масштабом цен. Ну ладно, помещение мастерской в подвале в бойком месте ………
Oleg V.Cat про Росс: Наука Шерлока Холмса [методы знаменитого сыщика в расследовании преступлений прошлого и настоящего] [litres] (Юриспруденция, Научная литература: прочее)
14 10 Троечка. Очень "галопом по всему Лондону", несвязно. Много фактических ошибок по шерлокиане, о которые спотыкался и переводчик, в конце концов плюнувший на поиски цитат в переводах. Так что и непонятно, кто ответственен, скажем, ……… Оценка: неплохо
Oleg V.Cat про Барсик
13 10 Первая книга, по нынешним временам, на твердую четвёрку. Поставил бы больше, но терзает диссонанс между сюжетом (милая, пусть и с налётом грусти сказочка про бездомных котиков-сирот) и формой его подачи в стиле "курс молодого ……… |
Комментарии
Отв: Техническая тема о распознавании скриншотов
Вот мне тоже интересно. Иногда все же получается, но так редко
Отв: Техническая тема о распознавании скриншотов
Мнэ-э-э... Мне вот помогает - на малых текстах - распознавалка прямо с экрана, даже без предварительного скриншотенья: ABBYY Srceenshot Reader. Просто увеличиваю картинку в браузере и напускаю эту прожку. Кряхтеть будет в зависимости от объема текста, но ни разу еще не подводила, не висла, не вываливалась.
...Есть планы этой хней отщелкать онлайновый сборник в .swf, думаю, сможет; но планы пока далекие - пусть автор попродает его немного.
Подойдет ли к гуглобуксу - ХЗ.
Отв: Техническая тема о распознавании скриншотов
через скантейлор прогоните скриншоты, на выходе там можно выбрать нужное dpi , это правда как из пушки по воробьям) вроде в разных просмотрщиках можно менять, но как то не требовалось, откуда хоть пытаетесь выдирать то?
Отв: Техническая тема о распознавании скриншотов
Отв: Техническая тема о распознавании скриншотов
На флибусте задайте вопросик sonat10 про то как из киндлов выдирать текст, у меня небыло - не попробовать самому, а вот она говорила что какой то способ был :) и довольно хороший как я убедился, пусть у трудоемкий..
Отв: Техническая тема о распознавании скриншотов
Обрабатывать перед распознаванием скриншоты пакетной обработкой в какой нибудь прожке типа FastStone Photo Resizer. Задавать там увеличение до 150 dpi c сохранением физического размера — тогда оно в FineReadere елозить не будет.
Отв: Техническая тема о распознавании скриншотов
Это лишь ликвидирует сообщение файнридера при открытии картинки, всё остальное останется так же - картинка мельче чем исходный скриншот и ужасающее качество распознавания идеального вроде бы текста.
А программка полезная, пригодится.
Отв: Техническая тема о распознавании скриншотов
Не сохранения размера файла (в байтах), а физического размера картинки (в сантиметрах).
Ну или можно обрабатывать пакетом одновременно увеличение в два раза (пикселы) и dpi 150.
Прожка полезная.
Отв: Техническая тема о распознавании скриншотов
Но мне всё-таки чисто теоретически интересно, почему он потенциально безупречный текст так херово распознаёт?
Отв: Техническая тема о распознавании скриншотов
У меня скриншоты с Адоберидера на ура распознались.
Отв: Техническая тема о распознавании скриншотов
По-английски? Я в данный момент конкретно с английским текстом вожусь.
Отв: Техническая тема о распознавании скриншотов
Нет, на русском.
Шрифты увеличивать пробовали?
Отв: Техническая тема о распознавании скриншотов
Попробовал. Если сделать буквы реально крупными (значительно крупнее, чем обычно), то, действительно, распознавание получается гораздо чище. Сейчас попробовал на одной главе - ни одной ошибки. Хотя по какому принципу он модифицирует разрешение, я так и не понял. Некоторые скриншоты он ужимает, другие оставляет в исходном разрешении.
В общем, похоже, это единственный работающий подход пока. Хотя это существенно увеличивает количество скриншотов и, соответственно, нагрузку на правое запястье.
Отв: Техническая тема о распознавании скриншотов
В FastStone Photo Resizer.
1. Поставить галку в «Use advanched option» — появится кнопка «Аdvanched option» — щёлкаем в неё.
2. В закладке «dpi» ставим галку и выбираем dpi 150×150.
3. В закладке «Resize» ставим галку и выбираем «In percentage» и 200%.
Отв: Техническая тема о распознавании скриншотов
Скриншот выглядит примерно так (уменьшенный, понятное дело):
Распознанный текст вот такой:
Красненьким я выделил необъяснимые и ничем, с моей точки зрения, не оправданные ошибки распознавания.
Лично мне это напоминает диверсию и саботаж.
Отв: Техническая тема о распознавании скриншотов
Стрёмные буквы W в этом шрифте.
А нельзя его поменять в читалке на рубленый (без засечек)?
Отв: Техническая тема о распознавании скриншотов
О, и я о том же.
Отв: Техническая тема о распознавании скриншотов
Хммм... А может быть, дело просто в штрифте? Смотрите: ФР "видит" простое "w" как его же с апострофом. Это типичная ошибка.
Попробуйте пройтись с обучением. Научить распознавать именно "w".
Отв: Техническая тема о распознавании скриншотов
Используйте Corel Capture и будет вам счасте )
Отв: Техническая тема о распознавании скриншотов
Где взять? Чтоб чего лишнего не прихватить
Отв: Техническая тема о распознавании скриншотов
Скриншот сохранять не в JPEG, а в TIFF.
И потом уже с ним работать.
Отв: Техническая тема о распознавании скриншотов
Хм, а если у меня только в ping сохраняет?