Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
PipboyD RE:Подайте бедному копеечку на книжку с литреса... 6 часов
sem14 RE:Михаил Юрьевич Берг - Андеграунд. Итоги. Ревизия_5 3 дня TaKir RE:Валерия Сергеевна Черепенчук А. Н. Николаева - Мифы... 4 дня Oleg V.Cat RE:B343695 Александр. Книга 1 5 дней Isais RE:Калибрятина/Самиздатина 1 неделя md2k15 RE:Относительно Вархаммер 40 000 1 неделя Oleg V.Cat RE:Беженцы с Флибусты 1 неделя tvnic RE:"Коллектив авторов" 1 неделя SergL197 RE:Регистрация 1 неделя ejik.v RE:Viva Stiver! 1 неделя RedRoses3 RE:Флибуста конец? 2 недели Ldrozd RE:Сандра Ньюмен - Джулия [1984] 3 недели konst1 RE: Банда Рафаэля 3 недели Isais RE:Лоренс Даррелл - Горькие лимоны 3 недели Isais RE:B157704 Черепаха Киргала 3 недели sem14 RE:Литературная премия «Ясная Поляна» 3 недели blahblahblah2024 RE:Сборник - Советская морская новелла. Том 1 1 месяц Isais RE:Обновление FictionBook Editor 1 месяц Впечатления о книгах
badbag про Барчук: Колхоз: Назад в СССР [СИ] (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
06 11 Не рекомендую читать ночью, во время приема пищи и любых жидкостей. Чревато. Оценка: хорошо
Дей про Гаврик: Новая хозяйка блуждающей лавки [СИ] (Любовная фантастика, Самиздат, сетевая литература)
05 11 Какая же мерзость хахаль ГГ, вот уж воистину странные вкусы у некоторых дамочек. Оценка: плохо
Дей про Гаврик: Закуска с характером (Любовная фантастика, Попаданцы, Самиздат, сетевая литература)
03 11 А ведь и правда хорошо. Отличная женская сказка, не стыдно посоветовать. Оценка: хорошо
ikravtso про Вячеслав Александрович Каликинский
03 11 Романы про Агасфера интересные, хотя первый очень "рваный", сложно понять, что за чем происходит, время действия постоянно скачет. А вот фразы на иностранных языках - это некое "твоя моя не понимай". Даже гугль-перевод лучше ………
Дей про Шах: Купеческая дочь замуж не желает (Фэнтези, Попаданцы, Самиздат, сетевая литература)
02 11 Молочный ряд был богатым, представлено все разнообразие молочной продукции здешних краев. Просто молоко, сметана, творог, масло, различные сыры — полутвердые, овечьи, козий сыр. Не заметила плавленого сыра. И кисломолочных ……… Оценка: плохо
Sello про Аллен: Побочные эффекты [Авторский сборник] [Side Effects ru] (Современная проза)
02 11 Его тексты - как если бы, скажем, идя в обратном направлении, посмотреть фильм "Голый пистолет" и после того по нему написать рассказ. Сюр с элементами специфического юмора или, наоборот, юмор с вкраплениями сюра. Но есть ……… Оценка: хорошо
Её Лунная Тень про Трофимов: Драку заказывали? [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
01 11 Грузите запятые бочками. Братья Куромазовы". Автор - двоечник и графоман. Оценка: нечитаемо
andmalin про Трофимов: Драку заказывали? [СИ] (Боевая фантастика, Космическая фантастика, Самиздат, сетевая литература)
01 11 Довольно неплохо , если первую еле одолел , то вторую и третью прочитал с удовольствием . Оценка: хорошо
decim про Ансари: Цивилизация рассказчиков: как истории становятся Историей [litres] (История, Публицистика, Обществознание)
31 10 За несколько веков на кострах были сожжены десятки тысяч ведьм" - автор повторяет кровавый навет протестантов на католиков, пошедший со времени соперничества Англии и Испании, и убедительно расписанный Шарлем де Костером. ……… Оценка: плохо
udrees про Кронин: Замок Броуди [litres] [Hatter's Castle ru] (Классическая проза)
30 10 Хорошая классическая литература. Книга так живо описывает мрачную и тяжелую жизнь одного семейства в Англии 19 века. С первых страниц понимаешь что все проблемы в жизни этого семейства исходят от одного человека – отца семейства. ……… Оценка: хорошо
udrees про Кронин: Замок Броуди [Hatter's Castle ru] (Классическая проза)
30 10 Хорошая классическая литература. Книга так живо описывает мрачную и тяжелую жизнь одного семейства в Англии 19 века. С первых страниц понимаешь что все проблемы в жизни этого семейства исходят от одного человека – отца семейства. ……… Оценка: хорошо
udrees про Дебрецени: Холодный крематорий. Голод и надежда в Освенциме [litres] (Биографии и Мемуары, Публицистика)
30 10 Жутковатая книга про жизнь в лагере смерти, написана со всеми подробностями, ужасами быта, зверствами, убийствами. Поражает, что хотя Освенцим советские войска освободили еще в конце февраля 1945 года, тем не менее автор книги ……… Оценка: хорошо |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.