Проблемы и приемы OCR: dewarp

Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?

Комментарии

Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676

Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU

Аватар пользователя s_Sergius

В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.

Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.

Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),

deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом

В моем случае ложка выглядит примерно так: Я думал, что это именно warp

Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:

Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:

Цитата:
При сканировании книг возможно искажение строк текста в той части изображения, где страница примыкала к переплету. На изображениях, полученных с помощью фотокамеры, строки текста также могут искажаться по краям изображения. Для того чтобы устранить искажения строк:
l нажмите кнопку или выберите в меню Изображение>Обработать Изображение>Устранить искажение строк.
http://www.tiflocomp.ru/docs/fr80/fr80_1_2.php

Цитата:
В ABBYY FineReader 9.0 улучшен механизм разгибания строк. Так, при распознавании отсканированных книг или сфотографированных документов часто возникает проблема, связанная с искажением строк – например, на книжных разворотах строки часто загибаются дугой в месте скрепления. Кроме того, при сканировании книг часто образуется большой затенённый участок, который появляется из-за того, что книга неплотно прилегала к поверхности сканера. Все это сильно снижает качество распознавания.
Ранее улучшения распознавания таких документов пользователям приходилось предварительно обрабатывать их во внешних программах: разгибать строки, удалять тени и т.п. В ABBYY FineReader 9.0 используются принципиально новые алгоритмы, и основной упор сделан на качестве и времени работы. В этот алгоритм добавлена возможность удаления теней с разворотов. В результате ABBYY FineReader 9.0 работает быстрее и стабильнее предыдущей версии, и по качеству не уступает лучшим мировым образцам.
Механизм удаления теней автоматически запускается при добавлении сфотографированного документа в ABBYY FineReader 9.0, таким образом, пользователю не нужно самостоятельно обрабатывать изображения с использованием других программ.
Кроме того, пользователь может самостоятельно запустить механизм выпрямления строк (команда меню Page -> Edit Page Image ->Straigten Text Lines), при этом также будет удалена тень в районе разворота.
http://www.abbyy.ru/finereader/?param=74792

На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.

АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:

Дык а я о чем ?

Виноват, подумал, что она в опциях сканирования сидит.

Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.

Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.

На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.

http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.

Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)

Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.

Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.

X