Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
agent4707 RE:Подайте бедному копеечку на книжку с литреса... 11 часов
kopak RE:Таинственная личность админа Флибусты 22 часа Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 день Isais RE:Дмитрий Анатольевич Горчев - ЖЖ Дмитрия Горчева (2009–2010) 5 дней Саша из Киева RE:Детям о Ленине (Издание 1965 года) 1 неделя Саша из Киева RE:Приключения Мишки-Ушастика (Перевод Марата Брухнова) 1 неделя babajga RE:Белая княжна 2 недели Isais RE:Файл достаточно хорош. Нет смысла в его улучшении. Ага,... 2 недели mazay RE:Sleepy Xoma - Bagⲣѱnoⲣojdennaѱ 3 недели zlyaka RE:С Новым годом! 3 недели Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 3 недели SparkySpirit RE:Прошу переформатировать, распознать, etc... 4 недели SparkySpirit RE:Жорж Санд - переводы 19 века 4 недели Саша из Киева RE:Наш дом - СССР 1 месяц babajga RE:Чернушка. Повести 1 месяц Саша из Киева RE:Сказки далёких островов 1 месяц babajga RE:Лопоухий бес 1 месяц babajga RE:Ежик покидает дом 1 месяц Впечатления о книгах
Sello про Акопян: Кавалер Ордена Золотого Руна (Юмористическая проза)
24 01 Читать не буду, даже если выяснится, что написано божественным языком. Меня интересует другое: что за жлобство наблюдается в последнее время, привлекать к себе внимание, используя известные имена в литературе, тех, кто прославился ……… Оценка: нечитаемо
decim про Шамбаров: Почему мы дошли до Берлина? Параллельная история Второй мировой войны (Исторические приключения, О войне)
24 01 Популярно стало мымыкать от имени отцов и дедов - они сами уже ничего не скажут. И выглядит это как "позор джунглям!" из-за спины Шер-Хана...
Barbud про Рейхсфюрер 1943
23 01 Гм... "Первый том неоднократно удостоился сравнения с лучшими работами великого Олега Рыбаченко" - да уж, это такая рекомендация, что после нее все сомнения "читать-не читать" отпали начисто))
mysevra про Мори: Пустой человек (Космическая фантастика, Социальная фантастика, Ужасы)
23 01 Стóящий сборник, есть оригинальные истории, рассказанные хорошим языком. Но немного депрессивно; послевкусие от прочтения не приятно-жутенькое, а стыло-обречённое. Оценка: хорошо
Wild_XC70 про Дроздов: Интендант третьего ранга. Herr Интендантуррат [Дилогия] (Альтернативная история, Попаданцы)
22 01 Мне понравилось. Живой сюжет. Хороший слог. Оценка: отлично!
Wild_XC70 про Дроздов: Зубных дел мастер (Попаданцы, Самиздат, сетевая литература)
22 01 Начало интересное. Жду проду. Оценка: хорошо
Wild_XC70 про Дроздов: Командировка в ад [СИ] (Боевая фантастика, Приключения: прочее, Самиздат, сетевая литература)
22 01 Редкостное нечитабельное гуано. Писал не Дроздов а Матвиенко. Оценка: нечитаемо
Columbus про Мир вашему дому!
22 01 дядя_Андрей а ничего, что никаких "Татарстана, Хакассии, Мордовии, Удмуртии, Коми, Чувашии, Ханты-Мансийска" просто не существовало до прихода туда Русских людей? Не забудь об этом, когда будешь говорить о "покорении ………
V_E про Бегоунек: 7 недель в полярных льдах (Путешествия и география)
22 01 Жанры указаны - путешествия и география. Киберпанк я не указывал. Даже не знаю такого жанра.
дядя_Андрей про Мир вашему дому!
21 01 Второй гашек, а ничего, что никаких "Татарстана, Хакассии, Мордовии, Удмуртии, Коми, Чувашии, Ханты-Мансийска" просто не существовало до прихода туда Русских людей? у Олега Николаевича замечательные книги с правильными ………
grina про Никитин: Вадбольский – 2 (Фэнтези, Попаданцы, Самиздат, сетевая литература)
21 01 ощущение, что писал малолетний озабоченный, не сопоставляющий реалии сюжета, времени, традиций и норм. Оценка: неплохо
mysevra про Маринина: Стечение обстоятельств (Полицейский детектив)
20 01 Это нормально, когда через четверть века книжка лично для тебя превращается из ладной и остроумной в надуманную и скучную. Оценка: неплохо |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.