Вы здесьПроблемы и приемы OCR: dewarp
Опубликовано ср, 06/05/2009 - 04:06 пользователем Ulenspiegel
Если при сканировании книжка не прижата плотно к предметному стеклу, участки строк, находящиеся вблизи разворота, искривляются. При сильном искривлении (заползание на уровень соседней строки) программы распознавания приходят от таких червячков в недоумение. Не знает ли всемогущий All алгоритмов и (что еще лучше) готовых программ для борьбы с таким безобразием ?
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
нэнси RE:Подайте бедному копеечку на книжку с литреса... 1 день
konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 3 дня Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 4 дня fixel RE:Пропал абонемент 5 дней sem14 RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 2 недели sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 3 недели sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 4 недели Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 1 месяц sem14 RE:Серия "Символы времени" издательства "Аграф" 1 месяц tvv RE:faq brainstorm =) 2 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 2 месяца Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 2 недели larin RE:абонемент не обновлен 2 месяца sem14 RE:За иллюминатором (серия) - чего не хватает? 2 месяца sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 2 месяца Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 2 месяца tvv RE:DNS 2 месяца MrMansur RE:<НРЗБ> 2 месяца Впечатления о книгах
udrees про Джадсон: Каждой твари – по паре: Секс ради выживания (Биология, Научная литература: прочее)
21 03 Очень интересная научно-популярная книга, давно такой не читал, посвященная теме размножения и секса в дикой природе. Написана в живом и юморном стиле, в каждой главе начало показано как обращение какого-нибудь живого существа ……… Оценка: отлично!
udrees про Брукс: Лелит Гесперакс: Королева Ножей [ЛП] (Эпическая фантастика)
21 03 Не очень люблю читать истории про темных эльдаров с их сумасшедшими загонами насчет пыток и постоянных убийств. Тут относительно небольшая история одной великой суккубы – Лелит, как всегда интрига с борьбой с потенциальной ……… Оценка: неплохо
udrees про Френч: Ариман: Вечный (Эпическая фантастика)
21 03 Читать истории про легионеров Тысячи Сынов немного сложновато из-за их погруженности в книги, заклинания и метания в паутинах варпа. Простых добрых сражений с мечом и болтером, как у других легионов, куда как меньше, и много ……… Оценка: хорошо
udrees про Володин: Газлайтер. Том 11 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
21 03 Как понятно из 10й книги, эта посвящена полностью войне с Китаем, империей Хань. Как и вся книга, которая предельно несерьезная, примитивная, то и война такая же несерьезная, как детская войнушка. На нее собираются совершенно ……… Оценка: неплохо
udrees про Вааль: Достаточно ли мы умны, чтобы судить об уме животных? (Биология)
21 03 Прочитав эту книгу об умственных способностях животных, я так и не получил доказательств разума у братьев наших меньших. Половина книги или больше посвящена шимпанзе, которые справедливо считаются самыми умными среди животных. ……… Оценка: неплохо
iggy71 про Сашар: Я не верю в монстров [There’s a Boy in the Girls’ Bathroom ru] (Детская проза)
20 03 Шедевр. И перевод великолепный. Оценка: отлично!
iggy71 про Буайе: Ромашка. Легенда о пропавшем пирате [litres] (Исторические приключения, Морские приключения)
20 03 Эту муть мог сочинить только ИИ или наркоман. Оценка: плохо
Barbud про Алексеев: Стрелочники истории (Альтернативная история, Научная фантастика)
19 03 Сдохли бы два взрослых мальчика в силуре. Атмосфера тогда была не слишком подходящей для человека и нынешних животных - кислорода еще мало, на пределе для дыхания, углекислоты слишком много. Возможно, какие-нибудь роющие млекопитающие ………
mysevra про Лобанов: Охотник на творцов (Боевая фантастика, Детективная фантастика, Самиздат, сетевая литература)
17 03 Идея просто замечательная, а воплощена спустя рукава. Не знаю, может, мне просто претит излишняя несерьёзность и простота изложения. Какое-то оно чересчур комедийно-залихватское. Оценка: неплохо
mysevra про Гумилёв: Открытие Хазарии [историко-географический этюд] (История)
17 03 Не, ну это на любителя, господа. Вот я – любитель, поэтому перечитываю. Оценка: отлично!
mysevra про Абакумов: Модератор реальности (Боевая фантастика)
17 03 Вроде и сюжет закручен, и идея неплохая, но события так вязко и затянуто изложены, что я не дочитала. Оценка: неплохо
francuzik про Осадчий: Приключения смекалистого мага жизни (Фэнтези, Самиздат, сетевая литература)
17 03 Долго ждал продолжения истории о Петре Птахине. И это случилось. Автор правда другой, но написано ничуть не хуже. Оценка: отлично! |
Комментарии
Отв: Проблемы и приемы OCR: dewarp
Насчет алгоритмов не знаю (хотя Файнридер вроде что то делает) но как вариант решения за $500 смотри тут: http://lib.rus.ec/node/131676
Отв: Проблемы и приемы OCR: dewarp
Э нет, кривой скан в данном случае - уже данность :( В смысле - готовый DJVU
Отв: Проблемы и приемы OCR: dewarp
В FineReader 8, которым я пользуюсь, в настройках "1. Сканировать/открыть" есть опция "Устранить искажение строк". Очень даже помогает.
В 9-й версии наверняка тоже есть.
Отв: Проблемы и приемы OCR: dewarp
Есть , "streighten lines" и "desкew" - кто из них кто уже не помню за ненадобностью.
можно на страницу провести операцию а можно применить ко всем , но я бы советовал постранично ибо некоторые страницы наоборот как раз портит.
Отв: Проблемы и приемы OCR: dewarp
Да вы чего, издеваетесь, панове ?! deskew - есть, это исправление перекоса (когда книжку положили непараллельно границам окна),
Отв: Проблемы и приемы OCR: dewarp
deskew - это совсем из другой оперы.
Возьмите ложку. Положите ее на стол под уголм 45градусов к краю. Исправьте положение ложки. А теперь СОГНИТЕ ложку поплам и попрубуйте исправить перекос относительно края тем же способом
Отв: Проблемы и приемы OCR: dewarp
В моем случае ложка выглядит примерно так: Я думал, что это именно warp
Отв: Проблемы и приемы OCR: dewarp
Я не издеваюсь , я же сказал что не помню, значит не deskew а второй - staighten text lines:
Отв: Проблемы и приемы OCR: dewarp
Теоретически в 8 и 9 Файнридерах имеется встроенный механизм коррекции:
На практике, выработанной на 4м ещё файнридере, лучшим удалителем искажений в зоне разворота служит левая рука, прижимающая книгу к сканеру в момент сканирования... :)
...Каких либо отдельных программ, позволяющих выпрямлять строки я никогда не встречал. Теоретически это можно проделать в фотошопе, но... страницу, пусть две. А сотню? Сомневаюсь.
Отв: Проблемы и приемы OCR: dewarp
АААА!!!! Спасибо, Jolly Roger - ака, и вправду есть! Они его спрятали неочевидным образом.
Если кто-нибудь еще на эти грабли наступит, тулза работает и выглядит вот так:
Отв: Проблемы и приемы OCR: dewarp
Дык а я о чем ?
Отв: Проблемы и приемы OCR: dewarp
Виноват, подумал, что она в опциях сканирования сидит.
Отв: Проблемы и приемы OCR: dewarp
Вроде бы именно такие искривления исправляет Book Restorer. Подробности на ru-board.
Отв: Спасибо!
Век живи - век учись... Действительно, есть и отдельная программа под задачу:
http://djvu-soft.narod.ru/scan/curved_text.htm
...как я понимаю, у неё настроек побогаче будет. Видимо, для сложных случаев может оказаться предпочтительней.
Отв: Проблемы и приемы OCR: dewarp
На сорсфорже была утилитка unpaper - она, кажется, умела автоматически делать обработку сканированных страниц, выравнивая картинки, зачищая поля и выравнивая интенсивность фона. Заодно резала на страницы, если сканировался разворот.
Отв: Проблемы и приемы OCR: dewarp
http://unpaper.berlios.de
А строки, AFAIK, не ровняет.
Но вобщем ничего, пользуюсь периодически.
Отв: Проблемы и приемы OCR: dewarp
Если нужно подготовить скан для создания дежавю, то лучше выпрямить строки программой BookRestorer. Там же можно сделать все остальное (чистка, обрезка и т. д.)
Отв: Проблемы и приемы OCR: dewarp
Покажите, плз, мне нормально выпрямленные букресторером строки
Я пробовал это делалать, у меня не получилось. У моих знакомых по ру-боарду тоже.
Отв: Проблемы и приемы OCR: dewarp
Показать в буквальном смысле не могу, т. к. не сохраняю исходники во-первых, и не помню какие именно строки были выпрямленыв во-вторых. Но этой функцией пользовался не раз и не два. Настройки дефолтные. Правда, изгиб касался максимум 3-4 строк внизу страницы. Обычно все же стараюсь прижимать книгу к сканеру :) Совсем уж бракованный скан проще переснять, чем маяться с ним.