Мастер-класс по сканированию

Аватар пользователя Антонина82

Сразу расставлю точки над ё: я выступаю в роли прилежной ученицы. Учителей будет, как мне представляется, несколько.
Итак, шаг первый. Купить сканер. Здесь более-менее всё понятно

шаг второй.
Я не знала в каком формате нужно сканировать. Наверное, столь очевидный вопрос в головах знатоков даже не возник. С помощью Голмы, выяснилось, что формат jpg Создала папку на компьютере с названием книги, указав на сканере данные куда направлять отсканированные страницы.

Шаг третий. Столкнулась с проблемой, что бумага «просвечивает», т.е. видно, что напечатано на следующей странице. Это плохо отражается на качестве скана. Необходимо подкладывать чёрный лист. В комплектацию сканера, у меня по крайней мере, файл предусмотрен.

Шаг четвёртый. По совету Голмы режим сканирования установила для страниц без картинок – серый 300dpi, для картинок – режим 600 dpi. Сразу скажу, скорость при втором режиме резко падает.

Шаг пятый: сканирование, самый трудоёмкий и несколько нудный и однообразный процесс. Кладёшь на стекло страницу, затем устанавливаешь режим просмотра. Если полученное изображение удовлетворяет моим требованиям о качестве (что может не совпасть с мнением бывалых людей) жму на кнопку -сканировать

Шаг шестой: Папку с файлами заархивировала и отправила на файлообменник, в надежде на то, что кто-то подхватит из моих рук скан и сделает книжку. Освоить сразу все профессии по изготовлению электронных книг, для меня представляется пока сложной задачей.

Теперь вопросы, которые у меня возникли:
1 Надо ли сканировать пустые листы? Я один раз пропустила пустой лист, и у меня количество страниц не совпадало с книгой.
2. Файлообменник – любой, или есть у опытных людей пожелания.
3 Если вдруг я пропустила страницу, какой порядковый номер у страницы должен быть

Моя первая отсканированная книжка детская Я.Акима – с символичным названием «Неумейка» файл лежит здесь здесь

Можно указывать, на что надо обращать внимание и на ошибки используя «Неумейку», как пример.
И вообще хочется узнать от бывалых людей, какие проблемы могут подстерегать новичков, и как с этим бороться.

Комментарии

Lyka написал:
А что, именно эта книга нужна? Можно поискать.
Книга с "Читанки". Книг там много, но хоть бери и пересканируй.
IMXO такую детскую литературу в Djvu хранить не стоит. Потом ничего не переделаешь. Но с другой стороны... Сканы занимают столько места... И сильно не ужмешь. Свои храню в JPG 60%, и то выходит от 1 до 3 метров на страницу. А в TIFF цветные - есть и 25 метров.
Мне кажется, тут формат дежавю и не виноват, на этом примере видно только рукожопых сканировщиков. После такого действительно хоть пересканируй.
Ну и доставляет конечно, что черно-белые страницы свёрстаны в цветном профиле, т.е. разбухание дежавюшки за счёт неправильного профиля.

Lyka написал:
А что, именно эта книга нужна?
Не, это как пример. Наткнулся случайно, впечатлило. :-(
А нужна - этого же автора "Женя и синько". Нигде нету. :-((((

Почитал. Мда.
А Карл, Маркс, Фридрих и Энгельс Оказывается не четыре человека, а только два! А Слава Кпсс вообще не человек! Светлячков-то оказывается, фамилия автора книги!
Ужас-ужас!
Картинки как раз неплохие. Но вот сама дежавюшка! Ну кто ж так строит дежавюшку делает?! Кто ж так сканирует?!
Страницы обрезаны дико, на одной странице не хватает текста(слова обрезаны по несколько букв в конце на каждой строчке), зато на следующей странице появляются отдельно стоящие буквы неведомо что обозначающие(это как раз буквы, съеденные на предыдущей странице).
А уж какой встречается перекос! просто наклоняй голову под 45° и так и читай эти перекошенные страницы.
Поубывал бы гадив!
Кто ж так сканит!
А книжка-то судя по всему в хорошем состоянии, рисунки красочные.
Ну и конечно такая мелочь, как кодирование всей книжки одним профилем, т.е. в том числе и ч/б страниц цветным профилем.

Цитата:
На данный момент иностранный трафик у этого файла превышает российский. Вы можете получить этот файл, только если посетите сайт наших рекламодателей, помогающих оплачивать наши сервера и каналы. Нажмите сюда, чтобы перейти к выбору рекламодателей.

прикольно)

Star-zan написал:
Цитата:
На данный момент иностранный трафик у этого файла превышает российский. Вы можете получить этот файл, только если посетите сайт наших рекламодателей, помогающих оплачивать наши сервера и каналы. Нажмите сюда, чтобы перейти к выбору рекламодателей.

прикольно)
У меня тоже бывает такое предупреждение иногда, хотя я из России. Но у меня скрипт сам это дело обрабатывает, в смысле в Опере скрипт сам выбирает рекламодателя на 30сек.. Качать это не мешает. Немножко напрягает, что приходится капчу набирать, зато можно много загрузок одновременно закачивать и докачка при скачивании поддерживается, да и скорость скачивания приличная.

Zadd написал:
зато можно много загрузок одновременно закачивать и докачка при скачивании поддерживается, да и скорость скачивания приличная.
Во-во. И файл через месяц хранения не пропадает, а переходит в "архив", откуда вполне можно вытащить.

Star-zan написал:
Цитата:
Нажмите сюда

прикольно)
Нажимать пробовал? :-))))

Антонина82
Можете взяться? http://lib.rus.ec/node/314633
Я могу купить и передать Вам книгу.

Аватар пользователя Антонина82

niksi написал:
Антонина82
Можете взяться? http://lib.rus.ec/node/314633
Я могу купить и передать Вам книгу.

Да вы что? Я с поросёнком никак не разберусь.Лорд предлагает работать с открытой крышкой сканера, чтобы книгу размещать в одном положении, Мне это очень не нравится. Когда я сканировала, как рекомендовал изготовитель сканеров, у меня всё получалось хорошо. А при открытой крышке - очень неудобно и с первого раза у меня сканировать не получается - обязательно какой-то дефект вылазит.
Всё же ответьте мне на вопрос. Если я сканирую книгу, из которой будет делаться формат fb2, очень обязательно чтобы все страницы размещались в одном месте, а не так как я сделала ранее: четные - привязаны к правому верхнему углу страницы, а нечетные - к левому верхнему углу страницы.

Антонина82 написал:

Всё же ответьте мне на вопрос. Если я сканирую книгу, из которой будет делаться формат fb2, очень обязательно чтобы все страницы размещались в одном месте, а не так как я сделала ранее: четные - привязаны к правому верхнему углу страницы, а нечетные - к левому верхнему углу страницы.

Нет, не обязательно. На распознавании это никак не скажется. В вашем случае даже резать сканы пополам для распознавания не надо. Ведь у вас не разворотом сканируется. Не заморачивайтесь. Я просто не знал, что эту проблему так не просто решить, как, судя по общению с Лордом на флибусте.
В принципе, и для последующего создания PDF/DJVU это не критично. Можно отсортировать будет четные и нечетные и отдельно обработать. Так что все нормально, сканируйте. Извините что невольно запутал, и прервал РАБОТУ. :)

А не проще ли сканировать прямо в FR. Там никаких преобразований и искажений. Потом распознать. Даже если не распознавать можно передать пакетом FR.

Аватар пользователя Антонина82

А это как?

Антонина82 написал:
А это как?

А в разве не в FR сканируете?
Аватар пользователя Антонина82

niksi написал:
Антонина82 написал:
А это как?

А в разве не в FR сканируете?

Нет, я просто сканирую. Создала папку, там собираются файлы формата jpg, по-порядку. Каждая страница соответствует номеру файла. У меня на сканере есть кнопка book pilot, но я ещё не научилась её пользоваться.

Антонина82 написал:
niksi написал:
Антонина82 написал:
А это как?

А в разве не в FR сканируете?

Нет, я просто сканирую. Создала папку, там собираются файлы формата jpg, по-порядку. Каждая страница соответствует номеру файла. У меня на сканере есть кнопка book pilot, но я ещё не научилась её пользоваться.

В FR проще и удобнее. Не знаю, как именно с этим сканером, но с обычными проще, удобнее и даже быстрее. Но, опять-таки, не обязательно.

Антонина82 написал:
niksi написал:
Антонина82 написал:
А это как?

А в разве не в FR сканируете?

Нет, я просто сканирую. Создала папку, там собираются файлы формата jpg, по-порядку..

У-у-у...
Фаня создает собственный пакет/файл, где странички по порядочку. Прямо в фане потом распознается-правится-сохраняется в выбранном формате.
Старые версии фани сохраняли пакет в виде картиночных файлов, десятая - в собственном хитром формате.

Ничего хитрого там нет! :)

Прекрасный Чтец десятый (он же десятая Фаня) создает структуру каждой отсканеной страницы, и в ней -
[диск]:\[путь]\{папка сякая-то}\nnnn\Image\grayComponent.frdat - собс-но это BMP-файл - скан.

Остается сварганить батник что-то типа:

- сначала командой (в [диск]:\[путь]\{папка сякая-то})
dir /s /b grayComponent.frdat >extract_bmp.bat

В этом extract_bmp.bat будет типа:
[диск]:\[путь]\{папка сякая-то}\0001\Image\grayComponent.frdat
[диск]:\[путь]\{папка сякая-то}\0002\Image\grayComponent.frdat
[диск]:\[путь]\{папка сякая-то}\0003\Image\grayComponent.frdat

[диск]:\[путь]\{папка сякая-то}\nnnn\Image\grayComponent.frdat

- потом его подрихтовать, типа:

copy [диск]:\[путь]\{папка сякая-то}\0001\Image\grayComponent.frdat [диск]:\[путь]\{папка такая-то}\p0001.bmp
copy [диск]:\[путь]\{папка сякая-то}\0002\Image\grayComponent.frdat [диск]:\[путь]\{папка такая-то}\p0002.bmp
...
copy [диск]:\[путь]\{папка сякая-то}\1234\Image\grayComponent.frdat [диск]:\[путь]\{папка такая-то}\p1234.bmp
...

- главное не напутать с нумерацией :)
Лично я выделяю столбик с уже готовыми номерами.
- и выполнить потом.

а там уж (в [диск]:\[путь]\{папка такая-то}\*.bmp) их можно, при необходимости, во что-нить сконвертировать.

Надеюсь, внятен? :)

Аватар пользователя Антонина82

А у меня сканер формат BMP (windows bitmap) делает. Это то, про что вы пишите?

Антонина82 написал:
А у меня сканер формат BMP (windows bitmap) делает. Это то, про что вы пишите?

Нет, Антонина, bmp "не наш" формат. ;)

А чем формат bmp не угодил? Всю сознательную жизнь сохраняю сканы именно в нем.

Он без нужды "жирный" и не сохраняет разрешение изображения. От этого иногда выскакиват бока типа конского размера букв.

Fanex написал:
Он без нужды "жирный" и не сохраняет разрешение изображения. От этого иногда выскакиват бока типа конского размера букв.
Гы! Без нужды жирный - это да, это же просто карта пикселов без какой бы то ни было оптимизации, не говоря уж о сжатии(с потерями или без потерь). Но вот о том, что
Цитата:
не сохраняет разрешение изображения.
в корне неверно! Это единственный формат, открывая который программой Microsoft Paint, разрешение НЕ портится. Т.е. открываем любой формат, кроме BMP с любым разрешением в результате получаем 96DPI или 120DPI, в зависимости от настроек шрифтов в Винде(крупный 120, обычный 96). Хотя, казалось бы, при чём тут шрифты? А вот когда редактируешь Paint'ом BMP, тогда исходное DPI остаётся какое было.

Как хорошо, что я сначал научился сканировать и распознавать, а только потом прочитал ваш текст. Иначе меня бы к этому страшному делу и на пушечный выстрел бы не подтащили. Тем более все эти извраты с bmp с последующей конвертацией. На сколько я знаю, даже стандартный мастер-сканировщик не позволяет так издеваться над пользователем. По мне так проще отсканировать картинки в папку и закинуть скопом в фаню. Там, распознав их все, сохранить одним общим текстовым файлом. А уж pdf или doc это кому как удобней.

Попробуйте в ФР страничка за страничкой. Он все сам расставит и прономерует, потом сохранит одним пакетом, где все расставлено. Лучше использовать ФР10, но можно и ФР8.

У Finereader есть замечательная фишка: пакетное сканирование. Говорите в настройках сканера: отсканируй мне дружочек с паузой между страницами в 5 сек и используя собственный интерфейс сканирования. А потом только знай переворачивай странички.

Кстати, пакет файнридера (раньше был по крайней мере, в новых версиях не знаю) - это набор TIFF-файлов с хорошей компрессией и правльно пронумерованных. Я очень часто когда нужно отсканировать много изображений (или что-то типа чертежей от А2 до А0) использую старенький FR7 в этом режиме. А чертежи потом сшиваю фотошопом (там даже автоматически можно, знай только давай нормальный перехлест).

И распознавать сразу в файнридере классно - каждому распознаному символу соответствует место на изображении, поэтому править очень удобно, поглядывая на оригинал. Еще файнридер подсвечивает сомнительные места. В общем, лепота. Правда так наверное все OCR умеют.

Пару замечаний.
Попробуйте отсканировать пару десятков разворотов в цвете (типичная детская книжка). Посмотрите сколько будет весить пакет FR. Дальше, если вы будете Кромсать или обрабатывать изображения, то учтите что в разных версиях FR TIFF - многослойные (два или три слоя) и программы для работы с графикой их не понимают, тот же ST возьмет все изображения и получите вместо 100 разворотов - намного больше. Надо экспортировать страницы из FR.
Если используете FR как автосканер, то в настройках сбросьте галочки "разворот страницы" и "выравнивание изображения". Не будет искажения ступенькой.

Антонина82 написал:
А это как?

http://lib.rus.ec/node/323824#comment-211014

izekbis написал:
А не проще ли сканировать прямо в FR. Там никаких преобразований и искажений. Потом распознать. Даже если не распознавать можно передать пакетом FR.

Нужно сделать дежавю, поэтому скрипач FR не нужен, нужно сосканировать сразу в DjVu прогой DjVuExpressEditor

А зачем тогда Jpg. Почему здесь за него стоят. Ни как не пойму. Все делать в пакете FR лучше 10. Никаких сжатий и преобразований. Меньше искажений и ореолов.

izekbis написал:
А зачем тогда Jpg. Почему здесь за него стоят. Ни как не пойму. Все делать в пакете FR лучше 10. Никаких сжатий и преобразований. Меньше искажений и ореолов.
Ну дык. :)

izekbis написал:
А зачем тогда Jpg. Почему здесь за него стоят. Ни как не пойму. Все делать в пакете FR лучше 10. Никаких сжатий и преобразований. Меньше искажений и ореолов.

Речь о том, в каком формате передать для дальнейшей обработки другому человеку.
Передача пакета - все-таки очень экзотический совет.

А какая разница, что передавать кучу файлов jpg или пакет ФР. К тому же столько возьни номеровать каждый файл jpg, а в ФР все собрано номеровано само собой.

Аватар пользователя Ronja_Rovardotter

izekbis написал:
А какая разница, что передавать кучу файлов jpg или пакет ФР.

Пакет очень много весит, а интернеты разные у людей бывают.

izekbis написал:
К тому же столько возьни номеровать каждый файл jpg, а в ФР все собрано номеровано само собой.

Они автоматически нумеруются при сохранении, надо только указать куда картинки сложить и ФР все сделает сам.

Посмотрел, если не распознан, не такая уж разница. А выгода для сканировщика и распознователя существенная.

Аватар пользователя Ronja_Rovardotter

izekbis написал:
Посмотрел, если не распознан, не такая уж разница.

Насколько помню, пакет раза в два больше.

izekbis написал:
А выгода для сканировщика и распознователя существенная.

Ни один ocr-щик не жаловался и выслать ему аж целый контейнер, вместо компактной посылки, не просил. Даже если речь шла о книжках с иллюстрациями.

Ronja_Rovardotter написал:
izekbis написал:
Посмотрел, если не распознан, не такая уж разница.

Насколько помню, пакет раза в два больше.

izekbis написал:
А выгода для сканировщика и распознователя существенная.

Ни один ocr-щик не жаловался и выслать ему аж целый контейнер, вместо компактной посылки, не просил. Даже если речь шла о книжках с иллюстрациями.

А Вы предлагали. Им, что дают, то они и кушают. Посмотрел RAR Ipg не сжимает, а пакет ФР в непрерывный архив сжал в ТРИ раза.

izekbis написал:

А Вы предлагали. Им, что дают, то они и кушают.

Ээээ... Стесняюсь спросить: это с кем же Вы на таких началах работаете?

Вообще-то у многих версии ФР разнятся. И если более поздние могут читать пакеты, сделанные на более ранних версиях, то уже наоборот - нет. Хотя бы по этому поводу Вам придётся с верстальщиком согласовывать свои действия. ;)

Аватар пользователя Ronja_Rovardotter

izekbis написал:
А Вы предлагали.

Это точно утверждение? Или все-таки вопрос? Если второе, то отвечаю. Я вообще ocr'ом не занимаюсь и следовательно сканирую не для себя, а для кого-то. Поэтому всегда спрашиваю в каком виде желательно получить картинки. Пожелание одно и то же: серый JPEG, 300 dpi - для текста, 600 dpi - для картинок.

И, кстати, сравнила объем пакета и архива с jpeg'ами. Ну так вот, элтоновский "Номер один" без иллюстраций в архиве весит 346 МБ, а в пакете - 2,4 ГБ. И это только одна книжка, а за раз, как правило, я отдаю 2-3.

Ronja_Rovardotter написал:
izekbis написал:
А какая разница, что передавать кучу файлов jpg или пакет ФР.

Пакет очень много весит, а интернеты разные у людей бывают.

izekbis написал:
К тому же столько возьни номеровать каждый файл jpg, а в ФР все собрано номеровано само собой.

Они автоматически нумеруются при сохранении, надо только указать куда картинки сложить и ФР все сделает сам.

Ну это если всю книгу сканировать за раз. А если прерваться?

izekbis написал:
Ronja_Rovardotter написал:
Они автоматически нумеруются при сохранении, надо только указать куда картинки сложить и ФР все сделает сам.

Ну это если всю книгу сканировать за раз. А если прерваться?

Если нужно прерваться - то сохраняешь недосканированный пакет, а когда готов продолжать - просто грузишь этот пакет и продолжаешь сканирование книги.
Аватар пользователя Ronja_Rovardotter

justserge написал:
izekbis написал:
Ronja_Rovardotter написал:
Они автоматически нумеруются при сохранении, надо только указать куда картинки сложить и ФР все сделает сам.

Ну это если всю книгу сканировать за раз. А если прерваться?

Если нужно прерваться - то сохраняешь недосканированный пакет, а когда готов продолжать - просто грузишь этот пакет и продолжаешь сканирование книги.

Да, именно так.

Это когда в ФР. Но сканируют то не в ФР.

izekbis написал:
Это когда в ФР. Но сканируют то не в ФР.

Кто сканирует не в ФР? Все сканируют в ФР.

niksi написал:
izekbis написал:
Но сканируют то не в ФР.

Кто сканирует не в ФР? Все сканируют в ФР.
От софта зависит. В гостях у одного кента видел со-вер-шенно изюмительную софтинку, коей сканить даже удобнее, чем ФРом. Но, падла, из комплекта к евойному скан-принт-ксероксу, с моим железом дружить не захотела. :-((((

izekbis написал:
Ronja_Rovardotter написал:
Они автоматически нумеруются при сохранении,

Ну это если всю книгу сканировать за раз. А если прерваться?
Всё равно будет подряд. А если некоторые страницы удалять, перемещать и пересканывать - тады ой. :-(((((

izekbis написал:
А зачем тогда Jpg. Почему здесь за него стоят. Ни как не пойму. Все делать в пакете FR лучше 10. Никаких сжатий и преобразований. Меньше искажений и ореолов.

Навыкли
На выкли брать привыкли :)

izekbis написал:
А зачем тогда Jpg. Почему здесь за него стоят.
.jpg'ными сканами удобнее файлообмениваться. Есть разница - залить-скачать две-три сотни метров .jpg'ов или гиг-другой .tiff'ов?

Возбудились сегодня сканировщики чего-то. :)

Igorek67 написал:
Возбудились сегодня сканировщики чего-то. :)

Все хотят помочь Антонине. По ходу пьесы друг друга грызут. В натуре, эротические игры получаются. :)

А у кого интересно самый длинный сканер? :)

Страницы

X