Что делать с книгами, в которых нет текстового слоя | Либрусек

Вы здесь Главная » Форумы » Книги Что делать с книгами, в которых нет текстового слоя Опубликовано чт, 17/12/2009 - 21:38 пользователем Zadd Forums: Книги Ситуация такая: есть книги в форматах DJVU и PDF, картинок нет, только текст, НО этот текст закодирован в виде картинок (на экране видны нормальные шрифты, но скопировать это все можно только в виде картинки) Нельзя ли как-нибудь переконвертить такие файлы в FB2, ну или пусть даже в тот же PDF, но с OCRслоем, ведь текст читается, как обычный типографский текст. просто для того, чтобы книжку не копировали, у нее удален OCRслой. Не поможет ли распечатка такого документа на "виртуальном принтере"? Войдите или зарегистрируйтесь, чтобы отправлять комментарии Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано чт, 17/12/2009 - 21:38 пользователем Zadd ? Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 08:03 пользователем kozlenok А списочек книжек (желательно со ссылками на файлообменники и т.п.) можно? А то ведь может кто (в том числе и я) заинтересуется и OCR-ить поможет? Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пн, 21/12/2009 - 11:10 пользователем Zadd kozlenok написал: А списочек книжек (желательно со ссылками на файлообменники и т.п.) можно? А то ведь может кто (в том числе и я) заинтересуется и OCR-ить поможет? http://depositfiles.com/files/kon5m6qr1 http://depositfiles.com/files/t5np6gf08 моя Опера на эти ссылки показывает,будто они неправильные, но переходит по ним нормально. Я в этих ссылках применил технологию для быстрого скачивания с депозита и летитбита: если слева от ссылки в браузере на файл депозита или летитбита приставить "sfrom.net/" то файл будет скачан на полной скорости. Такие ссылки я и написал сначала, но не учел, что ссылки расположены не в командной строке браузера, а на сервере Либрусека, соответственно sfrom.net тоже искался на Либрусеке. Тогда я приставил к адресам ещё один начальный http и все заработало! Ссылки теперь ведут на быструю скачку файлов с депозита на полной скорости через sfrom.net(видимо у них есть Голд-аккаунты на депозите и летитбите, а вот на Рапиде нету) Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано чт, 17/12/2009 - 22:48 пользователем Hexar Перевести в джипеги и сделать OCR. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано чт, 17/12/2009 - 23:58 пользователем alex4u2008 Цитата: Перевести в джипеги и сделать OCR. Технологию процесса - в студию !!! Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано чт, 17/12/2009 - 23:58 пользователем Captain Scarlett Цитата: Нельзя ли как-нибудь переконвертить такие файлы в FB2, ну или пусть даже в тот же PDF, но с OCRслоем "Переконвертить" нельзя. Нужно распознать текст так, как мы распознаем отсканированные картинки. Цитата: Не поможет ли распечатка такого документа на "виртуальном принтере"? Нет, не поможет. Поможет только OCR. Переводить в джипеги не нужно, Файнридер (по крайней мере, последние его версии) прекрасно понимает pdf. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 01:05 пользователем TaKir И дежавю тоже ФР понимает. С 9 версии. Вообще, забавный товарищ. Как он себе представляет, книги (в виде текстов) в сеть попадают? Тетеньки машинистки перепечатывают? ))) Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 01:32 пользователем Igorek67 Мой девятый не распознаёт. Приходится переводить в PDF. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 04:16 пользователем niksi Это странно, потому что должен. http://www.abbyy.ru/support/finereader/90/product_info/FF Кроме Home Edition. (Но у Вас же не хоум, потому что хоум и pdf не понимает). Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 04:58 пользователем golma1 Igorek67 написал: Мой девятый не распознаёт. Приходится переводить в PDF. Вообще-то где-то есть файл, который надо положить в специальную папочку, и тогда ФР9 научается распознавать и djvu. Но я что-то не могу его найти. :( Попробуйте посмотреть здесь. Там внизу есть ещё пара линков. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 01:38 пользователем JuliaVS TaKir написал: Вообще, забавный товарищ. Как он себе представляет, книги (в виде текстов) в сеть попадают? Тетеньки машинистки перепечатывают? ))) На самом деле у многих людей есть такое представление, что где-то существует умная утилитка, нужно ее только найти в сети, и тогда одним-двумя нажатием кнопки можно сделать любую книШку из любого формата. Слова о том, что придется прикладывать довольно кропотливый труд такие друзья воспринимают либо как жестокий обман или просто неинформированность "печального вестника", либо как личное оскорбление. Такая вот, ничем незамутненная, вера в компьютерное всемогущество. :) UPD И правда всемогущество! Написала этот пост я, Tanja45. Но вот сайт уверяет меня, что я вовсе даже и не Tanja45, а совсем даже напротив - JuliaVS. Но я пока ему не верю, я точно знаю, что я не JuliaVS. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 02:18 пользователем TaKir JuliaVS написал: На самом деле у многих людей есть такое представление, что где-то существует умная утилитка... ... Слова о том, что придется прикладывать довольно кропотливый труд такие друзья воспринимают либо как жестокий обман или просто неинформированность "печального вестника", либо как личное оскорбление. На самом деле это представление справедливо для многих видов деят-ти, обычно связанных с компом. Я называю это "знание о волшебной кнопке". Или программе. Которая делает все сама. Моментально, красиво и с учетом любых тараканов-пожеланий в мозгу этого знающего. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 02:44 пользователем Tanja45 TaKir написал: На самом деле это представление справедливо для многих видов деят-ти, обычно связанных с компом. Я называю это "знание о волшебной кнопке". Или программе. Которая делает все сама. Моментально, красиво и с учетом любых тараканов-пожеланий в мозгу этого знающего. А нам? А книжникам? А мы тоже хотим! Это нечестно! Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 02:53 пользователем Captain Scarlett O, в каком-то фантастическом сериале видела инопланетный девайс для сканирования книг: проводишь им по корешку и через несколько секунд вся книга отсканирована. UPD Вот, нашла: http://www.youtube.com/watch?v=9CSPW-VUQis Начиная с 8:25 :) Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 09:18 пользователем Рыжий Тигра TaKir написал: "знание о волшебной кнопке". Или программе. Которая делает все сама. Моментально, красиво и с учетом любых тараканов-пожеланий в мозгу этого знающего. Бывает и хуже - "знание о волшебной галочке": вера в то, что в программе, которой часто пользуешься и которая что-то нужное не делает или делает плохо, есть в дебрях настройки галочка, которая позволяет программе начать работать правильно. (Кстати, это же и самая частая мотивация для покупки программы взамен shareware'ной или взломанной.) Встречается куда чаще "знания о волшебной кнопке", а вреда наносит ненамного меньше. :( Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 08:39 пользователем Zadd TaKir написал: Вообще, забавный товарищ. Как он себе представляет, книги (в виде текстов) в сеть попадают? Тетеньки машинистки перепечатывают? ))) Это обо мне что ли? я например как увижу где в сети текстик txt, html, doc так сразу этот текстик ручками перенабираю в "блокноте" весь текст целиком. добавляю туда тегов и получается fb2 файл. а потом ещё дописываю на клавиатуре binary - коды обложки, я же ведь графических редакторов не знаю с редакторами FB2 совершенно не знаком Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пн, 21/12/2009 - 11:23 пользователем Reineke Уточнение - с билда 724. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 08:51 пользователем Zadd izaraya написал: Цитата: Не поможет ли распечатка такого документа на "виртуальном принтере"? Нет, не поможет. Поможет только OCR. Переводить в джипеги не нужно, Файнридер (по крайней мере, последние его версии) прекрасно понимает pdf. вообще-то "виртуальный принтер"- это такая программа, которая конвертит любые файлы в PDF. Для конвертации нужно эту программу поставить "принтером по умолчанию" и из любой другой программы(из Ворда,Пэйнта,браузера, Блокнота и т.п.) отправить что-то на печать, как это "что-то" конвертится в PDF. Вот я и подумал, что может есть такой виртуальный принтер, который картинку в PDF переведет в текст в PDF. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 09:05 пользователем Captain Scarlett Я в курсе, что такое виртуальный принтер. Вы поймите, что есть только один способ перевести картинку в текст: ocr (распознавание). Ну, можно еще набрать текст вручную :)) Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 10:03 пользователем niksi Цитата: вообще-то "виртуальный принтер"- это такая программа, которая конвертит любые файлы в PDF. Вообще-то "виртуальный принтер" - это программа, которая переводит файл на язык, понятный принтеру. Как реальному, так и виртуальному. Её цель именно в этом - что бы принтер понял, как печатать файл. И для целей принтера совершенно не нужен распознанный файл. Его цель - понять, как печатать то, что есть (подгружать шрифты, или печатать их растром; с каким разрешением печатать; цветное или черно-белое, и т.д.). Выходной файл виртуального принтера - .prn или .ps То, о чем Вы говорите - "конвертит любые файлы в PDF" - это делает программа Acrobat Distiller. Её цель - преобразовать файл .ps в файл .pdf, что бы можно было увидеть глазами то, что мы увидим на печати. То, что из прикладных программ это делается в один этап, а не в два, не означает, что процесс один. Это просто видимость, результат работы встроенного дистиллера. В этом и загвоздка - не нужно принтеру, для того, что бы печатать - распознавать. Да и язык Postscript не позволяет (насколько я знаю). То, что Вы хотите - это не виртуальный принтер, а виртуальный OCR. Что бы программа типа файнридера сделала всю работу, но Вы бы этого даже не заметили, а потом ещё и результат OCR заново записала в pdf. Чисто технически это наверное возможно реализовать. Только зачем? Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пн, 21/12/2009 - 09:55 пользователем Zadd niksi написал: Цитата: То, о чем Вы говорите - "конвертит любые файлы в PDF" - это делает программа Acrobat Distiller. Её цель - преобразовать файл .ps в файл .pdf, что бы можно было увидеть глазами то, что мы увидим на печати. То, что из прикладных программ это делается в один этап, а не в два, не означает, что процесс один. Это просто видимость, результат работы встроенного дистиллера. В этом и загвоздка - не нужно принтеру, для того, что бы печатать - распознавать. Да и язык Postscript не позволяет (насколько я знаю). То, что Вы хотите - это не виртуальный принтер, а виртуальный OCR. Что бы программа типа файнридера сделала всю работу, но Вы бы этого даже не заметили, а потом ещё и результат OCR заново записала в pdf. Чисто технически это наверное возможно реализовать. Только зачем? Не только Acrobat Distiller, но и ещё очень много разных программ. DoPDF,NovaPDF, BroadgunPDFMachine, и мн. др., некоторые из них распознают только английские буквы, другие - и русские и англ. и др. алфавиты. Возможно, я неправильно представлял этот процесс. Мне казалось, что, поскольку программы, из которых это всё распечатывается, не имеют представления, куда они все это печатают на самом деле, то они печатают растр(картинку), а виртуальный принтер по мере возможности распечатает похожее на его взгляд на буквы- буквами, а остальное - картинкой. В частности, такая уверенность, основывалась еще и на том, что шрифты в PDF и исходные в Word не всегда совпадают. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пн, 21/12/2009 - 11:38 пользователем niksi Цитата: В частности, такая уверенность, основывалась еще и на том, что шрифты в PDF и исходные в Word не всегда совпадают. Это подстановка одних шрифтов вместо других. Процесс более простой, чем OCR. Функция "печатать шрифт как растр" действительно существует. Но это очень простая операция. А вот "растр как текст" - это уже OCR. Процесс сложный и не нужный для целей принтера. На самом деле я очарован вашей идеей. Действительно, почему нет автоматического аналога этого процесса. Ведь что мы делаем в Finereader: 1. Открываем изображения. 2. Анализируем текст (рисуем области). 3. Распознаем текст. 4. Сохраняем во внешнее приложение. Почему же нельзя это автоматизировать, сделать одним процессом. Где мы просто укажем - входной файл - распознать - выходной файл. Наверное потому, что это не очень нужно - ведь результат получится грязный. Потому что файнридер позволяет на каждом этапе своих процессов контролировать и поправлять результат. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пн, 21/12/2009 - 14:26 пользователем oldvagrant Цитата: ...Почему же нельзя это автоматизировать, сделать одним процессом. Где мы просто укажем - входной файл - распознать - выходной файл. Жжоте! В Windows eсть опция - Получить файл со сканера, типа. Кладете лист, жмете и получаете doc-файл с распознанным текстом. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пн, 21/12/2009 - 21:08 пользователем Zadd niksi, спасибо за подробное разъяснение. Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пн, 21/12/2009 - 21:17 пользователем Zadd в комменте http://lib.rus.ec/node/198011#comment-123124 указал ссылки на 2 книжки Малколма Гладуэлла(на Либрусеке есть на англ., а эти на русском) "Озарение" и "Переломный момент" Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 05:18 пользователем TaKir FR Portable 9 распознает без всяких лишних манипуляций ) Отв: Что делать с книгами, в которых нет текстового слоя Постоянная ссылка (Permalink) Опубликовано пт, 18/12/2009 - 08:02 пользователем Tanja45 А у меня и не Portable, и тоже распознает без всяких манипуляций. Как установился, так и стал распознавать. Но у меня ХР. А у Вас, Игорёк, Vista?	Вход на сайт Имя пользователя * Пароль * Запомнить меня Регистрация Забыли пароль? Навигация Книги Издательские серии Премии Рекомендации Библиотечное ЧаВо Вычитка Про вычитку Технические темы Последние материалы Поиск по блогам и форумам Поиск книг Фильтр-список Популярные книги User menu Чёрно-белый список Книжная полка Последние комментарии sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 4 дня DGOBLEK RE:Подайте бедному копеечку на книжку с литреса... 1 неделя sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 1 неделя larin RE:Пропал абонемент 3 недели Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 1 месяц sem14 RE:Серия "Символы времени" издательства "Аграф" 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц tvv RE:faq brainstorm =) 1 месяц Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 1 месяц Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 месяц larin RE:абонемент не обновлен 1 месяц sem14 RE:За иллюминатором (серия) - чего не хватает? 1 месяц sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 1 месяц Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц tvv RE:DNS 1 месяц MrMansur RE:<НРЗБ> 2 месяца Stager RE:Беженцы с Флибусты 2 месяца Tramell RE:Серия "Библиотека французской литературы" (Макбел) 2 месяца Впечатления о книгах nightrunner про Пехов: Птицелов (Фэнтези, Самиздат, сетевая литература) 03 03 Хуже предыдущей. Опять поди с бабой своей писал Оценка: неплохо Никос Костакис про Дроздов: Лейб-хирург [СИ] (Альтернативная история, Попаданцы) 03 03 Мне порой кажется, что только мы, русские, не считаем себя лучшими в мире. Никуда не лезем, никого не учим жить." Ага, ага! Лысенко Владимир Андреевич про Каюрин: Нигилист. Повесть о штурмовике (О войне, Самиздат, сетевая литература) 02 03 Пропагандисткая заказуха, если они не хотят жить по нашему, то мы их уничтожим. Оценка: нечитаемо udrees про Кинг: Техносоциализм. Как неравенство, искусственный интеллект и климатические изменения создают новый миропорядок [litres] (Публицистика) 01 03 В общем-то годная книга, которая раскрывает основные мировые проблемы, лежащие перед человечеством. Автор предлагает четыре варианта развития будущего, из них самый радужный и самый оптимистичный – это конечно техносоциализм. ……… Оценка: хорошо udrees про Володин: Газлайтер. Том 7 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература) 01 03 Примитивная простенькая история-сказка. Написана очень простыми словами, с такими же простыми диалогами героев. Это сказка, конечно, где главный герой прямо супермен, неуязвимый с кучей умений, никто не может ему противостоять. ……… Оценка: неплохо udrees про Володин: Газлайтер. Том 6 [СИ] (Альтернативная история, Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература) 01 03 Эта серия приключений про мальчишку-телепата тянет на Санта-Барбару, как в мыльной опере всегда какие-то интриги, сражения, любовные романы. Написано слишком просто, примитивным языком, который тем не менее легко читается ……… Оценка: неплохо udrees про Даттон: Мудрость психопатов (Психология) 01 03 Книга будет полезна для общего развития и понимания такого отклонения или разновидности психики как психопатия. ДО этого я читал «Сойти с ума», там тоже в качестве одного из отклонений приводилась психопатия, но подробного ……… Оценка: хорошо udrees про Андреев: Время Z. Фронт без флангов (Военная документалистика) 01 03 Пропагандистский панегирик идущей СВО. Всю позицию автора можно оценить по одному его предложению: «И слава богу, что случилось 24 февраля 2022 года.» Большая часть книги посвящена восхвалению ЧВК «Вагнер» и его деяниям, ……… Оценка: нечитаемо Barbud про Лещенко: Чужак [СИ] (Альтернативная история, Исторические приключения, Попаданцы, Самиздат, сетевая литература) 28 02 У автора неплохой слог и достаточно богатый язык, но вместе с тем его творчество навевает несусветную скуку. Действие почти не развивается, оно вязнет то в размышлизмах и рефлексиях, коим несть числа, то в многостраничных ……… Оценка: плохо mysevra про Уиндем: Миры Джона Уиндема. Том 1 (Научная фантастика) 28 02 Очень освежающе и отрезвляюще на общем фоне, без всех этих крутых супергероев и суровых мачо. «Кукушки Мидвича» тоже понравилась, правда, экранизация 90-х мне показалась поярче. Оценка: отлично! mysevra про Бонда: Девушка полночи [Pochłaniacz ru] (Триллер, Детективы: прочее) 28 02 Вроде и задумка замечательная, но так тягомотно изложено – сил нет. Оценка: неплохо mysevra про Хофф: Дао Винни-Пуха (Философия) 28 02 Какая вдохновляющая прелесть! Что-то есть в этом такое, успокаивающее и жизнеутверждающее. Проблема всей этой стройной теории в ключевом условии «познать самого себя», а для этого многим жизни не хватает. Оценка: отлично! больше впечатлений