Вы здесьПроверка валидности fb2-файла при загрузке ???
Опубликовано ср, 27/08/2008 - 05:42 пользователем Ghost mail
Forums: Сложно ли добавить автоматическую проверку валидности книг перед их загрузкой на сайт и "не пропускать" невалидные файлы ???
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 4 часа
DGOBLEK RE:Прошу переформатировать, распознать, etc... 5 дней akorish RE:Регистрация 5 дней Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 6 дней Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 неделя konst1 RE:Ух, как я не люблю спамеров! 1 неделя tvv RE:DNS 3 недели sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 3 недели larin RE:Заблокирован 1 месяц konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц fixel RE:Пропал абонемент 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 3 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 3 месяца tvv RE:faq brainstorm =) 3 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 месяца Впечатления о книгах
pulochka про Донцова: Британец китайского производства. Народный детектив (Дамский детективный роман)
08 05 Донцова совсем исписалась :куча ошибок, то у нее персонаж по фамилии Подаркин- Игорь,то он же-Михаил....И рассказ вообще настолько сумбурный, словно писали 2 разных человека .Причем они не договаривались о подробностях .Короче,видимо ……… Оценка: нечитаемо
Isais про Кратт: Великий океан (Историческая проза)
08 05 Проверил по оглавлению книги 1959 г. изд.: "Часть четвертая" и "Часть первая", которые якобы отсутствуют, -- фиктивные сущности. Их НЕТ. Т.е. этот файл содержит полный текст двухтомного романа.
Iskinder про Демина: Леди, которая любила лошадей (Любовная фантастика)
08 05 2 Анни-Мари. Я любовную фантастику в принципе не читаю, но ваш отзыв сильно порадовал. Браво!
Анни-Мари про Демина: Леди, которая любила лошадей (Любовная фантастика)
07 05 pulochka, мышки плакали, но продолжали жрать кактус. Вы уже не впервые жалуетесь, как вам не нравится язык Деминой, да насколько вам трудно воспринимать текст, и вот мрачно, понимаешь. Вопрос: зачем мучиться и читать, если оно не заходит? Страдания очищают?
francuzik про Матвеев: Пасечник – 2 (Фэнтези, Попаданцы, Самиздат, сетевая литература)
07 05 Ох эти сказки, ох эти сказочники... Оценка: плохо
Isais про Робертс: Королевский гамбит [The King's Gambit ru] (Исторический детектив)
07 05 То же место в то же время, что и в цикле Ст. Сейлора "Roma sub rosa" -- те же исторические персонажи и события, заговоры и убийства. Но как же скуууууушно по сравнению с Сейлором! Оценка: неплохо
Barbud про Линник: Обменный фонд (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
06 05 Читабельно. Первая половина книги более динамична, чем вторая, к концу пошло много малоинтересных бытовых подробностей, мелких дорожных приключений и т.п., но дочитал. Эпилог повеселил) Оценка: хорошо
Nicout про Смирнов: Колдун при дворе его величества. (Фэнтези, Повесть, Самиздат, сетевая литература)
06 05 А тут на встречу царь!" Плодовитый как кролик, но по сути безграмотная школота, фтопку! Даже качать не буду. И другим не советую, вполне хватает одной странички на АТ, чтобы пожелать развидеть. Оценка: нечитаемо
Никос Костакис про Вязовский: Кодекс врача [litres] (Альтернативная история, Попаданцы)
05 05 – Полиция бы сразу доложила, – покачала головой княгиня, подошла к одной из икон. – Смотрите, Евгений Александрович! Какая тут древняя роспись __________ Княгиня (!) называет иконы росписью. Окультуренная княгиня.
iwanwed про Аллард: Назад в СССР: Классный руководитель (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
05 05 Автор на знает эпохи, о которй пишет. Может быть, он застал в школе 90-е, но никак не конец 70-х, начало 80-х. И это портит впечатление о книге. Царапает и коробит. Оценка: плохо
tvv про Лис: Ученик гоблина. Книга III (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
04 05 Вторая книга есть на Ф., но файл плохо отформатирован. Читать можно, а заливать сюда не велено.
Aleks_Sim про Йейтс: Кельтские сумерки: рассказы (Классическая проза, Мифы. Легенды. Эпос)
03 05 TO DGOBLEK - а там в оригинале строфные пробелы в двух или трех стихах отсутствуют |
Отв: Проверка валидности fb2-файла при загрузке.
Сложно ли вам, Ghost mail, указать в своем сообщении утилиту для "проверки валидности" fb2, которую вы предлагаете ???
Отв: Проверка валидности fb2-файла при загрузке.
Однако, эти редакторы-утилиты для работы с командной строки, а нужна проверка на php, которая бы работала на веб-сервере перед загрузкой файла книги.
В-действительности, прежде всего этот вопрос нужно решить "политически" - нужно или не нужно 8-)
Мое личное мнение,- нужно. Лучше пусть будет немного меньше книг, но они будут "качественнее" (будут соответствовать стандарту FB2)
Отв: Проверка валидности fb2-файла при загрузке.
Предлагаете "прикрутить" FBE? Или fb2fix? :)
Идеально "валидных" fb2-файлов на сегодня не существует, как и программы, которая бы это определяла - и все благодаря "стандарту FB2". За работой скриптов приходится убирать вручную, валидность книги - определять "на глазок".
От "политического" решения ничего не изменится - кроме громких фраз: программа не появится, вычитка файлов не улучшится. Кроме того, найдя незакрытый тег в fb2-книге - гораздо легче его закрыть, чем брезгливо отбросить этот файл и отсканировать книгу по-новой.
Отв: Проверка валидности fb2-файла при загрузке ???
И файл может быть невалидным, но содержать полный текст, и другого в библиотеке может не быть. Невалидность мы поправим.
Отв: Проверка валидности fb2-файла при загрузке ???
Не пропускать невалидные файлы - это вряд ли реально нужно, а вот некая пометка, позволяющая невалидников обнаружить - не помешала бы.
Отв: Проверка валидности fb2-файла при загрузке ???
А кто-нибудь более-менее формально описать процедуру валидации может?
Разобрать XML, проверить возможность тэгов и словарно-кодируемых полей?
Всё?
Если всё, я в свой скрипт могу это добавить (XML-разбор там уже есть)...
Он, правда, не на ПХП, а на Питоне, но не думаю, что это нынче проблема для большинства хостингов.
Отв: Проверка валидности fb2-файла при загрузке ???
Формализовать процедуру "исправления" невалидного файла, чтобы он стал валидным, почти невозможно. Можно только пытаться проверять и исправлять набор часто встречаемых ошибок (как-то : неправильный порядок тегов 'title' и 'epigraph'; тег 'title' в середине текста; оформление стихов в тексте тегом 'epigraph' и так далее).
Однако задавая вопрос в теме топика я имел в виду : проверять валидность перед загрузкой на сервер и в случае ошибок,- сообщать пользователю об этом и не загружать невалидный файл. Подразумевается, что после этого пользователь потратит еще 1-2 минуту на исправление своего файла, и загрузит этот файл исправленным 8-)
Отв: Проверка валидности fb2-файла при загрузке ???
>тег 'title' в середине текста
А это из чего следует что невалидно? это допускает схема, и, более того, явно присуствует в примерах на fictionbook.org.
Это какой-то тогда не XML уже получается, а некий формат издалека напоминающий XML :-)
Отв: Проверка валидности fb2-файла при загрузке ???
title должно быть в начале секции. Это переводится как заголовок, если вы не в курсе. В середине секции title быть не может.
Правильно:
<section>
<title></title>
<p></p>
<p></p>
</section>
Не правильно:
<section>
<p></p>
<title></title>
<p></p>
</section>
Отв: Проверка валидности fb2-файла при загрузке ???
Отв: Проверка валидности fb2-файла при загрузке ???
Проверка валидности очень не помешала бы.
В некоторых файлах, (в них сказано что сделаны они в "LibRusEc kit") пометки, сноски, перевод разных понятий заключены в знаки < >,хотя по спецификации XML они должны быть в виде
< >соответственно, также иногда попадается знак & (амперсанд) хотя и он должен быть написан не прямо, а специально вот так&Из-за таких нарушений формата разметки XML некоторые файлы не возможно читать программами которые четко следуют спецификации XML
Отв: Проверка валидности fb2-файла от автора "LibRusEc kit".
Проверка валидности при загрузке fb2-файлов от автора "LibRusEc kit" - хорошая шутка, спасибо :)
Если серьезно - дайте ссылки на книги, а еще лучше - давайте исправим их вместе.
Отв: Проверка валидности fb2-файла от автора "LibRusEc kit".
Я могу сгенерить список. Только, боюсь, в нем будет несколько десятков тысяч (не несколько тысяч, а несколько десятков тысяч) книг. И што мы будем с ими делать?
Отв: Проверка валидности fb2-файла от автора "LibRusEc kit".
Точнее, 47 642 : http://lib.rus.ec/stat/document-author .
Проверить на другие варианты файла - скачать - открыть - поиск символов с автозаменой - сохранить - залить на Либрусек.
repeat
Всего по 23 821 на рыло.
Отв: Проверка валидности fb2-файла от автора "LibRusEc kit".
:) Да, рыла могут треснуть.
На самом деле немножко меньше: у меня готовятся что-то в районе четырех тысяч книг с Алдебарана/Литреса, которые будут заменой Либрусек-Киту. Но пока никак не приспособлюсь чтобы залить их без ручных разборок с дублями... :((
С другой стороны - супротив 47-ми тысяч оно не то чтобы совсем уж мертвому припарки... но и ненамного больше.