5077 сомнений.

Опубликовано пн, 18/08/2008 - 10:44 пользователем pkn

Вложение	Размер
4509-list-by-title.txt	805.48 КБ
4509-list-by-author.txt	805.48 КБ
kop-fb2-split-copy-by-lang.pl_.txt	15.83 КБ
kop-lib-scripts-as-posted-on-librusec-2008-12-16.rar_.txt	79.27 КБ

5077 сомнений.

Ну вот. Начала, наконец, прожевываться перловка, скрипты хоть кое-как зафурычили, стремительным домкратом наросла библиотечка полезных сабрутинок, и в тумане перспективы стал вырисовываться первый результат: 5077.

5077 - это число книжек из AldLit (это, совместно, Альдебаран36163 и Литрес4415), которых, по нынешнему мнению скрипта-сравнилки, нет в Либрусеке.

На самом деле множество из них таки в Либрусеке есть, и я хотел бы уменьшить это число 5077 - более правильным сравнением книг из AldLit и из Либрусека. Но тут я теряюсь в сомнениях. Помогите соображениями о возможных подводных камнях, братие и сестрие! По вот этим поводам.

Деёфикация:
Сейчас "Звездная тень" и "Звёздная тень" считаются разными книгами. Может быть, превратить все "ё" в "е", и только после этого сравнивать?

Декавычкизация:
Сейчас "«Л» – значит люди" и "Л – значит люди" считаются разными книгами. Может быть, уничтожить все виды кавычек, и только после этого сравнивать?

Детирезация:
Сейчас "Звезды — холодные игрушки" (тут имеется в виду en dash, em dash, etc.) и "Звезды – холодные игрушки" (minus sign, hyphen) считаются разными книгами. Может быть, привести все виды тире к дефису (minus sign, hyphen), и только после этого сравнивать?

Ещё я хочу спросить уважаемое сообщество про этавот, о книгах из AldLit, стоящих в первой очереди к заливке на Либрусек:

1. Конвертировать ли в UTF-8 те книги, которые сейчас в другой кодировке?
2. Писать ли в history, и если писать, то что?
3. Прошу прокомментировать предполагаемый порядок предзаливочной обработки, может я чего упустил.
4. Самый кривой вопрос... как, черт побери, формируются зипы, которые на http://lib.rus.ec/allbooks и http://lib.rus.ec/all/daily/ ? Я имею в виду... скажем, если книгу из Либрусека удалили или заменили на лучший вариант, в зипах ведь она всё равно остаётся, зипы ведь не переформировываются заново?

~~Предполагаемый порядок предзаливочной обработки:~~
~~1. Записать в history предлибрусечное происхождение - Альдебаран36163 или Литрес4415 (?)~~
~~2. Конвертировать все файлы в кодировку UTF-8 (и записать это действие в history?).~~
~~3. Прогнать через FB2Fix - это также приподнимет версию на 0.01~~
4. Прогнать через fb2-renaming, по схеме: Familiya_Imya_Otchestvo_(Niknejm)_(Serial-#)_Nazvanie_knigi.fb2 . При этом _Otchestvo, _(Niknejm), и _(Serial-#) - опциональны, вставляются только при наличии таковых в дескрипшне. Если авторов много, автор берется только первый.

Updated: Предполагаемый порядок предзаливочной обработки (именно в изложенном порядке):

1. Записать в custom-info (не в history) предлибрусечное происхождение - Aldebaran36163 или Litres4415 (Perl script)

2. Инкрементировать версию на ~~0.01~~ 0.001 (по просьбе Bullfear) (Perl script, поскольку FB2Fix на этой операции иногда пропускает файлы)

3. Прогнать через FB2Fix (попутно конвертировать все файлы в кодировку UTF-8, конвертирование никуда не записывать) (FB2Fix) Используемая версия Fb2Fix 1.0.8. Содержимое options-файла:
/compress-
/indentheader+
/indentbody-
/incversion-
/mapgenres-
/validate-
/rename-
/loglevel:Verbose
/logfile:F:\5525-NEW-step03-fb2fixed-fb2fix.log.txt
/output:F:\5525-NEW-step03-fb2fixed
/encoding:UTF-8
/recurse-
/force-

4. Прогнать через fb2-renaming, по схеме: Familiya_Imya_(Serial-#)_Nazvanie_knigi.fb2 . При этом _(Serial-#) - опционально, вставляются только при наличии таковых в дескрипшне. Если авторов много, автор берется только первый. (Perl script)

Updated: новое магическое число, после улучшения логики сравнивалки - 4511.

Updated: Самое-самое последнее магическое число - 4509. Да и то благополучно закончилось :))

http://lib.rus.ec/sites/default/files/4509-list-by-title.txt 805.48 кб
http://lib.rus.ec/sites/default/files/4509-list-by-author.txt 805.48 кб

---------------------------------
Для справки и прояснения о чем, собственно, речь:
Что такое Альдебаран36163: http://lib.rus.ec/node/107093
Что такое Литрес4415: http://lib.rus.ec/node/105819
AldLit = Альдебаран36163 плюс Литрес4415 минус внутренние дубли и некоторые проблемные файлы.
AldLit готовится к заливке на Либрусек.
5077 (на сегодняшний день) - это часть AldLit, первая очередь к заливке на Либрусек, книги, которых (условно) на Либрусеке нет вовсе.
Вторая и последующие очереди к заливке будут состоять из книг из AldLit, которые на Либрусеке есть, но сделаны LibRusEcKit или eBookDownLoader.

Блог пользователя pkn
Войдите или зарегистрируйтесь, чтобы отправлять комментарии

На основные вопросы ответов дать, к сожалению, не могу. Не копенгаген...
Но на вот на парочку:
2. Конвертировать все файлы в кодировку UTF-8 (и записать это действие в history?).
Конвертировать и не прописывать. Никому не интересно.

4. Прогнать через fb2-renaming, по схеме: Familiya_Imya_Otchestvo_(Niknejm)_(Serial-#)_Nazvanie_knigi.fb2 . При этом _Otchestvo, _(Niknejm), и _(Serial-#) - опциональны, вставляются только при наличии таковых в дескрипшне. Если авторов много, автор берется только первый.
Не поняла цели переименования - на сайте файлы как только не названы. При скачке обзываются по собственной схеме.
Но если она (цель) всё же имеется, то предлагаю сократить название до Familiya_Imya_(Serial-#)_Nazvanie_knigi.fb2. Вполне достаточно для идентификации.

Вы здесь

5077 сомнений.

Комментарии

Страницы

Вход на сайт

Навигация

Поиск по блогам и форумам

User menu