Вы здесьAldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168 книг)
Опубликовано вт, 26/08/2008 - 16:32 пользователем pkn
Выделил из AldLit вторую очередь заливки: EBD (11 книг) и KIT (4168 книг) EBD = книги из AldLit, которые в Либрусеке представлены результатом eBookDownloader-а, и version-aldlit >= version-libr KIT = книги из AldLit, которые в Либрусеке представлены результатом LibRusEc Kit-а, и version-aldlit >= version-libr Предзаливочная обработка(в изложенном порядке): Поскольку изначально было version-aldlit >= version-libr, то приподнятие версии на 0.001 должно было, по идее, убедить либрусечный заливочный скрипт в старшинстве заливаемой версии . В порядке эксперимента залил EBD (11 книг). Результат удручает: на 11 файлов - 6 дублей и 5 отказов. Ни один файл не был молча принят :(( Причины непонятны... Файл Andrey_Rubanov_Sazhayte_i_vyirastet уже есть в базе. Повторы недопустимы.--------------------
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Океана RE:Подайте бедному копеечку на книжку с литреса... 12 часов
DGOBLEK RE:Прошу переформатировать, распознать, etc... 5 дней akorish RE:Регистрация 5 дней Tramell RE:Серия "Очень прикольная книга", издательство Азбука-классика 1 неделя Larisa_F RE:Серия "Я познаю мир" издательства "АСТ, Астрель, Олимп",... 1 неделя konst1 RE:Ух, как я не люблю спамеров! 1 неделя tvv RE:DNS 3 недели sem14 RE:«Не забыть бы тогда, не простить бы и не потерять!»-2 ... 3 недели larin RE:Заблокирован 1 месяц konst1 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 1 месяц fixel RE:Пропал абонемент 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 2 месяца sibkron RE:"100 славянских романов", серия изд.-ва "Центр книги... 2 месяца Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 3 месяца sem14 RE:Серия "Символы времени" издательства "Аграф" 3 месяца tvv RE:faq brainstorm =) 3 месяца Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 месяца Впечатления о книгах
alexgor1 про Иосиф Абрамович Рапопорт
09 05 «...у него никогда не было кабинета, у него не было практически стола, у него никогда не было секретаря, у него никогда не было машинистки, даже когда он был выбран член-корреспондентом». 14 марта 1912 года в Чернигове в ………
pulochka про Донцова: Британец китайского производства. Народный детектив (Дамский детективный роман)
08 05 Донцова совсем исписалась :куча ошибок, то у нее персонаж по фамилии Подаркин- Игорь,то он же-Михаил....И рассказ вообще настолько сумбурный, словно писали 2 разных человека .Причем они не договаривались о подробностях .Короче,видимо ……… Оценка: нечитаемо
Isais про Кратт: Великий океан (Историческая проза)
08 05 Проверил по оглавлению книги 1959 г. изд.: "Часть четвертая" и "Часть первая", которые якобы отсутствуют, -- фиктивные сущности. Их НЕТ. Т.е. этот файл содержит полный текст двухтомного романа.
Iskinder про Демина: Леди, которая любила лошадей (Любовная фантастика)
08 05 2 Анни-Мари. Я любовную фантастику в принципе не читаю, но ваш отзыв сильно порадовал. Браво!
Анни-Мари про Демина: Леди, которая любила лошадей (Любовная фантастика)
07 05 pulochka, мышки плакали, но продолжали жрать кактус. Вы уже не впервые жалуетесь, как вам не нравится язык Деминой, да насколько вам трудно воспринимать текст, и вот мрачно, понимаешь. Вопрос: зачем мучиться и читать, если оно не заходит? Страдания очищают?
francuzik про Матвеев: Пасечник – 2 (Фэнтези, Попаданцы, Самиздат, сетевая литература)
07 05 Ох эти сказки, ох эти сказочники... Оценка: плохо
Isais про Робертс: Королевский гамбит [The King's Gambit ru] (Исторический детектив)
07 05 То же место в то же время, что и в цикле Ст. Сейлора "Roma sub rosa" -- те же исторические персонажи и события, заговоры и убийства. Но как же скуууууушно по сравнению с Сейлором! Оценка: неплохо
Barbud про Линник: Обменный фонд (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
06 05 Читабельно. Первая половина книги более динамична, чем вторая, к концу пошло много малоинтересных бытовых подробностей, мелких дорожных приключений и т.п., но дочитал. Эпилог повеселил) Оценка: хорошо
Nicout про Смирнов: Колдун при дворе его величества. (Фэнтези, Повесть, Самиздат, сетевая литература)
06 05 А тут на встречу царь!" Плодовитый как кролик, но по сути безграмотная школота, фтопку! Даже качать не буду. И другим не советую, вполне хватает одной странички на АТ, чтобы пожелать развидеть. Оценка: нечитаемо
Никос Костакис про Вязовский: Кодекс врача [litres] (Альтернативная история, Попаданцы)
05 05 – Полиция бы сразу доложила, – покачала головой княгиня, подошла к одной из икон. – Смотрите, Евгений Александрович! Какая тут древняя роспись __________ Княгиня (!) называет иконы росписью. Окультуренная княгиня.
iwanwed про Аллард: Назад в СССР: Классный руководитель (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
05 05 Автор на знает эпохи, о которй пишет. Может быть, он застал в школе 90-е, но никак не конец 70-х, начало 80-х. И это портит впечатление о книге. Царапает и коробит. Оценка: плохо
tvv про Лис: Ученик гоблина. Книга III (Боевая фантастика, Фэнтези, Самиздат, сетевая литература)
04 05 Вторая книга есть на Ф., но файл плохо отформатирован. Читать можно, а заливать сюда не велено. |
Комментарии
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Чудеса... попытался сейчас, от отчаяния, залить ещё раз ровно тот же самый rar, содержащий ровно те же самые 11 файлов... результат:
-----------------------
file:Andrey_Rubanov_Sazhayte_i_vyirastet Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Сажайте, и вырастет http://lib.rus.ec/b/119946/join/104702
file:Andrey_Rubanov_Velikaya_Mechta Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Великая Мечта http://lib.rus.ec/b/119947/join/104703
Книга уже есть в библиотеке - Космос!!! http://lib.rus.ec/b/119940
Книга уже есть в библиотеке - Крейсер «Безумный» http://lib.rus.ec/b/119941
Книга уже есть в библиотеке - Принцесса помойки http://lib.rus.ec/b/119942
Книга уже есть в библиотеке - Звезда с одним лучом непонятный жанр http://lib.rus.ec/b/119943
file:Daliya_Meyerovna_Truskinovskaya_Bednyie_ryitsari Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Бедные рыцари http://lib.rus.ec/b/119948/join/102653
file:Polina_Dashkova_Vechnaya_noch Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Вечная ночь http://lib.rus.ec/b/119949/join/102646
file:Dzhuliana_Makleyn_Prelyudiya_lyubvi Книга добавлена Кажется, нашли дубля. Ткните в него для разрешения конфликта. Дубль: Прелюдия любви http://lib.rus.ec/b/119950/join/100660
Книга уже есть в библиотеке - Я и ты под персиковыми облаками http://lib.rus.ec/b/119944
Книга уже есть в библиотеке - Дело № 34840 http://lib.rus.ec/b/119945
-----------------------
То есть...
1. 6 файлов, залившихся (через дублей, но залившихся), во второй попытке получили отлуп ("Книга уже есть в библиотеке"). Что есть логично.
2. 5 файлов, в первой попытке получившие другой отлуп ("уже есть в базе. Повторы недопустимы."), во второй попытке прошли (через дублей, но прошли). Что есть непонятно.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки.
Похоже, главная тут - функция AddFileToLibrusec, находится в файле author.inc. Распечатал файло, буду читать на сон грядуший...
P.S. Чтобы грепнуть сорс на моем винбоксе - пришлось его из UTF-8 перекодировываь в win-1251. И все равно не помогло - grep кириллицы не понимает хоть убей... нашел тыком.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Не используй костыли типа цыгвин, используй нативные инструменты!
vim - the best!!!
Отв: AldLit, вторая очередь заливки
А как ты вычислял LibRusEc Kit? К примеру если книга была китом, а потом заменилась на нормальный вариант, в архивах остался кит и добавился нормальный вариант. Причем не факт что "прямо" добавился. Тоесть могут быть разночтения в тегах вида "конан" "конан(конан варвар - 3)". Теперь еще один пункт. Книги либрусека часто датированы 2011 годом, что изрядно смущает его дублеловку. Также у некоторых файлов версия не 1.0 как должна бы быть, а 1.5.
ИМХО для либрусека проще понимать зипы. На рарах периодически спотыкается.
*вздыхает* зря... размер увеличился, качество файлов не изменилось.
Отв: AldLit, вторая очередь заливки
Ну... логика сравнилки на данный момент примерно такая. Сравнилка берет одно файло из AldLit-а, ставит ему priority=0 (NEW), и с ним в зубах идет по всем 100+ тысячам Либрусека.
Если встретился такой-же-тайтл AND такая-же-фамилия-автора AND либр-файл имеет в program-used первым словом eBookDownloader AND version-aldlit >= version-libr, то помечаем это файло как EBD, priority=1 (EBD).
Но на этом сравнилка не останавливается, а идет, с тем же файлом, по Либрусеку дальше.
Если встретился такой-же-тайтл AND такая-же-фамилия-автора AND либр-файл имеет в program-used первым словом LibRusEc Kit AND version-aldlit >= version-libr, то помечаем это файло как KIT, priority=2 (KIT).
И идем дальше.
Если опять такой-же-тайтл AND такая-же-фамилия-автора, NO LibRusEc Kit or eBookDownloader, но выполняется version-aldlit >= version-libr, то priority=3 (REP)(значит REPlace, наш алдлитный файл лучше либрусечного)
И идем дальше.
Если опять такой-же-тайтл AND такая-же-фамилия-автора, NO LibRusEc Kit or eBookDownloader, и не выполняется version-aldlit >= version-libr, то priority=4 (OLD)(значит OLD, наш алдлитный файл хуже либрусечного)
При этом priority может только увеличиваться, не вниз, так что порядок встречи дублей не имеет значения.
В результате получаем разбивку АлдЛита на пять групп:
0 NEW - алдлитное файло новое, в Либрусеке не встречено.
1 EBD - алдлитное файло имеет в Либрусеке дубль от eBookDownloader
2 KIT - алдлитное файло имеет в Либрусеке дубль от LibRuEc Kit
3 REP - алдлитное файло имеет в Либрусеке дубль от кого-то ещё, но алдлитное файло лучше.
4 OLD - алдлитное файло хуже имеющегося в Либрусеке.
Вроде должна работать такая логика.
Ну тут я бессилен. Такие книги воспринимаются как разные.
Гм... мне-то это пофиг, я на дату вообще не смотрю... а вот если дублеловка смотрит... непонятно зачем бы ей это, но вдруг... надо будет на этот предмет сорсы тоже глянуть.
Оп-па... такого не замечал. Проверю.
Спасибо, учту.
Ларин сказал UTF - значит UTF.
Отв: AldLit, вторая очередь заливки
Вобщем из логики скрипта что смутило: очень часто бывает что на либрусеке лежат книги одного автора(файла), а на альде - другово. Соответственно и версии отличаются. Не факт, что файл автора X, версии 1.6 будет лучше файла автора Y версии 1.4.
А вот либрусек понимает что это дубли :Р Для этого надо не учитывать в названии книги все, что в круглых скобках.
Хм... ты прав. Это глюк fb2fix. Пропускал через него весь либрусек и по какой-то загадочной причине, он решил влепить части либрусечных файлов версию 1.5. Глянул эти же файлы здесь - версия 1.0, так что вопрос снимаю.
Отв: AldLit, вторая очередь заливки
Оно, конечно, не факт. Но как ещё программно решить какая из книг лучше, если не по номеру версии? Авторов-файла по ранжиру же не построишь. Конечно, можно в сравнилке учитывать не только версию, но и автора-файла. То бишь если автор-файла один и тот же, то лучше книга с большей версией. Но если авторы-файла разные, проблема остается.
Впрочем, в любом случае REP - это третья очередь заливки, и с ней, когда время придет, будем разбираться отдельно. Дай бог пока с KIT управиться.
Гм... а ведь и правда похоже... как-то этот момент я пропустил. Попробую в сравнилке прибивать в названии все, что в круглых скобках.
Отв: AldLit, вторая очередь заливки
Надо учитывать автора. А если авторы разные - в отдельный список для ручного разгребания, и ничего не трогать. Список потом можешь опубликовать - "всем миром" будем сравнивать :) Не факт что на альде будут лучшие версии. К примеру хроники нарнии лучше на либрусеке. А пратчет был лучше на альде.
Отв: AldLit, вторая очередь заливки
OK
Отв: AldLit, вторая очередь заливки
Можно еще применить вот такой метод
http://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B5%D0%B2%D0%B5%D0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0
Но, здесь надо обязательно учитывать разницу в длине сравниваемых строк. Очепятки отлавливает аж бегом. Ну или когда в кириллицу вставляют латинские символы одинакового начертания.
Отв: AldLit, вторая очередь заливки
Листинг показал, что таких файлов в Либрусеке всего два, оба раза версия приподнята обоснованно. Ложная тревога.
Отв: AldLit, вторая очередь заливки
ИМХО, дубли и ошибки неизбежны. Лучше иметь сотню дублей, чем потерять одну хорошую книгу. Совершенно невозможно избавиться от ошибок, когда анализируется только заголовок. Не говоря о возможных ошибках / опечатках, там еще все зависит от того, кто его делал и как. Меня смущает другое. Когда все сомнения останутся позади, просьба не заливать все такой дикой массой, как в прошлый раз - там было около 40 страниц обновлений за день :(. Практически невозможно все просмотреть, и выбрать / скачать то, что интересно. Пожалейте сервер и наши глаза! Если можно, просьба заливать ну хотя бы произведений по 500 в день ;). Конечно, если это трудно технически, лейте как есть, переживем ;). Может, это даже к лучшему - отмучиться сразу и не растягивать удовольствие. Точно знаю только, что при прошлой заливке я пропустил много интересного, по чисто физической невозможности просмотреть и оценить все.
Отв: AldLit, вторая очередь заливки
Лучше сразу отмучатся :) Я например когда добавлял архивы либрусека, чтобы лишний раз не перезаписывать, то, что уже есть(а альд я выкачивал полностью), не добавлял книги вообще за 18-е число. Аналогично поступлю и с этой заливкой. А вот если будет по 500 книжек в день - начнутся проблемы. Так что лучше уж кучей.
Отв: AldLit, вторая очередь заливки
Это-то да... проблема в том, что если не удается убедить дублеловку принять новый файл молча, то приходится каждую пару дублей разрешать вручную, кликая. При заливке нескольких тысяч книг это становится, мягко говоря, проблематично.
Я думал на этим вопросом... по-моему, все-таки лучше рубить кошке хвост разом, а не по частям...
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки.
Гы... на 250-гиговом диске, выделенном под эти игры, осталось 25 гиг места. Пришлось кое-что постирать к бубеням...
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Кстати, та кошмарная) заливка уже отразилась в Дайли и можно ли её уже скачать одним файлом обновлений?
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Да, только не одним, Илья на два разбил (слишком большой файл?).
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
ОК, спасибо! Попробую найти.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Если именно те два файла в Дейли, то на http://lib.rus.ec/all/daily/ они под (ошибочно одним и тем же) именем 114698-119287.zip 114698-119287.zip
Линки там под этими именами на самом деле на два разных файла:
http://lib.rus.ec/all/daily/114698-117000.zip
http://lib.rus.ec/all/daily/117001-119287.zip
Но в принципе основная разбивка "по тысяче" http://lib.rus.ec/allbooks уже тоже добралась до этих номеров и даже дальше.
Отв: AldLit, вторая очередь заливки: EBD (11 книг) и KIT (4168
Заметка для отметки. Понял про Либрусек пару вещей, заслуживающих записи.
1. Приподнимание версии не заставит дублеловку молча принять файл. Потому что:
LogAction ("INSERT INTO libbook (FileName, FileSize, FileType, Title, Year, SeqId, SeqNumb, Id, Ver, Lang, FileAuthor) VALUES ("$nn", '$fs', '$filetype','$title','$year', '$SeqId', '$sequencei','$id', '$ver', '$lang', '$nick')", "Add book","");$b = Sel("BookId FROM libbook WHERE FileName = "$nn"");
if (!$b) return $r. "Что-то не получилось. Свяжитесь с администрацией";
if ($actionid = Sel ("ActionId FROM libactions WHERE ActionDesc = 'Add book'
AND BookId = 0 AND ActionSQL LIKE "($nn," LIMIT 1"))
Update (libactions, "BookId=$b", "ActionId=$actionid");
$r .= "<p><a href=/b/$b/edit target=_blank>Книга добавлена</a><br>";
system ("chmod a+r $nn1");
foreach ($GenreIds as $gid) Insert ('libgenre', 'BookId, GenreId', "$b, $gid");
foreach ($PD->AvtorIds as $aid) {if ($aid && $la != $aid) Insert ('libavtor', 'BookId, AvtorId', "$b, $aid"); $la = $aid;}
if ($dublid = Sel ("BookId FROM libbook JOIN libavtor USING (BookId) WHERE Title="$title" AND AvtorId = $a AND BookID != $b AND NOT Deleted"))
$r .= "<p>Кажется, нашли дубля. Ткните в него для разрешения конфликта. <a href=/b/$b/join/$dublid target=_blank>Дубль: $title</a>";
(file author.inc lines 599-610)
Здесь $b это АйДи (либрусечный номер) свежедобавленной книги, $dublid - АйДи (либрусечный номер) найденного дубля. Версия не учитывается совсем. Надо искать другие пути обхода дублеловилки.
2. В Либрусеке много книжек, в которых:
# fictionbook/description/document-info/author/nickname rusec# fictionbook/description/document-info/author/email lib_at_rus.ec
# fictionbook/description/document-info/program-used LibRusEc kit, Fiction Book Designer, Fiction Book Investigator, FB Editor v2.0
# fictionbook/description/document-info/date 29.11.2007
# fictionbook/description/document-info/id 283111f6-feec-102a-9d2a-1f07c3bd69d8
# fictionbook/description/document-info/version 1.0
# fictionbook/description/publish-info/book-name Поэтический побег
То бишь, после LibRusEc kit был и FBD, и множество всякого, но версия так и осталась 1.0
Мне надо в сравнилке сильно ужесточить критерии для зачисления в категорию KIT.
Вероятно, по ID, см. тут: http://www.fictionbook.org/forum/viewtopic.php?p=34606&sid=ce80b4a0e032856378070ac1bcf5dfd6#34606