Вы здесьУдаление дублей из архивов по 1000 книг.
Опубликовано вт, 20/01/2009 - 15:27 пользователем Bullfear
Есть такая программа myhomelib. Для работы использует архивы либрусека. В этих архивах примерно 20% дублей. В связи с этим возникает вполне закономерное желание эти дубли убрать. pkn написал для этой цели скрипт. Скрипт перловый.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
NickNem RE:Подайте бедному копеечку на книжку с литреса... 1 день
larin RE:Пропал абонемент 4 дня Larisa_F RE:Серия "Новые сказочные повести" издательство "Самовар" ... 2 недели sem14 RE:Серия "Символы времени" издательства "Аграф" 2 недели Larisa_F RE:Серия книг «Судьбы книг» издательства «Книга» 3 недели tvv RE:faq brainstorm =) 3 недели Larisa_F RE:Серия "Что есть что" издательства "Слово"(чего не хватает) 3 недели Larisa_F RE:Серия "Очень прикольная книга", издательство Азбука-классика 3 недели larin RE:абонемент не обновлен 1 месяц sem14 RE:За иллюминатором (серия) - чего не хватает? 1 месяц sem14 RE:Собираем серию: "Мастер серия", издательство "Лимбус". 1 месяц Larisa_F RE:Книжная серия «Сlio» издательства "Евразия" 1 месяц tvv RE:DNS 1 месяц MrMansur RE:<НРЗБ> 1 месяц Stager RE:Беженцы с Флибусты 1 месяц Tramell RE:Серия "Библиотека французской литературы" (Макбел) 1 месяц sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 месяц sem14 RE:Современная корейская литература. Книжная серия... 1 месяц Впечатления о книгах
udrees про Атаманов: Обрести тело [СИ] (ЛитРПГ, Самиздат, сетевая литература)
15 02 Хорошее достойное завершение серии про гоблина Амру. Органично вплелись реальная и виртуальная жизни в сюжете. Хорошее описание событий в игровом мире. Несколько удивительный поворот в сюжете в реальном мире по поводу заточения ……… Оценка: хорошо
udrees про Бойн: Аларих, король вестготов: Падение Рима глазами варвара [litres] (Исторические приключения, Публицистика)
15 02 Какая-то странная книга, где Аларих выступает в роли предмета интерьера в комнате что ли. Большая часть книги, да вообще вся книга, это просто описание жизни в Римской империи перед ее падением. Описываются множество персонажей ……… Оценка: плохо
udrees про Атаманов: Стратег из ниоткуда. Книга 2 (Героическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
15 02 Хорошо написано продолжение приключений попаданца в племя орков. Можно сказать история возвышения героя, который и вправду «стратег», занимающийся строительством своей империи. Сюда входит не только военное дело, но и множество ……… Оценка: отлично!
Олег Макаров. про Хонихоев: Тренировочный День 13 (Альтернативная история, Юмор: прочее, Самиздат, сетевая литература)
14 02 Немного авторов, которых я бы столько книг в серии выдержал читать. Не могу даже сказать, чем этот подкупает. Но с удовольствием уже тринадцатый раз Оценка: отлично!
бушмен про Аzнеп: Вагнер. Дорога на Бахмут. 300! 30! 3! (О войне)
14 02 Тяжёлая смертельно-опасная работа. Причём, самим бойцы деньги в моменте и не нужны (но семья, медицинская помощь в случае увечья требуют денег) Оценка: отлично!
Barbud про Емельянов: Бастард Александра (Альтернативная история, Исторические приключения, Попаданцы, Самиздат, сетевая литература)
13 02 Вполне читабельно. Местами, правда, несколько затянуто и изрядно сдобрено размышлизмами в ущерб "экшену", но в целом неплохо. Немного позабавило нежелание ГГ браться за внедрение огнестрела на том основании, что порох, будучи ……… Оценка: хорошо
Олег Макаров. про Кириллов: Вернуться (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
12 02 Диван, на котором он лежал, стоял в углу, впритык к стенке торцом и одной из сторон, прямо рядом с закрытой дверью. Прямо напротив него рядом с окном стоял письменный стол. У противоположной стены стояла большая мебельная ……… Оценка: нечитаемо
su24i про Кулаков: Цивилизатор в СССР 1978 (Альтернативная история, Попаданцы, Самиздат, сетевая литература)
12 02 Э-э-э... я думаю Дунька Кулакова сестра автора.... Оценка: нечитаемо
Oleg68 про Сергей Дмитриевич Ауслендер
11 02 Отлично. Настольная книга для тех, кто опустил руки и не борется. Автору уважение.
austvalya про Емец: Таня Гроттер и посох Волхвов (Детская фантастика)
11 02 Жалко Таню. А Лизу жалеть не хочу, она завистлива и эгоистична. Да и преподаватели в этой книге показали себя не с лучшей стороны. Оценка: хорошо.
Sello про Голдсуорти: Во имя Рима: Люди, которые создали империю [In the Name of Rome: The Men Who Won the Roman Empire ru] (История)
11 02 Интереснейшая книга. Правда, стоит свою память держать все время в "боеготовности": в лабиринте дат, имен (второстепенных), которые у разных персонажей порой абсолютно одинаковые, названий населенных пунктов запутаться несложно. Оценка: отлично!
decim про Аллингем: Сладкая опасность (Классический детектив)
11 02 Качество перевода, увы, никакое. Более приличный перевод см. "Сладость риска", изд. "Азбука", 2025. |
Комментарии
Отв: kop-librusec-dedead - очень новая версия.
Странно... параметры ОК, вроде должно было нормально сработать... правда, не видно нормально ли загрузились SQL-таблицы... нельзя ли полностью вывод скрипта увидеть?
Убедил. Как руки дойдут - сделаю.
Отв: kop-librusec-dedead - очень новая версия.
Изволь. Распаковка таблиц заняла чуть больше 20 минут. Дальше уже пошло убиение невиновных файлов, посему скрипт был безжалостно остановлен :) И так уже половину придется перекачивать.

Кстати по поводу sql... А работать по спискам myhomelib скрипт разучился? Если да, то жаль - было намного быстрее.
Отв: kop-librusec-dedead - очень новая версия.
Распаковка - это секунды, там парсинг длинный. Но это от компупера зависит, у меня это три минуты занимает :). Но учту, спасибо, если будет возможность - попробую эту часть ускорить.
Ну извини... я честно предупреждал: "НЕ пользуйтесь этой опцией, если не уверены." ;)
Не, это вряд ли получится. Я много пользуюсь частями именно этого скрипта, с SQL-таблицами, и поддерживать два формата - эт я не потяну.
Теперь по сути: похоже, там баг в скрипте. При единственном фильтре "по языку ru" он нашел всего 5409 желаемых (wanted) книг из 123760. Не может быть чтобы в таблицах было всего 5 тысяч книг на русском. И у меня такой же примерно результат, даже ещё меньше, так что это не разница в Перле или в SQL-таблицах, а баг в скрипте. Буду искать, как только дойдут руки. Постараюсь не затягивать, но прямо сейчас - не могу.
Отв: Удаление дублей из архивов по 1000 книг.
Ну дык на настольном и у меня будет около 3-х минут. Ты на ноуте пораспаковывай :Р
Тоесть косяк в единственном фильтре или именно в фильтре по языку?
*обиженным голосом* Но ты не добавлял "... что в скрипте нет бага" :Р
Ясно, спасибо. Бум ждать, благо сейчас либрусек работает и это не так критично ;)
Отв: Удаление дублей из архивов по 1000 книг.
Баг в скрипте есть всегда. Это аксиома.
kop-librusec-dedead - 0.4.3
kop-librusec-dedead верисия 0.4.3 - прицеплена к посту.
Изменения:
1. Пофиксен злобный баг. Предыдущими версиями не пользоваться, они глюкавые на всю голову!
2. Добавлена опция -testrun : Делать всё как настоящее, но не писать/стирать никаких zip-архивных файлов.
3. Добавлена возможность перезаписывать поверх исходных файлов. Для этого надо чтобы -do (dirout, выходной директорий) показывал туда же где лежат исходные зипы (dirzip), и присутствовала опция -removeoriginals.
Отв: kop-librusec-dedead - 0.4.3
Спасибо, щас потестим :)
Отв: kop-librusec-dedead - 0.4.3
Меня терзают смутные сомнения... На первый взгляд все нормально, однако почти в каждом архиве скрипт находит примерно 250-300 дублей. Так и должно быть? Архивы уже были обработаны старой (безглючной) версией скрипта.
Wanted total 96695
Books total 123760
to be squeezed 27065
Или он просто повторно обьединичивает единички? Тогда все в порядке.
Из замеченного: быстрее стали грузится таблицы, это гуд :)
А вот еще что.
WARNING: Bad member name: "Ketrin_A_List_Etika_bl**stva.fb2" zipf="16988-117987"
C этими файлами можно что-то сделать?
Отв: kop-librusec-dedead - 0.4.3
Повторно объединичивает.
Это тебе показалось :) там ничего не делалось.
АХЕЗ. Звёздочки в имени разрушают перловые regexp-ы. Я пока не могу научиться как бы их правильно сравнивать.
Отв: kop-librusec-dedead - 0.4.3
Странно. Тем не менее факт. Тогда одно из трех:
- Я сонный, поэтому думаю медленнее :)
- Они эээ... Закешировались виндой, ибо ноут уже недели две не перезагружался.
- Что третье? Говорю же - сонный я :Р
Отв: kop-librusec-dedead - 0.4.3
Можно экранировать переменную - /^\Q$membername\E$/
А можно использовать строковое сравнение вместо regexp (должно быть быстрее) - grep {$_ eq $membername} @FN_G;
Отв: kop-librusec-dedead - 0.4.3
Спасибо! Перловковар из меня тот ещё...
Страницы