Переименование fb2-файлов

ВложениеРазмер
Иконка простого текстового файла fb2rename0.7.133.txt382 КБ

Простейшая программка для переименования файлов fb2 в соответствии с заданным шаблоном. Изменить тип файла с TXT на EXE. Думаю, разобраться будет несложно. Обо всех глюках и багах - пишем сюда. Альфа-тестирование. Автор - mz.Vandal

Комментарии

Хм... Что значит "Заголовок сцеплен в одну строчку" ?
Дальше по теме ОС. Программа писалась под Винду. Сборки под Линь пока ещё не было даже пробной. Я так понимаю, все эти проблемы из-за чуткого отношения Линя к регистру букв. При сборке под Линь эти особенности будут учтены.
Насчёт лицензии не знаю, соглашение не читал, но теоретически - GPL :)

aka_SKIff написал:
теоретически - GPL :)

Show me the code. (c) Linus Torvalds

aka_SKIff написал:
Что значит "Заголовок сцеплен в одну строчку" ?

Ну, если книжка выгляди так:
<description>
  <title-info>
   <genre>adv_animal</genre>
   <genre>home_pets</genre>
   <author>
    <first-name>Александр</first-name>
    <last-name>Неманис</last-name>
   </author>
   <book-title>Картофельный пес</book-title>
   <date></date>
   <lang>ru</lang>
  </title-info>
  <document-info>
   <author>
    <first-name>TaKir</first-name>
    <last-name></last-name>
   </author>
   <program-used>Fiction Book Designer, FB Editor v2.0</program-used>
   <date value="2008-05-01">07.05.2008</date>
   <src-url>http://www.rusf.ru/books/</src-url>
   <id>4E7198-1C86-3B4D-A8B4-AFB8-ABB0-141B91</id>
   <version>1.1</version>
   <history>
    <p>version 1.1 — TaKir — создание документа  </p>
   </history>
  </document-info>
  <custom-info info-type="general">Данное художественное произведение....</custom-info>
</description>
...
, то всё хорошо.
А, вот если так:
<description><title-info><genre>adv_animal</genre><genre>home_pets</genre><author><first-name>Александр</first-name><last-name>Неманис</last-name></author><book-title>Картофельный пес</book-title><date></date><lang>ru</lang></title-info><document-info><author><first-name>TaKir</first-name><last-name></last-name></author><program-used>Fiction Book Designer, FB Editor v2.0</program-used><date value="2008-05-01">07.05.2008</date><src-url>http://www.rusf.ru/books/</src-url><id>4E7198-1C86-3B4D-A8B4-AFB8-ABB0-141B91</id><version>1.1</version><history><p>version 1.1 — TaKir — создание документа  </p></history></document-info><custom-info info-type="general">Данное художественное произведение....</custom-info></description>..., то не работает.

aka_SKIff написал:
Я так понимаю, все эти проблемы из-за чуткого отношения Линя к регистру букв.
"Эт, вряд ли"(С)тов.Сухов - библиотеки семантически не на столько отличаются.

aka_SKIff написал:
Насчёт лицензии не знаю, соглашение не читал, но теоретически - GPL :)
Вау! Ну, тогда - сорцы на sf.net'е ждём-с! :)

Эт надо у разработчика спрашивать :) Похоже, это косяк парсера DOM-структуры. Но я могу и ошибаться :)

Да будет вам GPL. Будет. Вот только сделаю более-менее рабочую версию. То, что есть, делалось буквально "на коленке". Как-то даже вдруг.
Поскольку я с сегодняшнего дня в отпуске, скорых обновлений не получится.

Кстати про линух. Попробую насторить лазаруса для сборки из-под винды. Поскольку дома линь ставить в лом, тестинг под линь возложим на aka_Skiff. :-)

Думаю, Линь тут у многих есть :) Так что тестить будем все вместе :)

Пока с кодировкой никаких проблем не обнаружено. Обработано порядка 250 файлов. Из них процентов 30 изначально были в 1251.

Но прога не хочет увидеть папку, если она "глубоко" запакована. Мне пришлось пару папок перенести в другое место, чтобы переименовать и перекодировать. Это лечится?

Если в названии серии встречаются кавычки, переименование не происходит. Более того, программа прерывается и "неудобный" файл нужно или удалить из папки или переименовать.

Периодически (не могу проследить закономерность) выскакивают один-два файла полностью на "тарабарщине".

Цитата:
Если в названии серии встречаются кавычки, переименование не происходит.

Кстати, да - даже странно.

При указании шаблона вида %F %L\%S\%N %T на выходе получается фай с именем типа Терри ПратчеттПлоский мир31 Монстрячий взвод.fb2
То есть слеши в пути полностью игнорируются и все файлы оказываются в одной папке. А хотелось бы видеть их рассортированными по подпапкам, соответствующим сериям.

Качайте программу, которая умеет рассортировывать по папкам. Эта - не умеет.

aka_SKIff написал:
Качайте программу, которая умеет рассортировывать по папкам. Эта - не умеет.

Жаль... А научится?

Вряд ли. Придётся в корне менять логику обработки шаблонов.

papa Shura написал:
При указании шаблона вида %F %L\%S\%N %T на выходе получается фай с именем типа Терри ПратчеттПлоский мир31 Монстрячий взвод.fb2
То есть слеши в пути полностью игнорируются и все файлы оказываются в одной папке. А хотелось бы видеть их рассортированными по подпапкам, соответствующим сериям.

Вместо слешей ставьте дефис. Получается очень наглядно и разнести по папкам - дело нескольких минут.

papa Shura написал:
А хотелось бы видеть их рассортированными по подпапкам, соответствующим сериям.

Я тут уже приводил ReNamer - он умеет по папкам.
Так что - в два прохода.

Уважаемый aka_SKIff!
а не планируется ли подобная, но не совсем утилита, которая меня давно интересует - запись в файл описания в табличном виде для свалки фб2 файлов? Т.е. тот же парсинг фб2, что и здесь, но результат просто сохранить в отдельный файл. Ну и чтоб работала в консольном режиме. А на вход задать чего именно из дескрипшенов фб2 интересует, чтоб парсить только то, что требуется.
А то по спискам я могу и переименовать и перенести, а вот списки получать тяжко:(

Или подскажите, может уже есть такое?

kv написал:
А то по спискам я могу и переименовать и перенести, а вот списки получать тяжко:(
...
Или подскажите, может уже есть такое?

Теоретически, это можно сделать при помощи XSLT-преобразования, а затем переформатировать awk'ом каким-нибудь в нужный вид.

Или даже так:

sed -e '1,$s/<\/?description>/\n&\n/g' -e '1,/<description>/d' -e '/<\/description>/,$d' \
< Book.fb2 > Header.txt

Вырезает заголовок из книжки Book.fb2

Комнады sed'а (после -e):
1. выносит принудительно открывающий и закрывающий теги описания на отдельные строки (добавляет переводы строки)
2. стирает всё с первой строки до тега <description>, включительно
3. стирает всё от тега </description>, включительно, до конца файла

Для виндов есть Sed for Windows

С кавычками в содержимом тегов разберусь. По идее должно работать - значит баг.
А обработку слешей в шаблоне добавить недолго.

mz.Vandal написал:
С кавычками в содержимом тегов разберусь.

Ээээ... А хотелку можно? Маленькую? :) Добавить бы список замены символов, а?
Что бы те же кавычки (апострофы, амперсанды, знаки номера, хеши, и т.п.) можно было бы заменить на что-то ещё. Можно просто в виде двух строк, конечно, но лучше бы - в виде "ассоциативного массива", чтобы можно было и удалить и заменить символ на строку (тот же амперсанд на слово "and").

Посмотрим в ближайшие дни.

jno написал:

Для виндов есть Sed for Windows

спасибо. Посмотрел. Сильная штука. Но для меня слишком умная:(
Наверняка как-то приспособить можно, но это не так просто будет. Потому как есть требование к спискам - назначение полей должно быть одинаковым независимо от конкретного файла. Может я сброшу тебе что мне надо, а ты посмотришь? А то здесь тема не совсем та.

Исправил. Добавил.
Билд 120.

Добавил в первый топик. Изменил скрин.

Для тестирования могу предложить вот этот архив: http://jno.mylivepage.ru/file/1298/3187_Kir_Bulychev.7z (пароль - мой ник)

Типа, ПСС Кира Булычева - 300+ книг в FB2, чьё переименование вызывает ряд проблем:
1. кавычки мешают создать файл
2. некоторые книги переименовываются в крякозябры (encoding опознаётся или прописан неверно)

И снова укажу ооооочень неплохую тулзу для переименования "имени генерала Пурпоса" - ReNamer (понимает даже тэги EXIF, но с FB2 пока не дружит).

(К предыдущему посту, если оно вдруг вылезет, пытался прицепиться этот архив - я сдуру выбрал его, но потом увидел, что д.б. картинка, а отцепить не смог :)

Отчёт.

При переименовании 94 файлов 12 не "захотели" в папки (могу их выслать на мэйл). Причём их приходилось удалять (переносить), чтобы программа работала дальше. При вторичном запуске программы обрабатывались и уже полученные при первом заходе папки, загоняя файлы на один уровень глубже. Может, можно придумать, чтобы уже обработанные программой файлы/папки, а также те, которые программа обработать не может, игнорировались?

Если использовать вместо слешей дефисы, папки тоже создаются, но они все пустые. Хотелось бы иметь выбор - раскладывать файлы по папкам или просто переименовывать.

Вроде всё. ;)

Перед тем, как заснуть вчера, вспомнил одну плюху с кавычками - совсем забыл, что файловая система не позволяет использовать этот символ в именах файлов и директорий.

Также исправлен баг с созданием левых директорий при использовании шаблона без слэшей.

mz.Vandal написал:
Перед тем, как заснуть вчера, вспомнил одну плюху с кавычками - совсем забыл, что файловая система не позволяет использовать этот символ в именах файлов и директорий.

Минуточку! Это какая ФС? Моя (ext3fs) - вполне себе позволяет :)
Я потому и просил настраиваемый фильтр замены...
Пусть уж он в .ini настраивается ручками - фиг с ним, не часто менять надо.
Типа:
[replace]
&=_and_
"=
'=
=_

Без слэшей работает как надо.
А со слэшами отказывается обрабатывать некоторые файлы. Закономерности обнаружить не могу.

Спасибо за программу!
Есть пожелание
1) Отключить по умолчанию переименовывание во всех папках, кроме указанной.
Галочку для желающих. А то я первым же запуском дублей наплодил на всем логическом диске ))
2) Что-то с переименовыванием не всегда корректно получается.
Слово "Здоровье" вот так выглядит, по мнению проги: Zdorovbe
Я понимаю, что нынче эра албанского, но не настолько же ))

Попробовал версию 0.7.133
52 fb2-файла, имена файлов в windows-1251, fb2 внутри - некоторые windows-1251, некоторые utf-8.
FBRename 0.7.133, как оказалось, не только переименовывает, но и перекодирует файлы (windows-1251 -> utf-8) чего, вообще-то, не было нужно.
Кроме того, больше половины файлов переименовались некорректно. Точно определить что именно произошло я затрудняюсь, но похоже, что эта часть файлов получила имена в utf-8. Наподобие такого: RќRµR·RЅR°RЅSЃRєReR№_R¤SЂReRґSЂReS…_R“RѕSЃRїRѕRґReRЅ_R°RґRІRѕRєR°S‚-14_R“R»R°RІRЅS‹R№_SЃRІReRґRµS‚RµR»SЊ.fb2

Причем оригиналы для этих неудачных переименований были как в windows-1251, так и utf-8.

Так что придется мне вернуться к опостылевшей перловке...

Для интересующихся организовал продолжение банкета.

А можно добавить в шаблон символ ну скажем %O - оригинальное имя файла (без расширения)? Ну очень надо!

Страницы

X