Вы здесьЗнатоки Perl-а, помогите плз: нужен автономный код для конвертации utf-8 -> windows-1251
Опубликовано пт, 08/08/2008 - 11:27 пользователем pkn
Знатоки Perl-а, помогите плз: нужен автономный код для конвертации строки utf-8 -> windows-1251 В идеале - на Perl-е, но сгодится и C или ещё что-нибудь, что можно переписать на Perl-е. Главное, чтобы код был автономный, а не ссылался на библиотеки или модули. Потому что перловый модуль Unicode::Map8 я никак не могу заставить работать на своей системе... :((
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 3 часа
Алексей111111111111 RE:Оплатила,но абонемент не отображается 4 часа sd RE:Доступ 27 1 день kopak RE:Беженцы с Флибусты 3 дня Isais RE:Вадим Иванович Туманов - Всё потерять - и вновь начать с... 4 дня Isais RE:Семейственность в литературе 1 неделя Isais RE:Древний Рим. Подборка книг 1 неделя Саша из Киева RE:"Экс" и "нео": разноликие правые 1 неделя medved RE:Предупреждение: "зеркала" флибусты 2 недели Isais RE:Соседи 3 недели babajga RE:Как сова отправилась в отпуск 3 недели Саша из Киева RE:Горящие паруса 1 месяц Саша из Киева RE:Подвиг героев - судьба страны. МНР: люди и годы 1 месяц commodore RE:Письма 1 месяц Саша из Киева RE:Три минуты истории 1 месяц nehug@cheaphub.net RE:Как бы с этим побороться и побороть? 2 месяца Саша из Киева RE:Книги на латышском языке 2 месяца stevecepera RE:Список современных французских писателей? 2 месяца Впечатления о книгах
StrelaVV про Ляпина: Срочно требуется ведьма [СИ] (Городское фэнтези, Любовная фантастика, Самиздат, сетевая литература)
20 07 Очень симпатичная история, легко читается, ГГ чудесная, адекватная ведьмочка
ne_fanat про Княжич Юра
20 07 Сначала было более-менее интересно. Потом автор ударился в веганство, читерство, ГГ покрутел настолько, что в 5 книге его убивали аж пятеро наикрутейших магов, но так и не убили. А больше всего раздражают выплеснутые автором ………
polyn про Ефимова: Отель «Китовый райк» [СИ] (Классический детектив, Иронический детектив, Детективы: прочее, Самиздат, сетевая литература)
20 07 С нетерпением жду продолжения. Оценка: отлично!
Chernovol про Карпов: Княгиня Ольга (История, Биографии и Мемуары)
20 07 Интересно. России тогда же не существовало, было Московское царство. Оценка: плохо
dolle про Иванов: Вегетация (Киберпанк, Постапокалипсис)
20 07 Отличная социальная фантастика в антураже роуд-муви с детективным налётом. Оценка: отлично!
mysevra про Престон: Золотой город [Thunderhead ru] (Приключения: прочее)
19 07 Очень интересно, совсем как в детстве – история о приключениях! Но, матерь котья, слишком неторопливо и размерено. Оценка: хорошо
mysevra про Бородин: Молниеносный Баязет (Историческая проза)
19 07 Редко когда получаешь такое удовольствие от чтения исторического романа - браво! всей трилогии. Оценка: отлично!
mysevra про Миронов: Двенадцатая дочь (Юмористическая фантастика, Фэнтези, Попаданцы)
19 07 На мой вкус, с сюжетом и фольклором всё штатно, а вот с юмором немного (много! много!) перебор. Оценка: неплохо
udrees про Вальтер: Симбиоз [СИ litres] (Боевая фантастика, Научная фантастика, Постапокалипсис, Самиздат, сетевая литература)
19 07 Книга конечно не для широкого чтения, написана в очень вульгарном стиле про похождения четверки полных отморозков – наркоманов, алкоголиков, шлюх, дегенератов – в мире пост-апокалипсиса. Но единственное они обладают сверх-способностями, ……… Оценка: неплохо
udrees про Циммер: Планета вирусов (Биология, Научпоп)
19 07 Может это особенность присущая вирусам или сама книга получилась такая, но мне больше понравилась книга Циммера про паразитов, там он развернулся достаточно широко. Про вирусов конечно он тоже в книге описал достаточно популярно ……… Оценка: хорошо
udrees про Циммер: Паразит – царь природы [Тайный мир самых опасных существ на Земле] [litres] (Медицина, Научная литература: прочее)
19 07 Очень познавательная книга про паразитов. При всем своем отвращении к этим животным, прочел книгу со смесью удовольствия и ужаса. В общем-то полезно было узнать про их роль в природе и их способности к выживанию. Была отсылка ……… Оценка: отлично!
udrees про Лей: Инвазия (Космическая фантастика, Самиздат, сетевая литература)
19 07 Интересные приключения наемника в космосе. Можете считать, что это тот же сюжет про Чужого или Чужих в космосе, где доблестный космодесантник вступает с ними в борьбу практически в одиночку. Так что сюжет понятен. Даже созвучно ……… Оценка: хорошо |
Комментарии
Отв: Знатоки Perl-а, помогите
Text::Iconv?
Отв: Знатоки Perl-а, помогите
Он, ЕЯПП, просто интерфейс к библиотеке iconv, а я очень сомневаюсь что она у меня есть. Да я даже сам этот Text::Iconv инсталлировать вряд ли смогу. Если б мог - добился бы работы от Unicode::Map8 :((
На всяк слу, вот конфигурация моего перла:
E:\>perl -V
Summary of my perl5 (revision 5 version 8 subversion 7) configuration:
Platform:
osname=MSWin32, osvers=5.0, archname=MSWin32-x86-multi-thread
uname=''
config_args='undef'
hint=recommended, useposix=true, d_sigaction=undef
usethreads=define use5005threads=undef useithreads=define usemultiplicity=define
useperlio=define d_sfio=undef uselargefiles=define usesocks=undef
use64bitint=undef use64bitall=undef uselongdouble=undef
usemymalloc=n, bincompat5005=undef
Compiler:
cc='cl', ccflags ='-nologo -Gf -W3 -MD -Zi -DNDEBUG -O1 -DWIN32 -D_CONSOLE -DNO_STRICT -DHAVE_DES_FCRYPT -DBUILT_BY_ACTIVESTATE -DNO_HASH_SEED -DUSE_SITECUSTOMIZE -DPERL_IMPLICIT_CONTEXT -DPERL_IMPLICIT_SYS -DUSE_PERLIO -DPERL_MSVCRT_READFIX',
optimize='-MD -Zi -DNDEBUG -O1',
cppflags='-DWIN32'
ccversion='12.00.8804', gccversion='', gccosandvers=''
intsize=4, longsize=4, ptrsize=4, doublesize=8, byteorder=1234
d_longlong=undef, longlongsize=8, d_longdbl=define, longdblsize=10
ivtype='long', ivsize=4, nvtype='double', nvsize=8, Off_t='__int64', lseeksize=8
alignbytes=8, prototype=define
Linker and Libraries:
ld='link', ldflags ='-nologo -nodefaultlib -debug -opt:ref,icf -libpath:"C:\Perl\lib\CORE" -machine:x86'
libpth=\lib
libs= oldnames.lib kernel32.lib user32.lib gdi32.lib winspool.lib comdlg32.lib advapi32.lib shell32.lib ole32.lib oleaut32.lib netapi32.lib uuid.lib ws2_32.lib mpr.lib winmm.lib version.lib odbc32.lib odbccp32.lib msvcrt.lib
perllibs= oldnames.lib kernel32.lib user32.lib gdi32.lib winspool.lib comdlg32.lib advapi32.lib shell32.lib ole32.lib oleaut32.lib netapi32.lib uuid.lib ws2_32.lib mpr.lib winmm.lib version.lib odbc32.lib odbccp32.lib msvcrt.lib
libc=msvcrt.lib, so=dll, useshrplib=yes, libperl=perl58.lib
gnulibc_version='undef'
Dynamic Linking:
dlsrc=dl_win32.xs, dlext=dll, d_dlsymun=undef, ccdlflags=' '
cccdlflags=' ', lddlflags='-dll -nologo -nodefaultlib -debug -opt:ref,icf -libpath:"C:\Perl\lib\CORE" -machine:x86'
Characteristics of this binary (from libperl):
Compile-time options: MULTIPLICITY USE_ITHREADS USE_LARGE_FILES
USE_SITECUSTOMIZE PERL_IMPLICIT_CONTEXT
PERL_IMPLICIT_SYS
Locally applied patches:
ActivePerl Build 813 [148120]
Iin_load_module moved for compatibility with build 806
PerlEx hacks for CGI::Carp
Less verbose ExtUtils::Install and Pod::Find
instmodsh upgraded from ExtUtils-MakeMaker-6.25
24699 ICMP_UNREACHABLE handling in Net::Ping
21540 Fix backward-compatibility issues in if.pm
Built under MSWin32
Compiled at Jun 6 2005 13:36:37
@INC:
C:/Perl/lib
C:/Perl/site/lib
.
E:\>
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
Если речь идет о *nix и надо сделать быстро, то может быть попробовать выполнить из perl recode(1)? А потом, на досуге, повоевать с Unicode::Map8...
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
Машина - винбокс (Win XP Pro), причем не девелоперская, на ней даже make нету и я не все смогу инсталлировать (комп не мой, компании).
И задача - конвертить строку, не файл... хотя если бы был на машине recode, можно было бы сплюнуть строку в файл и напустить на него recode... но его нет.
Собственно, задача - вынуть (перловым скриптом) из ~140,000 fb2-файлов (кодировки windows-1251, windows-1252, utf-8, koi8-r, iso-8559-1) строку с названием книги и сравнить. Я могу управиться с windows-1251, windows-1252, koi8-r, iso-8559-1, но вот на utf-8 произошел затык, чтоб его...
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
Мейби так:
#!/usr/bin/perl
use open IN => ':utf8', OUT => ':encoding(cp1251)';
use open ':std';
print while(<>);
?
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
А ноги у этой хрени растут из модуля Encode.pm.
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
Так... кажется, в моем перле есть модуль Encode::Encoder -- Object Oriented Encoder... изучаю...
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
да-да-да
можно конвертнуть двумя способами:
use Encode qw(from_to encode decode);
$str = "привет";
from_to($str, "utf8", "cp1251");
print $str;
$str = "привет";
print encode("cp1251", decode("utf8", $str));
Отв: Знатоки Perl-а, помогите плз: нужен автономный код для кон
Кажись, заработало. Именно с использованием модуля Encode - спасибо, ground0!
Не обошлось без метода тыка и странностей, но вроде работает - кроме некоторых экзотических fb2-файлов, в которых указана кодировка iso-8859-1 или windows-1252, но буквы на самом деле содержатся в какой-то странной форме, типа HTML-символов, вот так:
Курс на
Если кому интересно - работает вот примерно такой код:
# NO!!! use encoding 'windows-1251';
# NO!!! use encoding 'utf-8';
use Encode;
...
my $tit = &sub_fb2_get_booktitle($des);
my $enc = &sub_fb2_get_encoding($des);
# nope... binmode(STDOUT,":utf8");
if( uc($enc) eq "WINDOWS-1252")
{
$tit = decode("iso-8859-2",$tit);
}elsif( uc($enc) eq "WINDOWS-1251" ){
$tit = decode("windows-1251",$tit);
}elsif( uc($enc) eq "ISO-8859-1" ){
$tit = decode("iso-8859-1",$tit);
}elsif( uc($enc) eq "KOI8-R" ){
$tit = decode("koi8-r",$tit);
}elsif( uc($enc) eq "UTF-8" ){
$tit = decode("utf-8",$tit); # yes, it's necessary!
}else{
printf("[%6d of %6d] Bad enc="%s" $fullfname_G\n",$curnum_G,$listsize_G,$enc);
}; # iffelse
###
# Works!!!
$tit = encode("windows-1251",$tit);
# Now tit is in win-1251
Отв: Знатоки Perl-а, помогите плз:
А можно на php? В прошлом веке я с такими проблемами часто сталкивался
тупое сопоставление
острое сопоставление
Отв: Знатоки Perl-а, помогите плз:
Ааагромадное спасибо! Переделал под Перл Ваше "острое сопоставление" - работает, саб-бака! :)) По крайней мере на тестовых двадцати файликах - работает как лялечка.
У меня, конечно, есть подозрение что где-то может и сбойнуть (я правильно понимаю, что код предполагает все utf-8 буквы двухбайтными?) но это уже поодиночке разбираться будем. Ща я его на все 100+ тысяч напущу, пусть поурчит и посмотрим что скажет...
Отв: Знатоки Perl-а, помогите плз:
Так... "острое сопоставление" все-таки слишком часто сбивается, если я правильно понимаю - на тире, кавычках, скобках и тому подобном.
Зато модуль Encode, кажется, работает.
Отв: нужен автономный код для конвертации utf-8 -> windows-1251
Питоновый код я тут где-то уже приводил