Метаграммы

Название темы - условное, для лучшего поиска. На самом деле метаграмма - вид шарады. Но к нашей теме косвенное отношение имеет.

А собственно тема - об улучшении качества fb2-файла (а о чём же ещё? ). По аналогии с уже существующей темой "Типичные ошибки распознавания" предлагаю собирать здесь пары действительно существующих слов, отличающихся всего одной буквой. Особое внимание уделить тем словам, где эти две различные буквы сходны по начертанию.

Примеры: "грех - трех", "свечка - овечка", "липа - лица".


Я думаю, все OCR-щики и верстальщики понимают, зачем это нужно. Это совсем недавно опять прозвучало в теме "Мои алгоритмы работы с ФР11": такие слова не распознаёт спеллчекер (поскольку они входят в словарь), и обнаружить ошибку можно только во время чтения.

Когда-нибудь, возможно, появится скрипт, выискивающий такие слова, пока их (при желании) можно включить в "Поиск по регэкспам" (частично они уже там присутствуют).

К сожалению, словаря на эту тему не существует (или я плохо искала?), поэтому предлагаю собирать их здесь. Для того, чтобы в момент появления скрипта (надеюсь, он всё-таки когда-нибудь появится) было бы чтó ему "скормить".

Комментарии

снами - с нами
сними - с ними
пои - при
эго - это
ист - нет
пс - не
ужо - уже (если это не просторечие. в свой скрипт включал - работает.)

воли - волн
стой - с той - стон
полыми - полыни
народном - на родном
палашу - папашу
наземном - на земном
штормовок - штормовой
оком - окон
камни - камин
там - том
дизельной - дизель ной
мой - мои
запалами - запахами
(все с одной книги - урожайная попалась :))

Roxana написал:

запалами - запахами

запал — запад (и во всех падежах)
Аватар пользователя Isais

молено = можно

на деле - наделе

Сегодня попалось:
детали - летали
начинялось - начиналось
лишних - липших

Варианты разорванных слов, вроде "сей час", "пол нее" тоже нужны?

Evernet написал:
Варианты разорванных слов, вроде "сей час", "пол нее" тоже нужны?

Сегодня тоже задумалась:

от дел - отдел

на деле - наделе

в дела - вдела

на следующий - наследующий

пока та - поката

в одной - водной

при ставке - приставке

бар с - барс

перед ними - передними (во всех вариантах)

по личным - поличным

Можно пособирать, вычеркнуть всегда легче. ;)

даже - далее
ворот - порот
черная - черпая
Боже - более
на ногу - на йогу
за ним - за мим
наша - паша

нервы - нерпы

гранаты — фанаты

путать - пугать (+спряж.)

поло - подо
вроде - броде
знает - зияет
без - вез
у шел - ушел

ответа - отпета, любовь - любое, служанка - слушка, ней - пей, протянул - про тянул, еле - ем, как - так, вон - вот, злым - алым, голова - полова, принадлежала - при над лежала, больнее - боль нее, поддержать - под держать, пример - при мер, повторить - по вторить, раз - паз, нес - нее, вес - все, отрезала - от резала, вам - бам, жди - меди, но все - новее, ода - о да, это - его, содержим - со держим, мина - ми на, того - то го, выбраться - вы браться, папу - пану, похожа - похода, врежьте - врежь те, самого - само то, получить - полечить, подними - под ними, шли - или, вол - бал (вал), внизу - в низ у, ее - се, возразил - воз разил

Аватар пользователя Антонина82

Сказать - скакать.
Не пора ли ТС, как-то систематизировать, хотя бы по алфавиту, чтобы не было повторов.
Кто сказал, что инициатива наказуема? :)

Антонина82 написал:
Сказать - скакать.
Не пора ли ТС, как-то систематизировать, хотя бы по алфавиту, чтобы не было повторов.
Кто сказал, что инициатива наказуема? :)

Антонина, лучше Вас каталогизатора на сайте нет.
*типа намёк*
Аватар пользователя Антонина82

golma1 написал:
Антонина82 написал:
Сказать - скакать.
Не пора ли ТС, как-то систематизировать, хотя бы по алфавиту, чтобы не было повторов.
Кто сказал, что инициатива наказуема? :)

Антонина, лучше Вас каталогизатора на сайте нет.
*типа намёк*

Намёка не поняла :)))
Здесь нужен опыт верстальщика, что целесообразно включать, а что - нет. И что вначале - слово редко встречаемое или наоборот?

Антонина82 написал:
И что вначале - слово редко встречаемое или наоборот?

Просто по алфавиту. Для порядкУ и чтобы выявить дубли.

если - сели
Чтобы не повториться, проверяю поиском в браузере.

пенила - ценила
норма - поэма
материн - материи
нравы - правы
один - одни
ею - его
его - ого
векую - некую
сонет - совет
снопа - снова

зятем - затем
порей - порой
далее - даже
мною - много
пот - нот - вот - кот
хороню - хорошо

слитком - слишком
по длинным - подлинным

черная - черкая
рук - рун
прошение - прощение
кто - «то (ищется скриптом обработка кавычек)

салопные - салонные
хороню - хорошо
перегнившего - пережившего
далее - даже

Хорошо бы в скрипт включить еще такие случаи, когда буквы распознаются как цифры и наоборот. Если цифра в слове, то скриптом "слипшиеся слова" она находится, если отдельно, то нет.
13 - В
11 - И
6 - б - С
0 - о - О

Два восклицательных знака в конце слова могут обозначать "й", например, распозналось так "общительны!!", а должно "общительный"

в бантах - в байтах
тонкая - топкая
два - дна
И регулярно встречается это - ого

опросили - спросили
спросили - сбросили
слова - слава - слева - слива
слова - слона

регион - легион

споро - скоро
палок - падок
лог - лот

тиран - таран
трал - трап
баран - варан - таран

лама - дама - мама
показал - доказал

правились - нравились

Аватар пользователя Isais

копры - ковры
тренога - тревога (и во всех падежах)
611 - бы

фею — рею — грею (и падежи и другие формы)

полка- попка

грозный - грязный
полста - полета

стена — степа (повтор, уже было)
него — пего (повтор, уже было)
пары — нары
то — го
тото — того
полушка — подушка

повой - новой
приткнуть - притянуть

Часто встречающееся "Мерс" заменяется на "Мере".

паук - наук

Особенно порадовало сочетание "об искусствах и пауках".

по данным - поданным
пли - или

Цитата:
по данным - поданным

Подобные случаи тоже встречаются часто. У меня, например, было такое:
Из данного - изданного
Вы пишите - выпишите

трубкой - трубной
шагающих - шатающих
по бокам - по бонам
несколько - насколько
прямой - пряной
по степи - постели
и даже:
наперстка - каперства

Поднимаю тему. Кажется, пришло время этому скрипту (ТТТ).

Антонина, как насчёт систематизировать собранное по алфавиту? ;)

Скрипт получится огроменным. Вот из последнего:
паук - наук
хороню - хорошо
пот - вот
снял - сиял
яге - же
копя - коня
парод - народ
пово - ново
липа - лица
манор - майор
трона - тропа
рту - эту
Филипа - Филина

Тоже из накопившегося:
прекратились - превратились
кем - нем
кроме - кроне
годовой - головой
нежного - неясного
могу - ногу
званий - знаний
вся - вея
обвинять - обвивать
вешать - вещать
или - иди
глаза - глава
дает - даст
звали - знали
этому - атому
иной - ивой
честью - честно
потому - потону
первый - верный
сколько - окольно
в след - вслед
задушевные - задушенные
в день - вдень
все едино душно - все единодушно
оберегать - сберегать

А скрипт будет пополняющийся? Тогда можно будет эту тему продолжать и дальше, желающие будут сами добавлять себе в скрипт новые сочетания.

Evernet написал:
А скрипт будет пополняющийся? Тогда можно будет эту тему продолжать и дальше, желающие будут сами добавлять себе в скрипт новые сочетания.

Будем надеяться. :)

Пока надо бы составить общий список. Но никто пока не берётся. В-)

Давайте я сделаю. Только вопрос: в парах, в которых слова начинаются с разных букв, ведь не имеет значения, какое будет первым?

Evernet написал:
Давайте я сделаю. Только вопрос: в парах, в которых слова начинаются с разных букв, ведь не имеет значения, какое будет первым?

Давайте. :)

Значения не имеет. Но если у слова есть несколько "неправильных" вариантов, то желательно собрать в одну строку (например: врага - врата - брага).

Спасибо. :)

Страницы

X