37 миллионов старых газетных страниц выложены в Сеть
Опубликовано сб, 24/12/2016 - 09:19 пользователем DeMorte
Forums: Как создать самый большой архив периодики в домашних условиях? Американец Том Триниски просто вооружился сканером и взялся за дело в собственной гостиной. Работая в одиночку, Том Триниски сумел оцифровать более 37 миллионов страниц старых газет — это больше, чем в американской Библиотеке Конгресса (крупнейшая библиотека мира), — сообщает Newtonew. Результаты своего труда он выкладывает в открытый доступ на сайте Fulton History, где можно найти архивы более 1000 газет штата Нью-Йорк, некоторых других штатов и Канады. В архиве, который составитель регулярно обновляет, содержатся издания с 1795 по 2007 год. Триниски — инженер на пенсии и любитель старины. Над сайтом и контентом он работал в одиночку, в своём доме. Четырнадцать лет назад он решил отсканировать коллекцию старых открыток с видами округа Фултон, Нью-Йорк (его родной район), чтобы поделиться ими в интернете. Впоследствии к открыткам добавились заметки, рекламные объявления, некрологи, печатные издания. Ресурс до сих пор называется в честь округа Фултон, хотя материалы давно вышли за первичные географические границы. Для оцифровки газет используется программа для оптического распознавания символов, которая иногда ошибается из-за того, что некоторые издания очень старые. Также создатель сайта задействовал микрофильмы, на которых есть следы царапин и пыли, однако это добавляет старым газетным страницам обаяния. Сайт Fulton History не всегда справляется с наплывом гостей, и временно бывает недоступен из некоторых точек мира. Если такое случилось, можно заглянуть на Chronicling America, ещё один открытый ресурс с историческими газетами, на сайт с архивами газет от Бруклинской публичной библиотеки, или прошерстить базу данных Нью-Йоркской публичной библиотеки — здесь тоже есть множество старых изданий, и не только американских.
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
babajga RE:Народные сказки - Сказки народов Сибири = Fairy-Tales of... 1 час
nehug@cheaphub.net RE:Багрепорт - 2 10 часов Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 19 часов Kiesza RE:Бушков умер. 20 часов sibkron RE:Серия "Библиотека французской литературы" (Макбел) 1 день sem14 RE:Книжная серия "Жизнь в искусстве" издательство "Искусство"... 1 день нэнси RE:Подайте бедному копеечку на книжку с литреса... 1 день Isais RE:Игорь Северянин - Том 2. Поэзоантракт 1 неделя sem14 RE:Современная корейская литература. Книжная серия... 1 неделя sem14 RE:Семейственность в литературе 1 неделя Isais RE:Детство, опаленное войной (Вторая мировая 1939-1945 и ВОВ) 2 недели kopak RE:На 78-м году жизни скончался советский и российский... 4 недели Саша из Киева RE:Подводное течение 1 месяц lemma7 RE:Серия «Интеллектуальный детектив» изд-ва АСТ 1 месяц konst1 RE:Переименовать ник (имя учетки) 1 месяц Larisa_F RE:Таррин Фишер 1 месяц Aleks_Sim RE:Беженцы с Флибусты 1 месяц Саша из Киева RE:Как приобретать друзей и оказывать влияние на людей 1 месяц Впечатления о книгах
Дей про Частный детектив второго ранга
07 10 Надеюсь на продолжение. Из минусов - говорящий кот (ну реально, сколько можно-то?). Но кот практически ни во что не вмешивается. Плюсы - особых плюшек ГГ не отсыпано. Ни магии, ни богатства, ни титула. При этом он ………
MERLINA2010 про Поляков-Катин: Эпицентр (Шпионский детектив, Современная проза)
07 10 Третью книгу трилогии "Цепная реакция" хочется прочитать. Оценка: отлично!
Sello про Доде: Том 2. Рассказы по понедельникам. Этюды и зарисовки. Прекрасная нивернезка. Тартарен из Тараскона (Классическая проза)
07 10 Перелопатил столько классики за годы жизни, а вот до Доде руки (глаза, вернее) не доходили. И как-то не воодушевился я от написанного - привычно можно сослаться на перевод, мол, не шибко он удачный. Но, кажется, дело в другом. ……… Оценка: неплохо
obivatel про Граф Суворов
06 10 Очень интересно. Больше всего понравилось описание власти как сложной системы; при этом удалось избежать скучного изложения, что обычно встречается у увлеченных темой людей; в результате получилось довольно завлекательно и ………
mysevra про Окер: Проклятые вещи. Истории о самых печально известных предметах [Cursed Objects ru] (Научпоп)
06 10 Стиль, конечно, блогерский: сжато, поверхностно, с хахоньками, «время прочтения – 3 минуты», чтобы читатель, не дай боже, не переутомился. Короче, спасибо за подборку и за иллюстрации, дальше можно уже самому найти об интересующих объектах.
mysevra про Гюнтекин: Птичка певчая [Çalikuşu ru] (Исторические любовные романы)
06 10 У меня сложилось впечатление, что лучшие романы о женщинах пишут мужчины:) Ярко выписаны быт и местный менталитет, что особо подкупает.
mysevra про Миллман: Путь мирного воина. Книга, которая меняет жизнь (Эзотерика)
06 10 Интересно, что при повторном прочтении обнаруживаешь массу нового. Необычная книга. Или просто я была невнимательна.
tvv про Краулет: Высокий замок (Фэнтези, Боевик, Попаданцы)
04 10 На АТ восемь томов в свободном доступе.
obivatel про Воронцов. Перезагрузка
03 10 Автор слабо представляет себе жизнь начала 19 века. О крестьянстве, видимо, представление из позднесоветских фильмов, где добрый в расстёгнутой рубахе барин целеустремленно бежит за упитанной счастливо хохочущей крестьянкой, ………
Belomor.canal про Свечин: Секретные люди [litres] (Исторический детектив)
02 10 Отлично написанная история начала 1 мировой от секретных лиц Лыковых- Нефедьевых. Действие одновременно происходит на западном и южном фронтах столица. Масса малоизвестных фактов о ключевых фигурах того времени! Похоже ……… Оценка: отлично!
kgadeanj про Майзелис: Шахматы. Самый популярный учебник для начинающих [8-е издание] (Образовательная литература, Спорт)
02 10 Много опечаток и ошибок, умудрились перепутать подписи к диаграммам. Пропала часть главы про дебюты, а часть еще переписана. Лучше читать издание 60 года. Оценка: плохо
lwowianin про Гончарова: Предназначение [litres] (Фэнтези, Историческое фэнтези)
01 10 Наконец-то Галине Дмитриевне удалась книга с правильной политической идеей - все русские хорошие, все иностранцы плохие и мечтают матушку Расею изничтожить! Браво, товарищ Гончарова! Оценка: плохо |
RE:37 миллионов старых газетных страниц выложены в Сеть
Вот это мужик! Респект и уважуха!
От будут ли правообгладатели ему втыкать за использование материалов?
RE:37 миллионов старых газетных страниц выложены в Сеть
Из FAQ_HELP_INDEX:
В. Могу я добавить статью на этот сайт?
О. Ага. Если газета была опубликована в штате Нью-Йорк и не попадает под копирайт...
===
И на первой странице:
Мери Крисмас, библиотекарь!
RE:37 миллионов старых газетных страниц выложены в Сеть
Ну если оно в сети, тогда и все смогут загребти себе. Вот и если начнется массовое пополнение библиотек газетами...
RE:37 миллионов старых газетных страниц выложены в Сеть
Что-то сильно я сомневаюсь что именно 37 млн страниц газет, скорее всего. как пишут в статистике больших библиотек "единиц хранения" - отдельных открыток, рекламных обьявлений и т.д.
Попробуем посчитать.
37 000 000 / 14 лет = 2 642 000 страниц в год / 365 дней = 7 241 страница в день /12 часов = 600 стр в час или 6 страниц в минуту.
Многовато выходит, и это чисто сканирование. + какая-никакая обрезка + каталогизация + выкладка в Сеть.
RE:37 миллионов старых газетных страниц выложены в Сеть
Дети помогали. Или еще кто то.
А какие там страницы, может не такие как у нас. Тогда по несколько страниц за проход.
RE:37 миллионов старых газетных страниц выложены в Сеть
А можно задать вопрос: вы сами пробывали сканировать газеты?
RE:37 миллионов старых газетных страниц выложены в Сеть
Нет.
Но при современному оборудовании много чего возможно.
RE:37 миллионов старых газетных страниц выложены в Сеть
Расчёт - правильный. В исходных статьях ещё написано, что дедуля в последние три года оцифровывает по 250 000 страниц в месяц - те же самые 6 страниц в минуту (если считать, что он работает 24 часа в сутки, не питаясь и не отлучаясь в туалет).
Я тоже заинтересовался гигантскими цифрами в заметке и немного посчитал. А потом полез на англоязычные сайты и все странности исчезли. Всё гораздо проще.
С бумажными газетами дед недолго поработал в самом начале проекта - в 2001-2003 годах, когда у него был только планшетный сканер.
После этого он приобрёл мощный автоматический сканер для обработки микрофильмов (Wicks and Wilson Scanstation production-level microfilm scanner), наладил взаимодействие с библиотеками и запустил поточное производство. Так что последние 14 лет он оцифровывал микрофильмы, а не сами газеты.
Работает дед по 70-80 часов в неделю, и его работа заключается в том, чтобы распаковать привезённые ему микрофильмы, вставить их в мощный сканер-автомат и получить на выходе готовые сканы, практически не требующие дополнительной обработки. Их сразу можно отправлять на сайт.
Так что основную работу проделали десятки библиотекарей, десятилетиями превращавшие бумажные газеты в микрофильмы. А дед пользуется результатами их титанического труда. Это, конечно, не умаляет его заслуг - но объясняет его небывалую для сканировщика "производительность"...
Подробности - здесь:
http://www.thecrowleycompany.com/long-time-client-uses-wwl-scanners-digitize-26-million-newspaper-images/