pascendi: (Default)
[personal profile] pascendi
У Ивакина появился хороший, правильный пост о проблемах оцифровки архивов:

Наткнулся на интересные циферки по Санкт-Петербургским архивам.

1. В архивах СПб находится 11 миллионов 200 тысяч единиц хранения.
2. Единица хранения содержит от 1 до 1000 листов бумаги. Если брать, в среднем, 100 листов в единице - то получаем 1 миллиард 120 миллионов листов.
3. Время сканирования одного листа - 5 минут.
4. Общее время сканирования всех листов - 44800 ЛЕТ.
5. Сервер для хранения сканов должен иметь объем - 32000 терабайт.

Это только Питер.
И не удивляйтесь, почему все не оцифровано и не выложено.

УПД: Специально уточню про время сканирования.
Создание цифровой копии 1 листа занимает примерно 5 минут рабочего времени. Эта цифра не придумана: проводились специальные исследования по измерению времени копирования документов. Несмотря на то, что сканирование архивных документов в Санкт-Петербурге осуществляется на высокотехнологичных сканерах, способных самостоятельно выбирать оптимальные режимы сканирования, полностью автоматизировать процесс невозможно. В делах часто встречаются неформатные документы, гаснущий текст, неправильно сшитые листы и т.п. Это все требует изменения настроек сканера, что приводит к увеличению среднего времени, затраченного на работу. Индексацию полученных образов также приходится контролировать вручную.


В комментарии немедленно набежали очень умные люди, которые всё на свете знают:

да не, время сканирования листа 20 сек с учетом переворота ручного

сканер это часть ксерокса. есть ксероксы, которые пачку в 100 листов на автолотке скопируют за пару минут. Опять же цифровой фотик работает ещё быстрее. Далеко не все документы надо сканить с разрешением выше 10 точек на миллиметр. да и по сжатию, если использовать вейвлетную или фрактальную математику, сжатие с допустимыми искажениями раз в 50-100 можно обеспечить.
но ведь наверняка в деле полная кустарщина и "натовские" стандарты хранения.

не в архивах, конечно, но представление имею.
лист формата А4 цифруется (2900х2100) 12 мегапиксельным фотоаппаратом на штативе без гаснущего текста и с запасом. в особых случаях пригодятся прижимные рамки. но миллионы человеколет лет и миллиарды рублей это тоже хорошо -- будет что на пенсии вспомнить.


Они просто никогда не имели дела со сканированием архивных документов.
Там приходится применять технику совершенно другого уровня.

Для старых и плохо сохранившихся оригиналов сканирование должно производиться таким образом, чтобы их не повредить. Для этого стол для сканирования создает воздушную подушку (в некоторых вариантах) либо представляет собой набор гибких ремней с переменным натяжением (в других).

Далее, засветка при сканировании для архивных документах не должна приводить к выцветанию оригинала -- то есть там не могут использоваться дешевые стандартные сканерные лампы.

И есть еще целый комплекс требований, вытекающих из того же самого главного: обеспечить сохранность оригинала.

А еще может быть как в Третьяковке в 1990 году, где фирма Olivetti поставила комплекс для документирования реставрационных работ на базе камеры с разрешением 640х480 под стандарт EGA, ежели это о чем-то говорит.

Люди в комментариях никогда близко не подходили к проблеме электронной архивации документов. Это как дядя Вася 70 лет от роду из гаража, который всю жизнь чинил "Жигули" и думает, что двигатель VW 2.0 TDsi от жигулевского ничем не отличается, так что зачем тащиться в официальный сервис.

А там еще есть такая засада: в начале 90-х в Швейцарии оцифровали где-то 70% документов, подтверждающих собственность на землю и объекты недвижимости (а там она с 14 века отслеживается).

Оцифровали, а сами оригиналы отправили в подземное хранилище в скале, с контролируемым климатом и это вот всё.

Встал вопрос, как сохранить сканы. И американцы предложили им самую передовую технологию: оптические диски WORM формата 12" (тогда еще DVD не было, и на такие диски писали фильмы).

Швейцарцы их купили, вместе с электромеханическими устройствами для автоматической смены диска в считывателе (называлось "электронная библиотека") и программой-каталогизатором под Windows 3.1.

Угадайте, где сейчас все эти технологии? И есть ли устройства, на которых можно прочитать эти диски?

Я занимаюсь ИТ с 1983 года, и за это время на моей памяти технологии хранения данных радикально менялись не меньше десяти раз.

Ага, и у людей, которые думают, что они располагают ретроспективной базой данных, время от времени делаются глаза как у какающей жабы. Когда вдруг выясняется, что эту БД тупо не на чем прочесть.

Что далеко ходить, у меня самого штук 80 дискет 1,44" (и пара пятидюймовых) с рабочим архивом. Ну, 1,44" я, допустим, прочту (есть внешний дисководец, прикупленный в свое время), а с пятидюймовками уж точно ничего не сделать.

А ещё у меня были архивы на устройствах iOmega Zip, если кто помнит. Дисковод мне подарили на презентации, то есть я был одним из первых в России, кто с ними работал.

Хорошо, успел данные скинуть на более современные носители.

(Хе-хе. Некоторая часть архива скинута у меня на внешний диск с интерфейсом FireWire. Который уже не поддерживается ни одним из моих компьютеров.)

А ещё есть проблема индексирования. Хотя сейчас есть системы автоиндексирования, без человека обойтись невозможно.

И там ТАКИЕ навороты начинаются...

Первый и главный из них -- один и тот же документ два специалиста проиндексируют по-разному.

ВСЕГДА.

А ещё есть такой вид сексуальных извращений: перевод чертежей 70-х годов (ага, хорошо если не 40-х) в SVG...

Date: 2018-08-12 09:56 pm (UTC)
vladimir000: (Default)
From: [personal profile] vladimir000
EGA это не 640*480.

Date: 2018-08-13 06:01 am (UTC)
From: [personal profile] dannallar
Подозревал, что все не просто. Но не подозревал насколько не просто.

Date: 2018-08-13 03:30 pm (UTC)
brmail: (Default)
From: [personal profile] brmail
а чего только 5 минут то на лист. Если посадить переписывать ручкой, то и в 50 можно уложиться. Вот если надо дольше, то да, тут уж помошник требуется.
И опять таки, только часть документов требует быть сохраненными как картинка, большая часть листов может быть OCR в текст, и обычно девайсы, которые сканируют по 50 листов в минуту их же и оцифровывают, насколько возможно. Так что с размером для хранения тоже ошибочка вышла.

ЗЫ. В самом деле я не имел дела с архивными документами. Писал в свое время подсистему документ менаджмента для юристов. Они хранят все бумажки, что им попадаются в ходе дела. Те вообще все. Эти бумажки подшиваются в фолдеры, фолдеры запихиваются в коробки. После того как дело закрыто, все коробки перетаскиваются в архив для хренения. До момента, когда коробки окажутся в архиве, все должно быть отсканено и проиндексировано в системе хранения документов. Возможно вы правы, на тему осторожного скана и времени потраченного на документы, но в любом случае проблема решается вводом в действие нескольких девайсов и наймом (и обучением в случае необходимости) нового персонала
Если такой архив действительно нужен.
Edited Date: 2018-08-13 03:39 pm (UTC)

Date: 2018-08-14 12:53 pm (UTC)
From: [personal profile] dannallar
"Они просто никогда не имели дела со сканированием архивных документов."

Profile

pascendi: (Default)
pascendi

January 2022

S M T W T F S
       1
23 456 78
91011121314 15
16 171819202122
23242526 2728 29
3031     

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 16th, 2025 10:01 pm
Powered by Dreamwidth Studios