pascendi

У Ивакина появился хороший, правильный пост о проблемах оцифровки архивов:

Наткнулся на интересные циферки по Санкт-Петербургским архивам.

1. В архивах СПб находится 11 миллионов 200 тысяч единиц хранения.
2. Единица хранения содержит от 1 до 1000 листов бумаги. Если брать, в среднем, 100 листов в единице - то получаем 1 миллиард 120 миллионов листов.
3. Время сканирования одного листа - 5 минут.
4. Общее время сканирования всех листов - 44800 ЛЕТ.
5. Сервер для хранения сканов должен иметь объем - 32000 терабайт.

Это только Питер.
И не удивляйтесь, почему все не оцифровано и не выложено.

УПД: Специально уточню про время сканирования.
Создание цифровой копии 1 листа занимает примерно 5 минут рабочего времени. Эта цифра не придумана: проводились специальные исследования по измерению времени копирования документов. Несмотря на то, что сканирование архивных документов в Санкт-Петербурге осуществляется на высокотехнологичных сканерах, способных самостоятельно выбирать оптимальные режимы сканирования, полностью автоматизировать процесс невозможно. В делах часто встречаются неформатные документы, гаснущий текст, неправильно сшитые листы и т.п. Это все требует изменения настроек сканера, что приводит к увеличению среднего времени, затраченного на работу. Индексацию полученных образов также приходится контролировать вручную.

В комментарии немедленно набежали очень умные люди, которые всё на свете знают:

да не, время сканирования листа 20 сек с учетом переворота ручного

сканер это часть ксерокса. есть ксероксы, которые пачку в 100 листов на автолотке скопируют за пару минут. Опять же цифровой фотик работает ещё быстрее. Далеко не все документы надо сканить с разрешением выше 10 точек на миллиметр. да и по сжатию, если использовать вейвлетную или фрактальную математику, сжатие с допустимыми искажениями раз в 50-100 можно обеспечить.
но ведь наверняка в деле полная кустарщина и "натовские" стандарты хранения.

не в архивах, конечно, но представление имею.
лист формата А4 цифруется (2900х2100) 12 мегапиксельным фотоаппаратом на штативе без гаснущего текста и с запасом. в особых случаях пригодятся прижимные рамки. но миллионы человеколет лет и миллиарды рублей это тоже хорошо -- будет что на пенсии вспомнить.

Они просто никогда не имели дела со сканированием архивных документов.
Там приходится применять технику совершенно другого уровня.

Для старых и плохо сохранившихся оригиналов сканирование должно производиться таким образом, чтобы их не повредить. Для этого стол для сканирования создает воздушную подушку (в некоторых вариантах) либо представляет собой набор гибких ремней с переменным натяжением (в других).

Далее, засветка при сканировании для архивных документах не должна приводить к выцветанию оригинала -- то есть там не могут использоваться дешевые стандартные сканерные лампы.

И есть еще целый комплекс требований, вытекающих из того же самого главного: обеспечить сохранность оригинала.

А еще может быть как в Третьяковке в 1990 году, где фирма Olivetti поставила комплекс для документирования реставрационных работ на базе камеры с разрешением 640х480 под стандарт EGA, ежели это о чем-то говорит.

Люди в комментариях никогда близко не подходили к проблеме электронной архивации документов. Это как дядя Вася 70 лет от роду из гаража, который всю жизнь чинил "Жигули" и думает, что двигатель VW 2.0 TDsi от жигулевского ничем не отличается, так что зачем тащиться в официальный сервис.

А там еще есть такая засада: в начале 90-х в Швейцарии оцифровали где-то 70% документов, подтверждающих собственность на землю и объекты недвижимости (а там она с 14 века отслеживается).

Оцифровали, а сами оригиналы отправили в подземное хранилище в скале, с контролируемым климатом и это вот всё.

Встал вопрос, как сохранить сканы. И американцы предложили им самую передовую технологию: оптические диски WORM формата 12" (тогда еще DVD не было, и на такие диски писали фильмы).

Швейцарцы их купили, вместе с электромеханическими устройствами для автоматической смены диска в считывателе (называлось "электронная библиотека") и программой-каталогизатором под Windows 3.1.

Угадайте, где сейчас все эти технологии? И есть ли устройства, на которых можно прочитать эти диски?

Я занимаюсь ИТ с 1983 года, и за это время на моей памяти технологии хранения данных радикально менялись не меньше десяти раз.

Ага, и у людей, которые думают, что они располагают ретроспективной базой данных, время от времени делаются глаза как у какающей жабы. Когда вдруг выясняется, что эту БД тупо не на чем прочесть.

Что далеко ходить, у меня самого штук 80 дискет 1,44" (и пара пятидюймовых) с рабочим архивом. Ну, 1,44" я, допустим, прочту (есть внешний дисководец, прикупленный в свое время), а с пятидюймовками уж точно ничего не сделать.

А ещё у меня были архивы на устройствах iOmega Zip, если кто помнит. Дисковод мне подарили на презентации, то есть я был одним из первых в России, кто с ними работал.

Хорошо, успел данные скинуть на более современные носители.

(Хе-хе. Некоторая часть архива скинута у меня на внешний диск с интерфейсом FireWire. Который уже не поддерживается ни одним из моих компьютеров.)

А ещё есть проблема индексирования. Хотя сейчас есть системы автоиндексирования, без человека обойтись невозможно.

И там ТАКИЕ навороты начинаются...

Первый и главный из них -- один и тот же документ два специалиста проиндексируют по-разному.

ВСЕГДА.

А ещё есть такой вид сексуальных извращений: перевод чертежей 70-х годов (ага, хорошо если не 40-х) в SVG...

Flat | Top-Level Comments Only

From:

vladimir000

EGA это не 640*480.

dannallar

Подозревал, что все не просто. Но не подозревал насколько не просто.

brmail

а чего только 5 минут то на лист. Если посадить переписывать ручкой, то и в 50 можно уложиться. Вот если надо дольше, то да, тут уж помошник требуется.
И опять таки, только часть документов требует быть сохраненными как картинка, большая часть листов может быть OCR в текст, и обычно девайсы, которые сканируют по 50 листов в минуту их же и оцифровывают, насколько возможно. Так что с размером для хранения тоже ошибочка вышла.

ЗЫ. В самом деле я не имел дела с архивными документами. Писал в свое время подсистему документ менаджмента для юристов. Они хранят все бумажки, что им попадаются в ходе дела. Те вообще все. Эти бумажки подшиваются в фолдеры, фолдеры запихиваются в коробки. После того как дело закрыто, все коробки перетаскиваются в архив для хренения. До момента, когда коробки окажутся в архиве, все должно быть отсканено и проиндексировано в системе хранения документов. Возможно вы правы, на тему осторожного скана и времени потраченного на документы, но в любом случае проблема решается вводом в действие нескольких девайсов и наймом (и обучением в случае необходимости) нового персонала
Если такой архив действительно нужен.

Edited Date: 2018-08-13 03:39 pm (UTC)

"Они просто никогда не имели дела со сканированием архивных документов."

S	M	T	W	T	F	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Чужую беду руками разведу, или мнение непрофессионалов по вопросам, требующим знаний

Чужую беду руками разведу, или мнение непрофессионалов по вопросам, требующим знаний

no subject

no subject

no subject

no subject

Profile

January 2022

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags