pascendi: (Default)
[personal profile] pascendi
У Ивакина появился хороший, правильный пост о проблемах оцифровки архивов:

Наткнулся на интересные циферки по Санкт-Петербургским архивам.

1. В архивах СПб находится 11 миллионов 200 тысяч единиц хранения.
2. Единица хранения содержит от 1 до 1000 листов бумаги. Если брать, в среднем, 100 листов в единице - то получаем 1 миллиард 120 миллионов листов.
3. Время сканирования одного листа - 5 минут.
4. Общее время сканирования всех листов - 44800 ЛЕТ.
5. Сервер для хранения сканов должен иметь объем - 32000 терабайт.

Это только Питер.
И не удивляйтесь, почему все не оцифровано и не выложено.

УПД: Специально уточню про время сканирования.
Создание цифровой копии 1 листа занимает примерно 5 минут рабочего времени. Эта цифра не придумана: проводились специальные исследования по измерению времени копирования документов. Несмотря на то, что сканирование архивных документов в Санкт-Петербурге осуществляется на высокотехнологичных сканерах, способных самостоятельно выбирать оптимальные режимы сканирования, полностью автоматизировать процесс невозможно. В делах часто встречаются неформатные документы, гаснущий текст, неправильно сшитые листы и т.п. Это все требует изменения настроек сканера, что приводит к увеличению среднего времени, затраченного на работу. Индексацию полученных образов также приходится контролировать вручную.


В комментарии немедленно набежали очень умные люди, которые всё на свете знают:

да не, время сканирования листа 20 сек с учетом переворота ручного

сканер это часть ксерокса. есть ксероксы, которые пачку в 100 листов на автолотке скопируют за пару минут. Опять же цифровой фотик работает ещё быстрее. Далеко не все документы надо сканить с разрешением выше 10 точек на миллиметр. да и по сжатию, если использовать вейвлетную или фрактальную математику, сжатие с допустимыми искажениями раз в 50-100 можно обеспечить.
но ведь наверняка в деле полная кустарщина и "натовские" стандарты хранения.

не в архивах, конечно, но представление имею.
лист формата А4 цифруется (2900х2100) 12 мегапиксельным фотоаппаратом на штативе без гаснущего текста и с запасом. в особых случаях пригодятся прижимные рамки. но миллионы человеколет лет и миллиарды рублей это тоже хорошо -- будет что на пенсии вспомнить.


Они просто никогда не имели дела со сканированием архивных документов.
Там приходится применять технику совершенно другого уровня.

Для старых и плохо сохранившихся оригиналов сканирование должно производиться таким образом, чтобы их не повредить. Для этого стол для сканирования создает воздушную подушку (в некоторых вариантах) либо представляет собой набор гибких ремней с переменным натяжением (в других).

Далее, засветка при сканировании для архивных документах не должна приводить к выцветанию оригинала -- то есть там не могут использоваться дешевые стандартные сканерные лампы.

И есть еще целый комплекс требований, вытекающих из того же самого главного: обеспечить сохранность оригинала.

А еще может быть как в Третьяковке в 1990 году, где фирма Olivetti поставила комплекс для документирования реставрационных работ на базе камеры с разрешением 640х480 под стандарт EGA, ежели это о чем-то говорит.

Люди в комментариях никогда близко не подходили к проблеме электронной архивации документов. Это как дядя Вася 70 лет от роду из гаража, который всю жизнь чинил "Жигули" и думает, что двигатель VW 2.0 TDsi от жигулевского ничем не отличается, так что зачем тащиться в официальный сервис.

А там еще есть такая засада: в начале 90-х в Швейцарии оцифровали где-то 70% документов, подтверждающих собственность на землю и объекты недвижимости (а там она с 14 века отслеживается).

Оцифровали, а сами оригиналы отправили в подземное хранилище в скале, с контролируемым климатом и это вот всё.

Встал вопрос, как сохранить сканы. И американцы предложили им самую передовую технологию: оптические диски WORM формата 12" (тогда еще DVD не было, и на такие диски писали фильмы).

Швейцарцы их купили, вместе с электромеханическими устройствами для автоматической смены диска в считывателе (называлось "электронная библиотека") и программой-каталогизатором под Windows 3.1.

Угадайте, где сейчас все эти технологии? И есть ли устройства, на которых можно прочитать эти диски?

Я занимаюсь ИТ с 1983 года, и за это время на моей памяти технологии хранения данных радикально менялись не меньше десяти раз.

Ага, и у людей, которые думают, что они располагают ретроспективной базой данных, время от времени делаются глаза как у какающей жабы. Когда вдруг выясняется, что эту БД тупо не на чем прочесть.

Что далеко ходить, у меня самого штук 80 дискет 1,44" (и пара пятидюймовых) с рабочим архивом. Ну, 1,44" я, допустим, прочту (есть внешний дисководец, прикупленный в свое время), а с пятидюймовками уж точно ничего не сделать.

А ещё у меня были архивы на устройствах iOmega Zip, если кто помнит. Дисковод мне подарили на презентации, то есть я был одним из первых в России, кто с ними работал.

Хорошо, успел данные скинуть на более современные носители.

(Хе-хе. Некоторая часть архива скинута у меня на внешний диск с интерфейсом FireWire. Который уже не поддерживается ни одним из моих компьютеров.)

А ещё есть проблема индексирования. Хотя сейчас есть системы автоиндексирования, без человека обойтись невозможно.

И там ТАКИЕ навороты начинаются...

Первый и главный из них -- один и тот же документ два специалиста проиндексируют по-разному.

ВСЕГДА.

А ещё есть такой вид сексуальных извращений: перевод чертежей 70-х годов (ага, хорошо если не 40-х) в SVG...
(will be screened)
(will be screened if not validated)
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

Profile

pascendi: (Default)
pascendi

January 2022

S M T W T F S
       1
23 456 78
91011121314 15
16 171819202122
23242526 2728 29
3031     

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 24th, 2025 06:12 am
Powered by Dreamwidth Studios