Aug. 12th, 2018
У Ивакина появился хороший, правильный пост о проблемах оцифровки архивов:
Наткнулся на интересные циферки по Санкт-Петербургским архивам.
1. В архивах СПб находится 11 миллионов 200 тысяч единиц хранения.
2. Единица хранения содержит от 1 до 1000 листов бумаги. Если брать, в среднем, 100 листов в единице - то получаем 1 миллиард 120 миллионов листов.
3. Время сканирования одного листа - 5 минут.
4. Общее время сканирования всех листов - 44800 ЛЕТ.
5. Сервер для хранения сканов должен иметь объем - 32000 терабайт.
Это только Питер.
И не удивляйтесь, почему все не оцифровано и не выложено.
УПД: Специально уточню про время сканирования.
Создание цифровой копии 1 листа занимает примерно 5 минут рабочего времени. Эта цифра не придумана: проводились специальные исследования по измерению времени копирования документов. Несмотря на то, что сканирование архивных документов в Санкт-Петербурге осуществляется на высокотехнологичных сканерах, способных самостоятельно выбирать оптимальные режимы сканирования, полностью автоматизировать процесс невозможно. В делах часто встречаются неформатные документы, гаснущий текст, неправильно сшитые листы и т.п. Это все требует изменения настроек сканера, что приводит к увеличению среднего времени, затраченного на работу. Индексацию полученных образов также приходится контролировать вручную.
В комментарии немедленно набежали очень умные люди, которые всё на свете знают:
да не, время сканирования листа 20 сек с учетом переворота ручного
сканер это часть ксерокса. есть ксероксы, которые пачку в 100 листов на автолотке скопируют за пару минут. Опять же цифровой фотик работает ещё быстрее. Далеко не все документы надо сканить с разрешением выше 10 точек на миллиметр. да и по сжатию, если использовать вейвлетную или фрактальную математику, сжатие с допустимыми искажениями раз в 50-100 можно обеспечить.
но ведь наверняка в деле полная кустарщина и "натовские" стандарты хранения.
не в архивах, конечно, но представление имею.
лист формата А4 цифруется (2900х2100) 12 мегапиксельным фотоаппаратом на штативе без гаснущего текста и с запасом. в особых случаях пригодятся прижимные рамки. но миллионы человеколет лет и миллиарды рублей это тоже хорошо -- будет что на пенсии вспомнить.
Они просто никогда не имели дела со сканированием архивных документов.
Там приходится применять технику совершенно другого уровня.
Для старых и плохо сохранившихся оригиналов сканирование должно производиться таким образом, чтобы их не повредить. Для этого стол для сканирования создает воздушную подушку (в некоторых вариантах) либо представляет собой набор гибких ремней с переменным натяжением (в других).
Далее, засветка при сканировании для архивных документах не должна приводить к выцветанию оригинала -- то есть там не могут использоваться дешевые стандартные сканерные лампы.
И есть еще целый комплекс требований, вытекающих из того же самого главного: обеспечить сохранность оригинала.
А еще может быть как в Третьяковке в 1990 году, где фирма Olivetti поставила комплекс для документирования реставрационных работ на базе камеры с разрешением 640х480 под стандарт EGA, ежели это о чем-то говорит.
Люди в комментариях никогда близко не подходили к проблеме электронной архивации документов. Это как дядя Вася 70 лет от роду из гаража, который всю жизнь чинил "Жигули" и думает, что двигатель VW 2.0 TDsi от жигулевского ничем не отличается, так что зачем тащиться в официальный сервис.
А там еще есть такая засада: в начале 90-х в Швейцарии оцифровали где-то 70% документов, подтверждающих собственность на землю и объекты недвижимости (а там она с 14 века отслеживается).
Оцифровали, а сами оригиналы отправили в подземное хранилище в скале, с контролируемым климатом и это вот всё.
Встал вопрос, как сохранить сканы. И американцы предложили им самую передовую технологию: оптические диски WORM формата 12" (тогда еще DVD не было, и на такие диски писали фильмы).
Швейцарцы их купили, вместе с электромеханическими устройствами для автоматической смены диска в считывателе (называлось "электронная библиотека") и программой-каталогизатором под Windows 3.1.
Угадайте, где сейчас все эти технологии? И есть ли устройства, на которых можно прочитать эти диски?
Я занимаюсь ИТ с 1983 года, и за это время на моей памяти технологии хранения данных радикально менялись не меньше десяти раз.
Ага, и у людей, которые думают, что они располагают ретроспективной базой данных, время от времени делаются глаза как у какающей жабы. Когда вдруг выясняется, что эту БД тупо не на чем прочесть.
Что далеко ходить, у меня самого штук 80 дискет 1,44" (и пара пятидюймовых) с рабочим архивом. Ну, 1,44" я, допустим, прочту (есть внешний дисководец, прикупленный в свое время), а с пятидюймовками уж точно ничего не сделать.
А ещё у меня были архивы на устройствах iOmega Zip, если кто помнит. Дисковод мне подарили на презентации, то есть я был одним из первых в России, кто с ними работал.
Хорошо, успел данные скинуть на более современные носители.
(Хе-хе. Некоторая часть архива скинута у меня на внешний диск с интерфейсом FireWire. Который уже не поддерживается ни одним из моих компьютеров.)
А ещё есть проблема индексирования. Хотя сейчас есть системы автоиндексирования, без человека обойтись невозможно.
И там ТАКИЕ навороты начинаются...
Первый и главный из них -- один и тот же документ два специалиста проиндексируют по-разному.
ВСЕГДА.
А ещё есть такой вид сексуальных извращений: перевод чертежей 70-х годов (ага, хорошо если не 40-х) в SVG...
Наткнулся на интересные циферки по Санкт-Петербургским архивам.
1. В архивах СПб находится 11 миллионов 200 тысяч единиц хранения.
2. Единица хранения содержит от 1 до 1000 листов бумаги. Если брать, в среднем, 100 листов в единице - то получаем 1 миллиард 120 миллионов листов.
3. Время сканирования одного листа - 5 минут.
4. Общее время сканирования всех листов - 44800 ЛЕТ.
5. Сервер для хранения сканов должен иметь объем - 32000 терабайт.
Это только Питер.
И не удивляйтесь, почему все не оцифровано и не выложено.
УПД: Специально уточню про время сканирования.
Создание цифровой копии 1 листа занимает примерно 5 минут рабочего времени. Эта цифра не придумана: проводились специальные исследования по измерению времени копирования документов. Несмотря на то, что сканирование архивных документов в Санкт-Петербурге осуществляется на высокотехнологичных сканерах, способных самостоятельно выбирать оптимальные режимы сканирования, полностью автоматизировать процесс невозможно. В делах часто встречаются неформатные документы, гаснущий текст, неправильно сшитые листы и т.п. Это все требует изменения настроек сканера, что приводит к увеличению среднего времени, затраченного на работу. Индексацию полученных образов также приходится контролировать вручную.
В комментарии немедленно набежали очень умные люди, которые всё на свете знают:
да не, время сканирования листа 20 сек с учетом переворота ручного
сканер это часть ксерокса. есть ксероксы, которые пачку в 100 листов на автолотке скопируют за пару минут. Опять же цифровой фотик работает ещё быстрее. Далеко не все документы надо сканить с разрешением выше 10 точек на миллиметр. да и по сжатию, если использовать вейвлетную или фрактальную математику, сжатие с допустимыми искажениями раз в 50-100 можно обеспечить.
но ведь наверняка в деле полная кустарщина и "натовские" стандарты хранения.
не в архивах, конечно, но представление имею.
лист формата А4 цифруется (2900х2100) 12 мегапиксельным фотоаппаратом на штативе без гаснущего текста и с запасом. в особых случаях пригодятся прижимные рамки. но миллионы человеколет лет и миллиарды рублей это тоже хорошо -- будет что на пенсии вспомнить.
Они просто никогда не имели дела со сканированием архивных документов.
Там приходится применять технику совершенно другого уровня.
Для старых и плохо сохранившихся оригиналов сканирование должно производиться таким образом, чтобы их не повредить. Для этого стол для сканирования создает воздушную подушку (в некоторых вариантах) либо представляет собой набор гибких ремней с переменным натяжением (в других).
Далее, засветка при сканировании для архивных документах не должна приводить к выцветанию оригинала -- то есть там не могут использоваться дешевые стандартные сканерные лампы.
И есть еще целый комплекс требований, вытекающих из того же самого главного: обеспечить сохранность оригинала.
А еще может быть как в Третьяковке в 1990 году, где фирма Olivetti поставила комплекс для документирования реставрационных работ на базе камеры с разрешением 640х480 под стандарт EGA, ежели это о чем-то говорит.
Люди в комментариях никогда близко не подходили к проблеме электронной архивации документов. Это как дядя Вася 70 лет от роду из гаража, который всю жизнь чинил "Жигули" и думает, что двигатель VW 2.0 TDsi от жигулевского ничем не отличается, так что зачем тащиться в официальный сервис.
А там еще есть такая засада: в начале 90-х в Швейцарии оцифровали где-то 70% документов, подтверждающих собственность на землю и объекты недвижимости (а там она с 14 века отслеживается).
Оцифровали, а сами оригиналы отправили в подземное хранилище в скале, с контролируемым климатом и это вот всё.
Встал вопрос, как сохранить сканы. И американцы предложили им самую передовую технологию: оптические диски WORM формата 12" (тогда еще DVD не было, и на такие диски писали фильмы).
Швейцарцы их купили, вместе с электромеханическими устройствами для автоматической смены диска в считывателе (называлось "электронная библиотека") и программой-каталогизатором под Windows 3.1.
Угадайте, где сейчас все эти технологии? И есть ли устройства, на которых можно прочитать эти диски?
Я занимаюсь ИТ с 1983 года, и за это время на моей памяти технологии хранения данных радикально менялись не меньше десяти раз.
Ага, и у людей, которые думают, что они располагают ретроспективной базой данных, время от времени делаются глаза как у какающей жабы. Когда вдруг выясняется, что эту БД тупо не на чем прочесть.
Что далеко ходить, у меня самого штук 80 дискет 1,44" (и пара пятидюймовых) с рабочим архивом. Ну, 1,44" я, допустим, прочту (есть внешний дисководец, прикупленный в свое время), а с пятидюймовками уж точно ничего не сделать.
А ещё у меня были архивы на устройствах iOmega Zip, если кто помнит. Дисковод мне подарили на презентации, то есть я был одним из первых в России, кто с ними работал.
Хорошо, успел данные скинуть на более современные носители.
(Хе-хе. Некоторая часть архива скинута у меня на внешний диск с интерфейсом FireWire. Который уже не поддерживается ни одним из моих компьютеров.)
А ещё есть проблема индексирования. Хотя сейчас есть системы автоиндексирования, без человека обойтись невозможно.
И там ТАКИЕ навороты начинаются...
Первый и главный из них -- один и тот же документ два специалиста проиндексируют по-разному.
ВСЕГДА.
А ещё есть такой вид сексуальных извращений: перевод чертежей 70-х годов (ага, хорошо если не 40-х) в SVG...