Статьи | | Автор:

Избыточность: Что делать с лишними данными?

Избыточность: Что делать с лишними данными?

«Открыл "Компьютер", увидел "Локальный диск (C:)". Вспомнил, как давно мы не виделись с диском (А:). Задумался о вечном»
(Найдено в интернете)

Избыточность: Что делать с лишними данными?На днях, получив сообщение о том, что один из домашних NAS WD MyCloud объемом 2 Тбайт переполнен, принялся чистить лишнее.  Оказалось, что забить хранилище различным контентом мне удалось менее чем за год. И это при том, что на этом устройстве хранятся исключительно рабочие материалы: фотографии, презентации, графика, скриншоты, тексты, видео из поездок и т.п. Никакого развлекательного контента: для него есть отдельное устройство, плотно интегрированное в домашнюю мультимедийную сеть.

2 Тбайт данных за год – совершенно дикая цифра, если задуматься. Мой первый ПК на базе процессора 80286 от Intel был оснащен жестким диском на 40 Мбайт. Его хватало для операционной системы MS DOS, рабочих файлов, приложений вроде «Лексикон» и нескольких игр, таких как Prince of Persia. Емкости было не очень много, ровно столько, чтобы постоянно держать в голове, что из хранящегося действительно нужно, а что – не очень.  Причина же такой вот тесноты заключалась в том, что дисковое пространство было дорогим.

Со временем стоимость хранения 1 Мбайт, а теперь уж и 1 Гбайт данных стала настолько низкой, что во многих случаях оказалось проще докупить новый накопитель, нежели тратить время на анализ хранящихся данных. Просто экономически выгоднее. Да и удалишь файл, а он потом понадобится… Так бывает чаще всего.

Еще есть условно бесплатные, а зачастую просто бесплатные облачные хранилища. Например, в моем бесплатном аккаунте на Google Drive 115 Гбайт места, на Яндекс.Диск – 55 Гбайт, больше всего – 1,15 Тбайт – на OneDrive у Microsoft: 15 Гбайт они дают бесплатно, 1 Тбайт я получаю как подписчик Office 365 и еще примерно 100 Гбайт мне прилетело от Samsung потому что Samsung меня любит. На самом деле нет.

И все это в совокупности развращает.

Но что огорчило более всего в процессе очистки накопителя – это огромный объем задублированной информации. И сейчас речь не о технологической дупликации, а о пользовательской. В лучшем случае это неоднократно скачанные из интернета файлы в папке «Загрузки». В худшем – это сгенерированный контент, многократно скопированный в процессе использования в папках вида «новая папка 178», о которых давно забыто, равно как и об их содержимом. Отдельная печальная история касается того, насколько это усложняет резервирование данных, когда все эти терабайты, зачастую еще и хранящиеся на самом ПК, нужно выгрузить в бэкап или накатить обратно. 

Другой вопрос, что применительно к рядовому пользователю, речь идет о весьма незначительных суммах, затрачиваемых на работу с такой информацией, и каждый сам является кузнецом свое счастья. С бизнесом ситуация немного иная.  Как раз в момент написания этого текста прилетел пресс-релиз:

«Компании Huawei и Telefonica Business Solutions заключили соглашение о сотрудничестве, целью которого стал проект миграции традиционных информационных услуг в облачную среду. Это даст заказчику возможность использовать вычислительные ресурсы, службы резервного копирования и хранения от центров обработки данных Telefonica, не вкладывая инвестиции в инфраструктуру и оплачивая использование ресурсов только по факту».

Звучит очень круто, не правда ли? Платишь за то, что используешь, не инвестируя в железо.

В реальности же платишь, и очень много. На днях удалось ознакомиться с отчетом Databerg Report 2015. Из отчета следует, что примерно 50% данных, которые хранятся в российских компаниях, являются серой зоной для IT-служб этих компаний, а примерно треть данных откровенно бесполезна.

На мой уточняющий вопрос о цене проблемы, Андрей Вышлов, старший региональный директор Veritas по России, готовившей это исследование, сообщил, что в средней организации, оперирующей объемами порядка 1000 Тбайт данных, примерно 42 млн. руб в год тратится на обслуживание этого мусора.

Особенно впечатляет тот факт, что более трети российских сотрудников считают ИТ-ресурсы своих компаний личными и загружают на них фотографии, копии личных юридических и идентификационных документов. Неоднократно доводилось наблюдать, как коллеги обменивались скачанными с торрентов фильмами в корпоративной сети.

Здесь палка о двух концах. Когда я работал в одной государственной компании, то служба режима считала самым страшным злом использование публичных сервисов: почты, облачных хранилищ и прочего. Отчасти они правы, если речь идет о документах ДСП (для служебного пользования): грузить такие вещи в Gmail не очень разумно. Как следствие, доступ ко всем этим ресурсам был заблокирован, а компания готова была платить за дополнительные мощности, обеспечивающие внутренние «шары».

Это тот выбор, который бизнес делает для себя. Кто-то готов платить, кто-то просто запрещает все (Это, кстати, работает хуже всего – в итоге неофициально все разрешается). Самые активные нанимают обученного человека для управления данными.

И нельзя сказать, что проблема видна и понятна только исследователям из Veritas.

«Недавно был случай с одним клиентом, который арендовал дорогие серверы с очень быстрой подсистемой хранения емкостью 2 Тбайт, построенной на твердотельных накопителях (они же SSD). Речь шла о размещении на нашей инфраструктуре бизнес-критичной базы данных. Когда наши специалисты перенесли информацию и посмотрели, что именно будет храниться на недешевых SSD, то обнаружили, что сама по себе база данных (ради которой все и затевалось) занимает всего 250 Гбайт из 2 Тбайт. Все остальное – старые бэкапы и какая-то совершенно третьестепенная информация, которую хранить на SSD – неуместное расточительство. В общем, этот кейс показал, что у клиента около 70% данных на критически важных серверах оказались избыточными», - рассказал Леонид Аникин, руководитель направления облачной инфраструктуры компании Softline.

По данным Gartner, 60-80% данных, хранящихся в бизнес-приложениях, являются «статическими», это означает, что информация больше никогда не будет изменена или обновлена, то есть это данные «только для чтения». Также по данным аналитиков, объем хранящихся данных ежегодно увеличивается на 30—40%.

«Известно, что 70% ИТ-бюджета тратится на обслуживание существующей инфраструктуры, т.е. на инновации остается только 30%. Именно в рамках этих 30% возможно реализовывать проекты, которые будут обслуживать интересы общие для бизнеса и ИТ-службы. Эта критичная цифра, так как именно в рамках этого финансирования компания получает возможность внедрять инновации, успешно конкурировать, зарабатывать деньги наиболее эффективно, увеличивая свою долю рынка», - соглашается Дмитрий Сергеев, руководитель технических консультантов, ЕМС Россия и СНГ.

С одной стороны, причины этого явления связаны с бурным развитием ИТ отрасли: новые приложения вытесняют старые, происходит дублирование информации как вынужденная мера плохой межсистемной интеграции, а унаследованная инфраструктура этому только способствует. С другой стороны – сказывается «привычка» бизнес-пользователей хранить терабайты информации, не задумываясь о ее нужности, также различные государственные, отраслевые и корпоративные требования по хранению информации.

По примерным оценкам, стоимость ресурсов, затрачиваемых компаниями в регионе EMEA на хранение дублирующих, устаревших или ненужных данных, к 2020 г. может достичь 55,3 трлн рублей.

А как вы решаете эту проблему? Делитесь опытом в комментариях.

 

1100 прочтений
blog comments powered by Disqus