Хранилища данных становятся инфраструктурным компонентом №1


Андрей Арсентьев


Российский бизнес все острее осознает необходимость построения хранилищ данных. Являясь одними из наиболее значимых элементов ИТ-инфраструктуры предприятия, хранилища консолидируют информацию, необходимую для создания достоверных аналитических отчетов. Но именно достоверность и качество данных являются основными проблемами, с которыми сталкивается отечественный бизнес при создании хранилищ данных.

Хранилища данных являются одними из крупнейших источников информации для современных аналитиков. И, по оценке Gartner, хранилища в ближайшей перспективе останутся одними из ключевых компонентов ИТ-инфраструктуры предприятий. Аналитики выделили ряд наиболее значимых тенденций на рынке хранилищ на ближайшую перспективу.

Ключевые тенденции на рынке хранилищ данных в 2011-2012 гг.

Тренд Описание
Оптимизация и производительность Новые участники рынка и почти все производители хранилищ данных в настоящее время сосредоточены на оптимизации хранения при помощи сжатия и стратегий размещения используемых данных
Специализированное оборудование хранилищ данных Главная причина покупки специализированных устройств – их простота. Вендор подбирает и апробирует конфигурацию для предсказуемой производительности. Специализированное устройство поставляется в комплекте и быстро устанавливается
Интенсивный POC В течение 2010 г. большинство организаций опробовали концепцию POC (proof of concept), выбирая из списка поставщиков СУБД для хранилища. Gartner рекомендует использовать в этих проектах как можно больше реальных данных, подключать максимальное число пользователей, моделируя нагрузку на хранилище, близкую к реальной
Разнородные рабочие нагрузки Существует шесть категорий рабочих нагрузок хранилища: массовая/пакетная нагрузка, основная отчетность, базовая оперативная аналитическая обработка (OLAP), нагрузка в реальном времени/ продолжительные нагрузки, интеллектуальный анализ данных и операционный бизнес-анализ. Хранилища, обслуживающие все шесть типов нагрузок, необходимо оценить на предсказуемость производительности при смешанной рабочей нагрузке, так как неспособность нормально ее обслуживать приведет со временем к росту расходов на администрирование и к проблемам с устойчивостью
Анимация витрин данных Витрина данных может быть использована для оптимизации хранилища данных путем переноса на нее части нагрузки.
Поколоночные (column-based) СУБД СУБД такого типа обычно быстрее дают ответы на запросы, чем традиционные построчные системы, и могут служить отличными платформами для витрин данных. Gartner ожидает от поставщиков изменений в модели ценообразования - от более традиционных (для каждого пользователя или базовой модели) к цене, основанной на объеме загружаемых в базу данных
In-memory СУБД Технологии СУБД в ОЗУ (англ. IMDBMS - In-memory DBMS) демонстрируют высокую скорость ответов на запросы и фиксацию данных. Они станут доминирующим подходом. Поставщики более традиционных баз данных будут одновременно приспосабливаться и к column-подходам, и к In-memory
Хранилище как услуга и «облако» В 2011 г. появятся хранилища данных «как услуга» в двух моделях: ПО как услуга (SaaS) и внешнее (аутсорсинговое) хранилище данных. Хранилище данных в «облаке» - это пока выбор типа инфраструктуры, так как еще предстоит разработать модель данных, внедрить стратегию интеграции и обеспечить доступ пользователей BI и управление им. Некоторым организациям для создания хранилищ данных и обслуживания бизнес-аналитики больше подойдет модель частного «облака».
Использование Open Source СУБД для развертывания хранилищ «Свободные» СУБД пока используются в экспериментальных и более формализованных подходах. Хранилища Open Source сегодня достаточно редки и обычно меньше традиционных. Как правило, они требуют «ручного» управления

Источник: Gartner, 2011г.

Формирование аналитических отчетов диктует бизнесу необходимость сбора информации из нескольких транзакционных баз данных различной структуры и содержания. Это неудобно и требует серьезных трудозатрат. Основная проблема такого подхода заключается в противоречивости и несогласованности разноплановых баз данных. Соответственно, говорить о высоком качестве аналитической информации в этом случае не приходится. Задумываясь об обеспечении достоверных сведений, необходимых для оперативного анализа и принятия решений, бизнес осознает необходимость построения хранилищ корпоративной информации.

Подобное хранилище представляет собой предметно-ориентированную базу данных, расположенную отдельно от продуктивных систем и консолидирующую данные из промышленных баз. Информация в хранилище поступает с помощью определенного инструментария (ETL-средства).

Напрямую или посредством витрины?

Среди множества аспектов построения и функционирования хранилищ можно выделить обеспечение доступа к корпоративным данным. Его можно реализовать как напрямую, так и через витрины данных. При «прямом доступе» аналитики для формирования отчетов обращаются непосредственно к самому хранилищу данных. Достоинством этого подхода является отсутствие дополнительного шага в ETL-процедуре; и при изменении бизнес-задач требуется лишь перенастроить интерфейсы доступа к хранилищу.

Недостатком прямого доступа можно назвать само хранилище данных, поскольку оно не ориентировано на решение каких-либо функциональных аналитических задач. Таким образом, оно нейтрально по отношению к приложениям. «Прямой доступ – наиболее доступный и простой способ работы с данными, позволяющий взаимодействовать с большими объемами информации и анализировать ее, - считает аналитик ИК «Финам» Татьяна Земцова. - Однако эти объемы данных одновременно являются и минусами данного формата работы. К тому же, при больших объемах данных на сервере получение сведений требует достаточно серьезных временных затрат».

В большинстве случаев для выполнения функционально замкнутых аналитических задач было бы правильным создавать витрину данных, представляющую собой отдельную базу (возможно, многомерную). Витрины данных – это более совершенная система, позволяющая детализировать, градировать, оптимизировать и обновлять информацию по расписанию и загружать данные в режиме online. Витрины, как правило, работают с данными одной учетной системы (в отличие от прямого доступа), что позитивно отражается на скорости работы в системе. «По сути, витрина данных – это маленькое хранилище, но оно функционально ориентировано на решение конкретных аналитических задач, - отмечает ведущий специалист отдела разработки департамента бизнес-систем «Энвижн Груп» Дмитрий Красилов. - Чаще всего информация попадает в нее из хранилища, что можно причислить к недостаткам витрины, ведь для ее реализации требуется дополнительный шаг ETL-процедуры». По его словам, еще одним недостатком витрины можно считать ее привязанность к бизнес-процессам. При изменении бизнес-процесса зачастую требуется поменять ETL-процедуру, может быть, даже полностью перестроить витрину. В числе недостатков этого подхода г-жа Земцова выделяет более высокую стоимость сбора и обновления источников данных, а также проблему консолидации данных в рамках конкретного источника.

Проблемы роста

Необходимость внедрения корпоративных хранилищ данных становится для российского бизнеса все более очевидной. Но типов данных может быть великое множество – различная бухгалтерская, управленческая, нормативная информация, документы, фотографии, видео и др. «Проблемой загрузки данных в хранилище является их согласование, а ведь данные могут быть и противоречивыми», - напоминает г-н Красилов.

Цепной коэффициент роста количества новых заказчиков хранилищ данных в российских банках*

Цепной коэффициент роста количества новых заказчиков хранилищ данных в российских банках

* Цепные показатели характеризуют интенсивность изменения уровня от одного периода к другому
в пределах того промежутка времени, который исследуется

Источник: Intersoft Lab,2011 г.

Таким образом, при проектировании хранилища приходится решать много сложных задач. По наблюдениям эксперта, большинство компаний понимают это, инвестируя в разработку собственных хранилищ данных и в сотрудников, способных решать поставленные задачи. Особенно преуспели в построении хранилищ банки и телеком-компании, что неудивительно: для них сбор, хранение и обработка информации имеет особую ценность при привлечении и удержании клиентов.

Аналитики прогнозируют, что в ближайшие годы на российском финансовом рынке будет наблюдаться рост числа проектов по построению хранилищ данных. И эти прогнозы подтверждаются текущей активностью в этом сегменте рынка. Так, по данным Intersoft Lab, в 2010 г. число новых контрактов увеличилось в 2,3 раза по сравнению с 2009 г. Это обусловлено, с одной стороны, началом разморозки ИТ-бюджетов после кризиса, с другой – назревшим переходом банков от эксплуатации хранилищ данных собственной разработки к промышленным решениям. «Практически каждый банк, выбирающий сегодня решение для построения хранилища данных, уже имеет определенный опыт создания хранилища своими силами и знает, с какими ограничениями в развитии и сопровождении решения приходится сталкиваться», - поясняет замгендиректора по развитию бизнеса Intersoft Lab, эксперт Ассоциации российских банков Юлия Амириди. Она также обращает внимание на продолжающуюся консолидацию банковского рынка как на фактор роста. Для обновленных кредитных организаций внедрение хранилищ данных – это оптимальный путь к достижению прозрачности в управлении растущим бизнесом и реализации требований регуляторов к обязательной отчетности.

Взятый банками курс на автоматизацию обязательной отчетности существенно повысил приоритет задачи обеспечения качества данных в хранилище. Оказалось, что полнота, согласованность и точность данных, собираемых из учетных модулей, обычно оставляют желать лучшего. Для выявления и устранения этой проблемы поставщики предлагают механизмы обогащения и даже ввода недостающих данных в хранилище. Но главным инструментом здесь должны стать организационные изменения. Прежде всего, речь идет о формировании, документировании и внедрении корректных регламентов для ввода и обработки учетных данных. Именно сложности в решении задачи контроля и обеспечения качества данных являются сегодня, пожалуй, самой болевой точкой в построении хранилищ данных в российских банках.

В ногу со временем

Эксперты утверждают, что в России ведущие системные интеграторы и крупный бизнес не уступают зарубежным коллегам в вопросах проектирования, разработки и внедрения хранилищ данных и систем бизнес-анализа. Поскольку на отечественном рынке представлено множество поставщиков ПО для хранилищ данных и систем бизнес-анализа, то и основные методологии применимы к нашей действительности, несмотря на все ее особенности.

Структура российского рынка ВРМ-систем (банковский сектор, 2000-2010 гг.)

Структура российского рынка ВРМ-систем (банковский сектор, 2000-2010 гг.)

Источник: Intersoft Lab,2011 г.

Если сравнивать накопленный к сегодняшнему дню опыт отечественных разработчиков хранилищ данных с наработками интеграторов, внедряющих в банках решения иностранных вендоров, то чаша весов однозначно склонится в сторону первых. В частности, аналитики Intersoft Lab посчитали, что по итогам 2010 г. в этом сегменте количество новых проектов на основе российских решений в 2,6 раза превышает аналогичный показатель для ПО иностранных разработок.

Рыночные доли западных и российских BPM-поставщиков (банки, 2010 г.)

Рыночные доли западных и российских BPM-поставщиков (банки, 2010 г.)

Источник: Intersoft Lab,2011 г.

Хранилища данных, разработанные как в России, так и за рубежом, опираются на одни и те же инструментальные технологии – СУБД, ETL, репортинг. «С точки зрения заказчика - и те, и другие решения созданы на одинаковой платформе, - отмечает г-жа Амириди. - Но модели данных у иностранных продуктов не готовы поддерживать отечественную специфику, в частности - требования к ведению бухгалтерского учета и подготовки регуляторной отчетности». По ее наблюдениям, особенно ярко этот фактор проявился в последние годы, когда подготовка отчетности для Банка России стала первоочередной прикладной задачей среди тех, что реализуются на платформе хранилища данных.