Что такое корпоративное хранилище данных (Data Warehouse) и кому его продавать
Чтобы продавать, надо понимать что продаем
Определимся с терминологией и понятиями. Корпоративное хранилище данных (Data Warehouse) – это не система ключевых показателей эффективности (КПЭ, KPI), это не большая база данных, это не аналитический OLAP-инструмент, это не интеллектуальная система, позволяющая добывать новые данные и получать статистические зависимости, это не система единой НСИ – это все не ХД, если говорить о нем в контексте отдельно взятого пункта.
Корпоративное хранилище данных – это специальным образом организованный массив данных предприятия (организации), обрабатываемый и хранящийся в едином аппаратно-программном комплексе, который обеспечивает быстрый доступ к оперативной и исторической информации, многомерный анализ данных (KPI по различным измерениям), получение прогнозов и статистики в разрезах согласованной нормативно-справочной информации (НСИ).
Потенциальные клиенты на корпоративное хранилище данных и что они получают?
Как определить потенциальных корпоративных клиентов, которым необходимо хранилище данных?
- Прежде всего, в повседневной деятельности в компании должна возникать масса информации. Это могут быть телефонные звонки, финансовые транзакции, жалобы/отзывы клиентов, заявки клиентов на отгрузку, информация со спутников-шпионов и т.п. В принципе, все что угодно, главное чтобы данных было много.
- У потенциального клиента должно быть желание видеть и анализировать данную информацию. При этом период анализа должен быть достаточно обширным – от дня или даже часа, до анализа нескольких лет.
- У клиента должна быть нормально работающая инфраструктура (серверов, соединенных витой пары или по USB порту, быть не должно). Если инфраструктуры у клиента нет – ему ее нужно продать.
Какие выгоды клиент получает от внедрения корпоративного хранилища данных?
- Появляется единая информационная система хранения корпоративных данных, в которой используется единая справочная информация.
- Возникает возможность проведения всестороннего анализа бизнеса. Например: какие клиенты являются наиболее прибыльными и выгодными; какая услуга, у каких клиентов является наиболее востребованной, какого рода претензии наиболее часты и в каких регионах и т.п.
- Появляется возможность проведения анализа с использованием исторических данных. Зачастую операционные (автоматизирующие ежедневные бизнес-процессы) системы не позволяют этого делать, у них банально не хватает места для хранения истории и мощности для проведения анализа.
- Появляется возможность соединения и анализа информации, ранее хранившейся в разных информационных системах. Например, данные по трафику различных филиалов хранятся в биллинговых системах от разных разработчиков. После внедрения ХД появляется возможность их анализа вместе, в едином отчете.
- Появляется возможность анализа и скрещивания разных по роду данных. Например, деньги и трафик, количество персонала и количество отказов или претензий и т.п.
- Появляется основа для более качественного расчета себестоимости услуг – на основании информации из корпоративного хранилища данных можно получать более адекватные данные для натуральных баз распределения.
Из чего состоит корпоративное хранилище данных
Из каких компонентов строит корпоративное хранилище данных с технической точки зрения?
Компоненты корпоративного хранилища данных предприятия
- У клиента всегда имеются операционные системы – источники данных для корпоративного хранилища данных. Это, например, бухгалтерские, биллинговые, банковские и т.п. системы.
- Используя ETL-приложение (программное обеспечение, позволяющее извлекать, трансформировать и загружать данные), данные из систем-источников попадают в базу данных хранилища данных. В качестве ETL-средства могут использоваться: Informatica Power Center, IBM DataStage, Oracle Data Integrator, Oracle WareHouse Builder. Существуют и продукты от других вендоров, но они почти не представлены на российском рынке.
- Сама база данных корпоративного хранилища не является абстрактной по своей структуре (набору таблиц, полей в них и взаимосвязей между таблицами), а создана на основе модели данных. В качестве базы данных в подавляющем большинстве используется или Oracle, или Teradata.
- Модель данных представляет собой описание всех сущностей, объектов базы данных корпоративного хранилища данных и включает в себя: концептуальную модель данных, логическую модель данных и физическую модель базы данных. На уровне концептуальной модели определяются сущности и взаимосвязи между ними. На уровне логической модели сущности делятся на бизнес-области, им дается подробное и полное описание, прописываются взаимосвязи. При разработке физической модели базы данных определяется вся структура базы данных - от таблиц и полей в них, до партиций и индексов. Модели данных сегодня на рынок поставляют IBM, SAP и Oracle, но покупка модели данных не означает автоматическое построение верного корпоративного хранилища. Модель данных - это не коробочный продукт. Ее нужно модифицировать под нужды конкретного клиента.
- Далее, уже используя данные из корпоративного хранилища данных, производится настройка областей анализа, отчетности и витрин данных. В последствии пользователи вполне самостоятельно могут строить необходимую отчетность и проводить многомерный анализ. В качестве инструментов анализа в основном используются Business Objects, Oracle Discoverer, IBM AlphaBlocks и другие продукты.
Как выглядят компоненты корпоративного хранилища данных (модель данных, ETL-процессы, витрины данных)
Приведем наглядные примеры модели данных, реализации ETL-процесса, формы поддержки единой НСИ, витрин данных.
Логическая модель данных.
Определяет сущности, их атрибуты и связи между ними.
ETL процесс устранения дубликатов в исходных данных
Форма ввода данных для формирования единого справочника
Витрина данных в форме табличного отчета
Витрина данных с графиком и цветовым
выведением данных по заданному условию
Витрина данных с графиком
Сопутствующее программное и аппаратное обеспечение
Прежде всего, помимо самих услуг на разработку корпоративного хранилища данных, продаются еще и лицензии как на серверное програнное обеспечение (ОС, базу данных, сервер приложений и др.), так и на клиентские места (средства антивирусной защиты и обеспечения безопасности).
Возможно, существующие сервера клиента не предназначены для развертывания хранилища данных. Необходимо выдвигать к ним требования и продавать потенциальному клиенту "железо".
Помимо самих серверов для хранения значительного объема информации необходимы дисковые массивы.
Намереваясь строить корпоративное хранилище данных, потенциальный клиент не всегда понимает как он будет обеспечивать резервирование. Зачастую существующие у клиента системы резервного копирования не способны одномоментно подключить к резервированию объемы данных от 20-30 Тб.
Как правило, специалистам и пользователям клиента требуется прохождение курсов обучения.