Классификация данных при построении модели данных аналитической системы
Введение
Первым шагом при проектировании информационно-аналитической системы, предназначенной для хранения и анализа данных (например, корпоративного хранилища данных), является построение модели данных - модели организации информации в будущей системе.
В любой организации, в её информационных системах существуют данные. Зачастую эти данные разрозненны, не взаимосвязаны и дублируют друг друга, а некоторые данные могут присутствовать только на бумаге, и доступ к ним не может быть осуществлен оперативно для проведения аналитического анализа.
Зная аналитические потребности бизнеса и, как следствие, требования к будущей аналитической системе, применяя метод классификации данных, можно получить целевую, оптимизированную модель данных, которая впоследствии ляжет в основу аналитического хранилища данных.
Исходная и целевая структура классификации данных
Классификация данных (классификация информации) при построении модели данных
Как классифицировать существующие в Компании данные? Прежде всего, под классификацией понимают систематическое упорядочивание элементов по группам или категориям в соответствии с заданными критериями. В связи с этим, зная какие бизнес-задачи будет решать будущая аналитическая система, какие данные при этом будут использоваться, эти данные можно разбить на конечное число верхнеуровневых групп.
Например, компания IBM в одной из своих моделей данных предлагает следующие группы.
Группы классификации данных при построении аналитической системы
- Договоренности - представляет собой договоренности возможные или действительные между двумя или более заинтересованными сторонами, которые предлагают и подтверждают правила и обязательства, связанные с продажей, обменом или предоставлением продуктов и услуг.
- Участники - входят любые частные лица и их группы, организации, подразделения и должности, информацию о которых необходимо хранить.
- Продукт - описывает услугу, товар или оборудование, которые могут быть предложены, проданы или куплены поставщиком услуг.
- Классификаторы - определяют значения или описания, входящие в категорию данных. По сути, различные справочники.
- Расположение – определяет географическое местоположение. Страна, город, географическая точка.
- Ресурсы - обозначают логический или физический объект, имеющий ценность.
- Правила – включают формализованные правила ведения бизнеса.
- Условия - описывают особые требования к тому, как должны работать участники, и определяют предварительные условия (квалификацию) и ограничения (рамки), связанные с этими требованиями.
- События – в данную область входят различные события, например, отгрузка/поставка товара, заключение договора, покупка здания и т.п.
Пример классификации данных при построении модели данных
Приведем общий пример классификации при построении модели данных.
Классификация данных при построении модели данных
Допустим, у компании, занимающейся нефтедобычей и нефтепереработкой, на балансе существуют различные здания, сооружения, нефтяные вышки и т.п. Эти объекты можно отнести к типу данных РЕСУРСЫ. Взяв первый тип данных РЕСУРСЫ, мы уже прибегли к КЛАССИФИКАЦИИ – определили типы ресурсов. Далее классификацию можно развить, добавив различные характеристики ресурсов. Каждый из ресурсов расположен в определенном географическом месте и это место можно и нужно определить, добавив тип РАСПОЛОЖЕНИЕ. Ресурсы компании используются для получения какого-либо продукта - добавляется тип ПРОДУКТЫ. В то же время, в процессе получения продукта с использованием ресурсов принимают участие, например, подрядчики, обслуживающий персонал и т.д., который объединяется под одним типом УЧАСТНИКИ. Также к участникам относятся поставщики и покупатели продукции. Полученная продукция в итоге продается, т.е. происходит СОБЫТИЕ продажи. В свою очередь в данном событии есть и УЧАСТНИКИ – те же покупатели. Сам акт покупки или продажи происходит согласно каким-либо ранее достигнутым ДОГОВОРЕННОСТЯМ с определенными УСЛОВИЯМИ, которые заключены по определенным ПРАВИЛАМ.
Таким образом, используя метод классификации, получаем некую общую модель данных.
Как подобная классификации выглядит в привязке к конкретным значениям и событиям? Приведем пример.
Пример классификации данных при построении модели данных
У компании, занимающейся нефтедобычей и нефтепереработкой, есть определенные ресурсы – это здание центрального офиса (ЦО), Нефтегазодобывающее управление (НГДУ) и, например, какое-либо арендованное здание. У данных зданий есть адрес, им присвоен тип – офисное, производственное. Также, например, на нефтеперерабатывающем заводе (НПЗ) производится газ, который потом продается по договорам покупателям. В свою очередь, по договору аренды арендуется здание у арендодателя и т.д.
Следуя дальше в разработке модели данных будущей аналитической системы, конечно же, необходимо будет более тщательно определять сущности, взаимосвязи между сущностями, правила наименования и много другое. Но первым шагом при разработке модели данных является все же классификация данных.