Классификация данных при построении модели данных аналитической системы

Классификация данных при построении модели данных аналитической системы

Введение

Первым шагом при проектировании информационно-аналитической системы, предназначенной для хранения и анализа данных (например, корпоративного хранилища данных), является построение модели данных - модели организации информации в будущей системе.

В любой организации, в её информационных системах существуют данные. Зачастую эти данные разрозненны, не взаимосвязаны и дублируют друг друга, а некоторые данные могут присутствовать только на бумаге, и доступ к ним не может быть осуществлен оперативно для проведения аналитического анализа.

Зная аналитические потребности бизнеса и, как следствие, требования к будущей аналитической системе, применяя метод классификации данных, можно получить целевую, оптимизированную модель данных, которая впоследствии ляжет в основу аналитического хранилища данных.

Исходная и целевая структура классификации данных (классификация информации). Аналитическая система

Исходная и целевая структура классификации данных

Классификация данных (классификация информации) при построении модели данных

Как классифицировать существующие в Компании данные? Прежде всего, под классификацией понимают систематическое упорядочивание элементов по группам или категориям в соответствии с заданными критериями. В связи с этим, зная какие бизнес-задачи будет решать будущая аналитическая система, какие данные при этом будут использоваться, эти данные можно разбить на конечное число верхнеуровневых групп.

Например, компания IBM в одной из своих моделей данных предлагает следующие группы.

Группы классификации данных при построении аналитической системы

Группы классификации данных при построении аналитической системы

  • Договоренности - представляет собой договоренности возможные или действительные между двумя или более заинтересованными сторонами, которые предлагают и подтверждают правила и обязательства, связанные с продажей, обменом или предоставлением продуктов и услуг.
  • Участники - входят любые частные лица и их группы, организации, подразделения и должности, информацию о которых необходимо хранить.
  • Продукт - описывает услугу, товар или оборудование, которые могут быть предложены, проданы или куплены поставщиком услуг.
  • Классификаторы - определяют значения или описания, входящие в категорию данных. По сути, различные справочники.
  • Расположение – определяет географическое местоположение. Страна, город, географическая точка.
  • Ресурсы - обозначают логический или физический объект, имеющий ценность.
  • Правила – включают формализованные правила ведения бизнеса.
  • Условия - описывают особые требования к тому, как должны работать участники, и определяют предварительные условия (квалификацию) и ограничения (рамки), связанные с этими требованиями.
  • События – в данную область входят различные события, например, отгрузка/поставка товара, заключение договора, покупка здания и т.п.

Пример классификации данных при построении модели данных

Приведем общий пример классификации при построении модели данных.

Классификация данных (классификация информации) при построении модели данных. Хранилище данных

Классификация данных при построении модели данных

Допустим, у компании, занимающейся нефтедобычей и нефтепереработкой, на балансе существуют различные здания, сооружения, нефтяные вышки и т.п. Эти объекты можно отнести к типу данных РЕСУРСЫ. Взяв первый тип данных РЕСУРСЫ, мы уже прибегли к КЛАССИФИКАЦИИ – определили типы ресурсов. Далее классификацию можно развить, добавив различные характеристики ресурсов. Каждый из ресурсов расположен в определенном географическом месте и это место можно и нужно определить, добавив тип РАСПОЛОЖЕНИЕ. Ресурсы компании используются для получения какого-либо продукта - добавляется тип ПРОДУКТЫ. В то же время, в процессе получения продукта с использованием ресурсов принимают участие, например, подрядчики, обслуживающий персонал и т.д., который объединяется под одним типом УЧАСТНИКИ. Также к участникам относятся поставщики и покупатели продукции. Полученная продукция в итоге продается, т.е. происходит СОБЫТИЕ продажи. В свою очередь в данном событии есть и УЧАСТНИКИ – те же покупатели. Сам акт покупки или продажи происходит согласно каким-либо ранее достигнутым ДОГОВОРЕННОСТЯМ с определенными УСЛОВИЯМИ, которые заключены по определенным ПРАВИЛАМ.

Таким образом, используя метод классификации, получаем некую общую модель данных.

Как подобная классификации выглядит в привязке к конкретным значениям и событиям? Приведем пример.

Пример классификации данных (классификация информации) при построении модели данных. Хранилище данных

Пример классификации данных при построении модели данных

У компании, занимающейся нефтедобычей и нефтепереработкой, есть определенные ресурсы – это здание центрального офиса (ЦО), Нефтегазодобывающее управление (НГДУ) и, например, какое-либо арендованное здание. У данных зданий есть адрес, им присвоен тип – офисное, производственное. Также, например, на нефтеперерабатывающем заводе (НПЗ) производится газ, который потом продается по договорам покупателям. В свою очередь, по договору аренды арендуется здание у арендодателя и т.д.

Следуя дальше в разработке модели данных будущей аналитической системы, конечно же, необходимо будет более тщательно определять сущности, взаимосвязи между сущностями, правила наименования и много другое. Но первым шагом при разработке модели данных является все же классификация данных.