Типы Хранилищ данных
Дата: 17.07.2001
Уильям Инмон (William Inmon)
В самом начале определение Хранилища данных было простым. Согласно нему (а оно актуально до сих пор), Хранилище данных - это набор данных, которые являются:
- предметно-ориентированными,
- интегрированными,
- не изменяющимися во времени,
- долговременными,
и предназначены для принятия решений руководством.
Кроме того, стало очевидным, что Хранилища данных являются структурированными. Они содержат базовые данные, которые образуют единый источник для обработки данных во всех системах поддержки принятия решений (decision support system, DSS). Если возникают разногласия во мнениях, с помощью Хранилища данных можно выполнить согласование информации. А элементарные данные, присутствующие в Хранилище, могут быть представлены в различной форме, отвечая не только известным требованиям, но еще и неизвестным.
Хранилища данных исключительно велики, поскольку в них содержатся исторические и детализированные данные. Термины терабайт и петабайт до недавних пор были известны только в научных кругах, пока не появились Хранилища данных. По причине размера объемов данных, находящихся в Хранилище, данные подразделяются на два класса: активно и неактивно используемые данные.
Хранилища данных содержат интегрированные данные. Они интегрированы на множестве уровней: на уровне ключа, атрибута, на описательном, структурном уровне и так далее. Общие данные и общая обработка данных консолидированы и являются единообразными для всех данных, которые подобны или схожи в Хранилище данных.
Эти характеристики являются общими для всех Хранилищ данных. В этом смысле Хранилища, где бы то они ни были, не отличаются друг от друга.
Но это утверждение будет неверным, если его применять ко всем Хранилищам данных. Несмотря на то, что Хранилища обладают общими свойствами, разные типы Хранилищ имеют свои индивидуальные особенности.
Финансовые Хранилища данных
В большинстве случаев финансовые Хранилища данных - это Хранилища, которые организации строят в первую очередь. Создание финансового Хранилища - очень привлекательное решение, поскольку:
- Финансовые данные ВСЕГДА находятся в центре, "мозге", организации. Поэтому привлечь внимание к хорошо построенному финансовому Хранилищу данных очень легко.
- В большинстве организаций (но не во всех) финансовые данные представляют самые маленькие объемы данных из имеющихся.
- Финансы охватывают все аспекты функционирования корпорации и имеют один общий знаменатель - деньги.
- Финансовые данные по своей природе имеют структуру, на которую напрямую влияет повседневная практика обработки финансовой информации, и так далее.
По этим причинам финансы становятся предпочтительной областью построения корпоративного Хранилища данных.
Однако, финансовые Хранилища данных имеют серьезные, присущие только этому типу Хранилищ, недостатки. Первый из них заключается в том, что в организациях ожидают, что сведения из финансовых Хранилищ будут с точностью до одного пенни совпадать с данными существующей финансовой среды. То и дело можно услышать, что "это финансовое Хранилище явно неисправное, потому что в отчете, который я получил вчера, было указано, что доходы составляют 145,998.32 долларов, когда же я выполнил тот же отчет в финансовом Хранилище данных, то получил величину, равную 139, 762.01 долларам. Этому Хранилищу просто нельзя верить".
Ожидание того, что информация в финансовом Хранилище данных должна точь-в-точь совпасть с цифрами из текущего финансового отчета, является глубоко ошибочным. Люди (то есть финансовые работники), которые так думают, просто не понимают, что, когда данные переходят из операционной среды в финансовое Хранилище данных, происходит ТРАНСФОРМАЦИЯ. А когда данные перетекают из мира приложений в реальный мир корпорации, их рассматривают в другом измерении. А вот, что точно происходит при таком переходе данных из одного мира в другой:
- Меняются отчетные периоды. В операционной среде отчетный период завершается в конце месяца, в среде Хранилища данных заканчивается на корпоративном календаре.
- Меняются схемы группировки и кодирования счетов. В операционной среде данные рассчитываются в соответствии с одним планом бухгалтерских счетов, а в финансовой среде всей корпорации может быть совершенно другой набор схемы группировки и кодирования.
- Меняются классификации данных. Так, в операционной среде Северная Америка состоит всего из 48 континентальных штатов, в глобальном Хранилище данных Северная Америка включает также Канаду, Мексику, Аляску и острова Карибского бассейна.
- Меняются валюты. Операционные денежные средства соответствуют той валюте, в которой они обращаются: лиры, франки, фунты, песо и так далее. В глобальной среде деньги преобразуются к одной общей валюте: долларам или евро.
Итак, существует множество причин, почему данные, находящиеся в Хранилищах данных, отличаются от данных операционных систем. Однако, финансовые работники думают иначе, и вот почему необходимо им разъяснять, что такое трансформация, и что означают различные измерения данных.
Хранилища данных в области страхования
Хранилища данных в области страхования за некоторыми небольшими исключениями похожи на другие Хранилища. Первое исключение (и это особенно справедливо в отношении страхования жизни) заключается в том, что продолжительность существования имеющихся Хранилищ очень велика. Такие Хранилища содержат данные, которые являются старыми, очень старыми. В этом случае вполне разумно обращаться к данным начала столетия - к началу XX века. Причина, по которой страховые компании вынуждены интересоваться столь "древней историй", - актуарная обработка данных. Практически для каждого дела приводится довод, что деятельность, которой организация занималась в 1950 году, практически не связана с сегодняшним занятием. И часто этот довод звучит правдоподобно.
Второе отличие этих Хранилищ определяется датами, которые хранятся в этом бизнесе. Среда страхования - по каким бы то ни было причинам - отличается наличием огромного числа дат, связанных с бизнесом, чем какой-либо другой вид деятельности. Так, в сфере розничной торговли имеется несколько важных дат: дата продажи, дата появления на складе, возможно, дата производства. В банковском деле существенна дата транзакции. В телекоммуникации - это дата телефонного звонка. В страховании же присутствуют даты всевозможных типов.
Наконец, третье отличие заключается в том, что эти Хранилища данных используют свой рабочий цикл деловой активности. Большинство организаций имеет весьма ограниченный и короткий экономический цикл. Так, в банках это обналичивание чека. В торговле - покупка изделия. В телефонной компании - звонок. Однако, в страховании им может быть заявка на страховое возмещение, которая может быть удовлетворена спустя пять лет. Или закрытие полиса может сопровождаться двухмесячной отсрочкой. Резюмируя, можно сказать, что скорость, с которой функционирует страхование, отличается от скорости, характерной для других отраслей.
Эта разница в скорости отражается в Хранилище данных. В других Хранилищах транзакции просто собираются и обрабатываются. В области страхования транзакция может откладываться на неопределённый срок, а ее различные части могут отражаться в Хранилище данных. Результатом этого является совершенно особый подход при проектировании и внедрении таких Хранилищ данных.
Хранилища данных для управления людскими ресурсами
Хранилища данных для управления людскими ресурсами имеют весьма существенные отличия от других Хранилищ. Первое отличие - число предметных областей. Такое Хранилище данных неизбежно имеет одну важную предметную область - это работник. Практически все остальное подчинено этой области или занимает второстепенное положение. Большинство же других Хранилищ данных имеют несколько базовых предметных областей.
Однако, основное отличие Хранилищ данных для управления людскими ресурсами состоит в том, что такие Хранилища вообще-то используют очень мало транзакций. Так, имеется дата, когда субъект становится работником. Дата, когда человек увольняется. Годовые прибавки и повышения. Но, кроме транзакций фонда заработной платы и прочих редких, сгенерированных работником, транзакций, в таком Хранилище практически больше ничего и нет. Сравните сферу управления людскими ресурсами с коммуникацией или банковской средой, и разница в числе транзакций станет очевидной.
Эта разница в темпах транзакций между рассматриваемой и другими сферами деятельности является причиной возникновения определенной сложности, которая заключается в том, что в области управления человеческими ресурсами наблюдается тенденция к объединению операционной обработки людских ресурсов и обработки людских ресурсов для систем принятия решения в одну среду. В других же отраслях соблазн совершить такую архитектурную ошибку весьма невелик.
Глобальные Хранилища данных
Глобальные Хранилища данных предназначены для глобального представления корпорации. Различают три типа таких Хранилищ:
- Географически превалирующая обработка данных. Например, необходимо интегрировать бизнес в Гонконге с бизнесом в Париже, который в свою очередь следует интегрировать с Рио-де-Жанейро, а тот - с Нью-Йорком.
- Функционально превалирующая обработка данных. Производственная деятельность должна быть интегрирована с поставками, которые необходимо интегрировать с продажами, а те - с исследованиями и так далее.
- Отраслевая превалирующая обработка данных. Например, требуется интегрировать печатное дело с консалтингом, который подлежит интеграции с бизнесом в сфере медицинского оборудования, а тот со специализацией в области программного обеспечения.
Особенность глобального Хранилища данных заключается в том, что на глобальном уровне зачастую очень мало общих измерений. Единственное общее измерение - это деньги. И интеграция бизнеса может быть достигнута только с его помощью. Другие же измерения могут иметь или не иметь смысл на глобальном уровне. Так, клиент, продукт, поставщик, транзакция - все эти классические предметные области могут как присутствовать, так и отсутствовать в глобальной интегрированной сфере - глобальном Хранилище данных.
Помимо этого, глобальное Хранилище данных подвержено тому, от чего другие Хранилища "благополучно избавлены" - от "разрушительного" воздействия перемен. Если в прочих Хранилищах изменения базовых данных случаются нечасто, то для этого типа Хранилищ они происходят постоянно и в самом основании. Так, в любой момент может быть открыто новое месторождение нефти, например, в Венесуэле. В следующую минуту в Перу вспыхнет революция. А затем, благодаря развитию технологии, станут доступными залежи нефти в Луизиане. Вслед за этим последуют санкции ОПЕКа. В Мексике будет изменено законодательство. И так далее. Если рассматривать ситуацию в глобальном аспекте, то видно, что изменения носят постоянный характер. Поэтому структура и технология, используемая для размещения и обслуживания глобального Хранилища данных, должна позволять поддерживать эти непрерывные перемены.
Хранилища данных с возможностями Data Mining/Data Mining и Exploration
Хранилища данных, поддерживающие технологию Data Mining и Exploration (методы "добычи" и исследования данных), являются гибридом классических Хранилищ. Такие Хранилища используются для выполнения мощной статистической обработки данных. Эти Хранилища являются:
- очень детальными,
- глубоко историческими,
- оптимизированными для статистического анализа.
Кроме того, для таких Хранилищ характерна ориентация на какой-либо проект. Это означает, что, в отличие от всех других типов Хранилищ данных, их перестают использовать сразу по завершении анализа, ради которого они создавались.
Еще одно важное отличие Хранилищ данных с возможностями Data Mining/Data Mining и Exploration заключается в том, что эти Хранилища очень часто включают внешние данные. Такие данные очень полезны с точки зрения обеспечения бизнес-перспективы, которую не так легко увидеть без их участия.
Хранилища данных в области телекоммуникаций
Отличительная особенность этих Хранилищ состоит в том, что они в значительной степени определяются данными, сгенерированными в деталях на уровне звонка. Разумеется, в отрасли телекоммуникации присутствует множество других типов данных. Но ни одна другая область Хранилищ данных не предопределяется в такой степени размером одной предметной области - деталями на уровне звонка.
Существуют много способов хранения деталей на уровне звонка:
- хранение деталей на уровне звонка только за несколько месяцев;
- хранение множества деталей на уровне звонка, размещенных на различных носителях;
- резюмирование или агрегирование деталей на уровне звонка;
- хранение только отобранных деталей на уровне звонка, и так далее.
К сожалению, несмотря на разнообразие методов обработки, для данного Хранилища данных обработка может быть выполнена только над деталями на уровне звонка. А работа на итоговом или агрегированном уровне просто невозможна.
Заключение
Итак, мы рассмотрели основные и главные отличия различных типов Хранилищ данных.
- Данные финансовых Хранилищ данных - а именно их обычно создают в первую очередь - не будут с точностью до одного пенни совпадать с информацией в существующей финансовой среде.
- Хранилища данных в области страхования за небольшими исключениями похожи на другие Хранилища: продолжительностью существования таких Хранилищ, а также разнообразием дат и продолжительностью экономического цикла.
- Хранилища данных для управления человеческими ресурсами отличаются от других Хранилищ тем, что для них характерна только одна основная предметная область.
- Хранилища данных с возможностями Data Mining и Exploration, которые используются для выполнения мощной статистической обработки данных, являются гибридом классических Хранилищ.
- Отличительная особенность Хранилищ данных в области телекоммуникаций состоит в том, что они в значительной степени определяются данными, сгенерированными в одной предметной области.
Вне всяких сомнений, помимо них существуют и другие типы Хранилищ, каждому из которых присущи свои яркие отличительные особенности.