Билл Инмон: методология Кимбалла игнорирует ценность текстовых данных

13 сентября 2011 года на сайте SearchDataManagement.com было опубликовано интервью Билла Инмона (Bill Inmon), которое он дал Марку Брунелли (Mark Brunelli), старшему редактору новостей.


Вот что Марк Брунелли пишет по этому поводу:

Разговор с Биллом Инмоном быстро привел к пониманию того, что "Отец Хранилищ данных" немного устал от давнего спора о том, что лучше: его архитектура корпоративных хранилищ данных или предложенная консультантом Ральфом Кимбаллом, основателем Kimball Group. Да, конечно, Инмон будет говорить об этом, потому что журналисты и участники конференции хотят это услышать. Но он больше предпочел бы говорить о том, как его методология развивалась, как он подошел к включению в хранилище текстовых данных, а также о многом другом.

В SearchDataManagement.com решили побеседовать с Биллом Инмоном на обе темы. В этом интервью Инмон, автор «DW 2.0: The Architecture for the Next Generation of Data Warehousing» объясняет почему «Кимбаллетяне» - в особенности те, кто работают в Microsoft - могут быть весьма близоруки. Он также рассуждает о истории «Инмон против Кимбалла», объясняет, почему он думает, что текстовые хранилища данных являются новым рубежом.


Ниже приводится текст интервью.


Марк Брунелли: Я прочитал Вашу статью, которая начинается с того, что методология Ральфа Кимбалла превратилась в нечто похожее на методологию Билла Инмона. Не могли бы вы объяснить, что Ыы имели в виду под этим?

Билл Инмон: Конечно. Когда Кимбалл начинал (в начале 1990-х), то он говорил о построении витрин данных. Вся архитектура Кимбалла сосредоточена на построении витрин данных. В своих книгах он писал, что хранилище данных представляет собой объединение витрин данных. Сейчас Кимбалл говорит о корпоративном хранилище данных и интеграции данных – о том, что в прежние дни являлось запретными темами для него и его сторонников. Сегодня они развернулись на 180-градусов от той позиции, которой придерживались 20 лет подряд.


Марк Брунелли: Как вы думаете, в чем ключевые различия между этими двумя подходами?

Билл Инмон: Сегодня Кимбалл говорит говорит о строительстве корпоративного хранилища данных, как об интегрированном хранилище данных. Именно об этом я говорил в 1990 году. Комбалл говорит о том, о чем мы говорили двадцать лет назад. В то же время я продолжаю придерживаться своего понимания архитектуры, и самым последним дополнением к ней стали текстовые неструктурированные данные. И теперь у нас есть представление о том, как получить текстовые данные в хранилище данных. Я предполагаю, что через 10 лет Кимбалл и его команда откроют для себя текстовые данные. Они отстают на 10-15 лет от моей архитектуры. Я полагаю, что проблема в следующем: когда вы разговариваете с приверженцами архитектуры Кимболла, то они не признают существования архитектуры Инмона. Я никогда не разговаривал с такими предубежденными людьми как последователи Кимболла. Я очень надеюсь, что приверженце архитектуры Инмона более открыты.


Марк Брунелли: Могли бы Вы привести пример, когда Вы столкнулись с такой предубежденностью и закрытостью?

Билл Инмон: В прошлом году компанией Microsoft я был приглашен в мировое турне, а Microsoft исходно является «Домом, который построил Кимбалл». С точки зрения Microsoft это правильно, потому что Microsoft в течение многих лет специализировался на построении витрин данных. Теперь они пытается создавать реальные хранилищ данных, пытаясь взять технологии из прошлого и сказать, что они применимы для будущего. Я был признателен за то, что Microsoft пригласил меня в тур, потому что как компания Microsoft мне нравится, но люди, которые в ней работают... Наибольшее разочарование вызывает то, что, когда вы пытаетесь говорить с людьми рассудительно и обосновывать свою позицию, их сознание отключается. Я начал рассказывать сотрудникам Microsoft о том, что так называемые текстовые данные являются действительно очень важными. И если вы собираетесь строить базу данных и хранилище данных, то вы должны быть в состоянии решать проблему текстовых данных. Но, конечно, Кимбалл не может не упомянуть о текстовых данных, и представители Microsoft сказали: «Отлично, текстовые данные не важны». Но у меня есть новости для Вас: Текстовые данные - это новый рубеж.


Марк Брунелли: Почему, как Вы считаете, подход Инмона к построению хранилищ данных было более сложено продвигать на рынок, чем подход Кимбалла?

Билл Инмон: Изначально продавать витрины данных было бесспорно проще чем, продавать корпоративные хранилища. Я первый человек, который отметил, что построение корпоративного хранилище данных процесс длительный, и сделанные в хранилище данных инвестиции быстро не вернутся. Тем не менее, внедрение корпоративного хранилища данных приносит огромную отдачу от инвестиций в долгосрочной перспективе. Мой подход всегда продавался трудно, потому что мы продаем архитектуру, которая в компаниях будет существовать годами. Мы не продаем наборы отчетов, которые будут применяться в компании не так долго.


Марк Брунелли: Могли бы Вы объяснить, каким образом последняя версия вашей архитектуры хранилищ данных - DW 2.0 учитывает неструктурированные или текстовые данные?

Билл Инмон: Если Вы знакомы с архитектурой Инмона, то Вы помните, что она начиналась с Хранилища данных (Data Warehouse), затем она модифицировалась в нечто, называемое корпоративной информационной фабрикой (Corporate Information Factory, CIF), а затем она превратилась во что-то называемое DW 2.0. Большая часть идеологии DW 2.0 посвящена тому, что в хранилище данных необходимо включать текстовую информацию. И я должен сказать Вам, что мой телефон обрывают звонки людей, которые увидели, что действительно можно взять текст и начать получать из него важную и ценную информацию.


Марк Брунелли: Как это можно применить в реальном мире?

Билл Инмон: Контракты. Каждая компания заключает контракты. Если Вы спросите руководителя компании, контролирует ли он ход исполнения контрактов, то он всегда ответит «да», потому что руководители контролируют платежи по контрактам. Сейчас если руководителю нужно прочитать три-четыре контракта ему может потребоваться юрист, чтобы разобраться в них. Проблема начинаются, когда мы говорим о большом количестве контрактов – тысячи, десятки тысяч или миллионы. Речь идет о возможности восприятия этой совокупности знаний и определении того, какие обязательства взяла на себя компания по контракту с точки зрения сроков, обязательств, продукции и цен. Теперь что Вы можете сделать с DW 2.0 и, так называемым, Текстовым ETL. Вы можете считать контракты, поместить их в реляционную базу данных и выполнять к ним запросы так быстро, как быстро может выполняться SQL-запрос. Ответ Вы, конечно же, получите за секунды. Вот только один пример.


Марк Брунелли: Есть еще примеры?

Билл Инмон: Другим примером является электронная почта. Каждая компания имеет электронную почту, и в электронной почте содержится очень много текущей важной информации. Но как на сегодняшний день электронная почта используется в корпоративных решениях? Правда в том, что никак. И получается, что электронное письмо прочитали один раз, потом оно попало в общую кучу и, что характерно, это может быть кучей мусора. Проблема в том, что действительно много полезной и важной для компании информации приходит по электронной почте. Но это не только электронная переписка. Это не только контракты. В компаниях существует огромное количество текстовой информации, которая должна быть использована. Люди обнаружили, что как только текстовые данные переводятся в формат базы данных, перед ними открывается целый новый мир. И я считаю, что этот мир по-настоящему захватывающий.