Шаблон описания ETL процессов на этапе технического проектирования

Шаблон описания ETL процессов на этапе технического проектирования

Процессы извлечения, трансформации и загрузки на этапе технического проектирования могут быть описаны с использованием следующего шаблона.

Заголовок процесса

Формат заголовка задается по шаблону:
«Процесс (извлечения | трансформации | загрузки) (данных из <имя таблицы, файла>) [из системы-источника <краткое наименование системы-источника>] (<имя процесса>)»

Где:

Процесс (извлечения | трансформации | загрузки) – определяется типом процесса, тип процесса определяется тем, какое действие он выполняет (извлечения|трансформации|загрузки) и в какую область хранения данных попадают данные по результатам его выполнения.

Имя таблицы, файла – имя таблицы или файла системы-источника данных.

Краткое наименование системы-источника – наименование системы-источника данных.

Имя процесса – определяется согласно соглашению по наименованию объектов.

Описание процесса

В кратком описание процесса приводится перечень основных выполняемых действий. Также приводится диаграмма потоков данных, например следующего вида:

Диаграмма потоков данных ETL процесса

Где:

Имя процесса – берется из заголовка процесса.

Таблица-источник – физическое наименование (имя таблицы и БД) таблицы-источника данных для данного процесса.

Перечень таблиц-источников определяется следующим образом: каждый процесс имеет как минимум одну таблицу-источник, являющуюся источником. Если в ходе процесса трансформации выполняется обогащение записей дополнительными полями на основе данных НСИ, то в перечень таблиц-источников входят таблицы, содержащие эту НСИ (копии справочников систем-источников, таблицы-измерения области постоянного хранения, таблицы соответствия, перекодировочные таблицы).

Процессы извлечения данных из той или иной системы-источника имеют одну таблицу-источник. Эта таблица входит в перечень таблиц, приведенный в регламенте взаимодействия с данной системой-источником.

Процессы трансформации имеют несколько таблиц-источников (например, интерфейсные таблицы, таблицы соответствия и вспомогательные таблицы). В случае, если атрибуты трансформируемых данных вычисляется на основе бизнес-правила, тогда в описание процесса включается таблица-источник, реализующая это бизнес-правило (таблица соответствия).

Процессы загрузки имеют одну таблицу-источник. Это таблица области временного хранения, сопоставленная с наполняемой таблицей области постоянного хранения.

Вспомогательная таблица – физическое наименование (имя таблицы и БД) вспомогательной таблицы данных для данного процесса.

К вспомогательным таблицам относятся:

  1. перекодировочные таблицы. Используются в тех случаях, когда необходимо перейти от бизнес ключа к суррогатному ключу или наоборот;
  2. таблицы, содержащие полное множество обработанных ранее записей. Используются в тех процессах, в ходе которых выполняется выделение подмножества новых или измененных записей по сравнению с множеством ранее обработанных записей (захват изменений). В роли таких таблиц используются копии справочников систем-источников или таблицы-измерения области постоянного хранения, содержащие записи об обрабатываемых сущностях. Записи в таких таблицах должны содержать все те поля, по которым выполняется захват изменений. Каждый процесс, захватывающий изменения, использует одну такую таблицу.

Файл-источник – наименование файла, являющегося источником данных для данного процесса.

Таблица-приемник – физическое наименование (имя таблицы и БД) таблицы-приемника данных от данного процесса.

Процессы извлечения данных из той или иной системы-источника имеют одну таблицу-приемник – интерфейсную таблицу. Эта таблица определяется перечнем таблиц, приведенным в регламенте взаимодействия с данной системой-источником.

Процессы трансформации имеют одну или несколько таблиц-приемников. В области временного хранения для процессов трансформации таблица приемник должна быть одна. Данный подход необходимо применять для упрощения поддержки ETL процессов.

Процессы загрузки имеют одну таблицу-приемник и одну таблицу-источник. Таблица-приемник - это наполняемая таблица области постоянного хранения.

Краткое описание данных – приводится краткое описание потока данных. Какие данные берутся(попадают) из(в) данной(ю) таблицы(у).

Параметры процесса

Приводится список параметров вида: <имя параметра> = <значение параметра>

Где:

Имя параметра – наименование параметра процесса. Латинскими буквами.

Значение параметра – приводится значение параметра, которое ему присваивается.

Параметры используются если процессу требуется подать на вход какие-либо постоянные значения (константы). Эти данные (поступившие в процесс как значения параметров) могут быть использованы как для непосредственного размещения в полях записи, так и для поиска других данных в НСИ. Также параметры могут быть служебными, определяющими логику работы процесса.

Вход процесса

Перечисляются таблицы-источники, записи которых процесс читает в ходе своей работы. Поля таблиц-источников описываются в таблице содержащей:

Поле – приводится наименования физическое (имя поля в таблицы БД) поля таблицы.

Краткое описание – приводится краткое описания поля таблицы-источника.

Тип данных – приводится физический тип данных поля (тип данных БД).

Далее перечисляются все вспомогательные таблицы, записи которых используются процессом для обогащения данных. Таблицы перечисляются в следующем формате:

<имя вспомогательной таблицы> - <описание вспомогательной таблицы>.

Где:

Имя вспомогательной таблицы - приводится физическое наименование вспомогательной таблицы.

Описание вспомогательной таблицы - приводится краткое описание вспомогательной таблицы, раскрывающее ее назначение.

Алгоритм работы

Приводится описание шагов алгоритма процесса извлечения | трансформации | загрузки:

  • Шаг 1 алгоритма
  • Шаг 2 алгоритма
  • Шаг N алгоритма

Шаги приводятся в виде пронумерованного списка. Каждый шаг представляет собой словесное описание действий выполняемых процессом на данном шаге.

Выход процесса

Перечисляются все таблицы-приемники, которые пополняются записями в ходе выполнения процесса. Для каждой таблицы приводится ее структура содержащая:

Поле - приводится наименования физическое (имя поля в таблицы БД) поля таблицы. Поля таблицы-приемника определяются следующим образом:

Для процессов извлечения состав полей совпадает с составом полей таблицы-источника и дополняется служебными полями, определенными стратегией ETL.

Для процессов трансформации состав полей таблицы-приемника в области временного хранения совпадает с составом полей соответствующей таблицы области постоянного хранения и дополняется служебными полями.

Для процессов загрузки состав полей таблицы-приемника в области постоянного хранения задан в модели данных.

Краткое описание - приводится краткое описания поля таблицы-приемника раскрывающего суть хранящихся в нем данных.

Тип данных - приводится физический тип данных поля (тип данных БД).


Скачать пример описания ETL процесса.