Хранилище данных, реализующее свои функции через подмножество зависимых витрин данных
Рис. 11.10. Хранилище данных, реализующее свои функции через подмножество зависимых витрин данных
Кроме этого, при фильтрации и рафинировании «сырых» данных для такого хранилища обычно теряется очень много информации, которая может быть чрезвычайно полезной при бизнес-анализе. В связи с этим возникло понимание того, что хранилище, помимо механизмов извлечения данных (On-Line Transactional Processing— OLTP), репозитория и витрин, должно иметь соответствующее пространство для организации «сырых» данных и их многомерного анализа в режиме реального времени OLAP.
На сегодняшний день существует два основных подхода к архитектуре хранилищ данных [7]. Это так называемые корпоративная информационная фабрика Инмона (рис. 11.11) и хранилище данных с архитектурой шины Кимболла (рис. 11.12).
Работа корпоративной информационной фабрики (Corporate Information Factory — CIF) начинается со скоординированного извлечения данных из источников. После этого загружается реляционная база данных, содержащая соответствующие очищенные и согласованные («атомарные») данные. Получившееся нормализованное хранилище используется для того, чтобы наполнить информацией дополнительные репозитории презентационных данных, т.е. данных, подготовленных для анализа. Эти репозитории, в частности, включают в себя специализированные хранилища для изучения и добычи данных на базе применения технологий извлечения полезной информации из «сырых данных» (Data Mining — DM). После этого основной и, в случае необходимости, дополнительные репозитории используются для формирования
Корпоративная информационная фабрика Инмона
Рис. 11.11. Корпоративная информационная фабрика Инмона
Хранилище данных с архитектурой шины Кимболла
Рис. 11.12. Хранилище данных с архитектурой шины Кимболла
витрин данных. При таком сценарии конечные витрины данных создаются для обслуживания бизнес-отделов или для реализации бизнес-функций и используют пространственную модель для структурирования суммарных данных. Атомарные данные остаются доступными через нормализованное хранилище данных. Очевидно, что структура атомарных и суммарных данных при таком подходе существенно различается.
Таким образом, можно назвать следующие отличительные характеристики подхода Инмона к архитектуре корпоративных информационных хранилищ данных:
? использование реляционной модели организации атомарных данных и пространственной — для организации суммарных данных;
? итеративный или «спиральный» подход при создании больших хранилищ данных, т.е. «строительство» не сразу, а по частям. Это позволяет вносить изменения в небольшие блоки данных или программных кодов и избавляет от необходимости перепрограммировать значительные объемы данных. То же самое можно сказать и о потенциальных ошибках: они также будут локализованы в пределах сравнительно небольшого массива без риска испортить все данные хранилища разом;
? организация атомарных данных, что обеспечивает высокую степень детальности интегрированных данных и соответственно предоставляет корпорациям широкие возможности для манипулирования ими и изменения формата и способа представления данных по мере необходимости;
? рассмотрение хранилища данных в качестве концептуально и физически целостного объекта, а не механической коллекции разрозненных витрин данных.
Альтернативным подходом к архитектуре хранилищ данных является подход Кимболла — хранилище с архитектурой шины (Data Warehouse Bus — DWB) (см. рис. 11.12). В этой модели первичные данные преобразуются в информацию, пригодную для использования, на этапе подготовки данных. При этом обязательно принимаются во внимание требования к скорости обработки информации и качеству данных. Как и в модели Инмона, подготовка данных начинается со скоординированного извлечения данных из источников. Ряд операций совершается централизованно, например поддержание и хранение общих справочных данных, другие действия могут быть распределенными — в зависимости от поступившего запроса.
Область представления пространственно структурирована, при этом она может быть централизованной или распределенной. Пространственная модель хранилища данных содержит ту же атомарную информацию, что и нормализованная модель Инмона, но информация структурирована по-другому, чтобы облегчить ее использование и выполнение запросов. Эта модель включает в себя как атомарные данные, так и обобщающую информацию (агрегаты в связанных таблицах или многомерных кубах) в соответствии с требованиями производительности или пространственного распределения данных с заданным уровнем декомпозиции агрегатов. В связи с этим запросы в процессе выполнения обращаются к все более низкому уровню детализации без дополнительного перепрограммирования со стороны пользователей или разработчиков приложения.
В отличие от CIF-подхода Инмона, здесь пространственные модели строятся для обслуживания динамичных бизнес-процессов (которые, в свою очередь, связаны с бизнес-показателями или бизнес-событиями), а не статичных бизнес-отделов. Например, все данные, которые должны быть доступны для общекорпоративного использования, вносятся в пространственное хранилище данных только один раз, в отличие от CIF-подхода, в котором их пришлось бы трижды копировать в витрины данных разных отделов. После того как в хранилище появляется информация об основных бизнес-процессах, консолидированные пространственные модели могут выдавать их перекрестные характеристики. Матрица корпоративного хранилища данных с архитектурой шины с коммутацией, построенной по технологии «звезда», выявляет и усиливает связи между текущими количественными и качественными показателями бизнес-процессов (фактами) и их описательными атрибутами (метриками).
В качестве оригинальных особенностей подхода Кимболла можно отметить: использование двухуровневой архитектуры, которая включает в себя стадию подготовки данных, недоступную для конечных пользователей, и хранилище данных с архитектурой шины как таковое. В состав последнего входят несколько витрин атомарных данных, несколько витрин агрегированных данных и персональная витрина данных, но оно не содержит одного физически целостного или централизованного хранилища данных — это дает гибкость при использовании данных и пространственной модели организации данных с архитектурой «звезда» (Star Scheme).
Таким образом, хранилище данных с архитектурой шины обладает следующими характеристиками:
? является пространственным;
? включает в себя как данные о транзакциях, так и суммарные данные;
? содержит витрины данных, посвященные только одной предметной области или имеющие только одну таблицу фактов (Fact Table);
? может содержать множество витрин данных в пределах одной базы данных, отражающих показатели бизнес-процессов.
Хранилище данных Кимболла не является единым физическим репозиторием (в отличие от подхода Инмона). Это виртуальное хранилище — коллекция витрин данных, каждая из которых имеет архитектуру типа «звезда».
На рис. 11.13 показана схема типизированного корпоративного хранилища данных. Вопросы его проектирования, выбора
Схема типизированного корпоративного хранилища данных
Рис. 11.13. Схема типизированного корпоративного хранилища данных
архитектуры, реализации в том или ином виде (CIF или ВЦИ) — это серьезный проект корпоративного масштаба, охватывающий все отделы и обслуживающий нужды всех пользователей корпорации.
Посмотреть оригинал