Данные, помещаемые в хранилище, должны отвечать определенным требованиям: предметной ориентированности, интегрированности, поддержки хронологии и неизменяемости (табл. 11.1)

ТРОФИМОВ В. В. - ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Распределенная обработка данных обязательно предполагает наличие банков и баз данных. Однако база данных — это не место, куда просто складывают данные: ими нужно пользоваться, актуализировать, изменять форматы и связи и совершать множество других действий. Если бессистемно наполнять базу информацией, то через некоторое время ею невозможно будет пользоваться — времени на поиск нужных данных будет уходить все больше и больше, пространство базы переполнится. В связи с этим данные необходимо «очищать» и структурировать, а для эффективной работы с ними требуются системы управления работой баз данных (Data Base Management System — DBMS). Индустрия создания баз данных и СУБД берет свое начало в 1960-е гг. и к настоящему времени достаточно развита, однако термин «хранилище данных» в современном понимании его появился относительно недавно. Идея хранилищ данных оказалось востребованной, так как во многих видах государственной, деловой, научной, социальной деятельности необходимы тематически объединенные и исторически очищенные совокупности данных. При этом постоянно возрастала потребность в более дешевых, точных и структурированных данных, а также большей оперативности получения, обработки и интегрирования данных.

К концу 1980-х гг., когда была в полной мере осознана необходимость интеграции корпоративной информации и надлежащего управления этой информацией, появились технические возможности для создания соответствующих систем, которые первоначально были названы «хранилищами информации» (Information Warehouse). Лишь в 1990-е гг., с выходом книги Билла Инмона, хранилища получили свое нынешнее наименование «хранилища данных» (Data Warehouse — DW).

Инмон определил хранилища данных как предметно-ориентированные, интегрированные, неизменные, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли единого и единственного источника истины, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений.

В основе концепции хранилищ данных лежат три основополагающие идеи:

1) интеграция ранее разъединенных детализированных данных (исторические архивы, данные из традиционных систем обработки документов, разрозненных баз, данных, данные из внешних источников) в едином хранилище данных;

2) тематическое и временное структурирование, согласование и агрегирование;

3) разделение наборов данных, используемых для операционной (производственной) обработки, и наборов данных, применяемых для решения задач анализа.

Данные, помещаемые в хранилище, должны отвечать определенным требованиям: предметной ориентированности, интегрированности, поддержки хронологии и неизменяемости (табл. 11.1)

Таблица 11.1 Требования к данным, помещаемым в хранилище

Требование

Характеристика

Предметная

ориентированность

Все данные о некоторой сущности (бизнес-объекте) из некоторой предметной области собираются из множества различных источников, очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес-анализе форме

Интегрированность

Все данные о разных бизнес-объектах взаимно согласованы и хранятся в едином общекорпоративном хранилище

Поддержка хронологии

Данные хронологически структурированы и отражают историю за период времени, достаточный для выполнения задач бизнес-анализа, прогнозирования и подготовки принятия решения

Неизменяемость

Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное хранилище, остаются неизменными и используются исключительно в режиме чтения

Хранилище данных выполняет множество функций, но его основное предназначение — предоставление точной информации в кратчайшие сроки и с минимумом затрат. Для успешного же продвижения Web-среды электронного бизнеса требуется, чтобы доступ к информации был недорогим и не занимал много времени.

Понятие «хранилище данных» в первоначальном понимании было основано на понятии «распределенной витрины данных» (Distributed Data Mart — DDM). Вследствие этого в классическом исполнении хранилище данных было прежде всего репозиторием (сквозной базой данных) информации предприятия. Среда хранилища была предназначена только для чтения и состояла из детальных и агрегированных данных, которые полностью очищены и интегрированы. Кроме того, в репозитории хранится обширная и детальная история данных на уровне транзакций. С точки зрения архитектурного решения такое хранилище данных реализует свои функции через подмножество зависимых витрин данных (рис. 11.10).

Достоинствами архитектуры классического хранилища данных являются:

? непротиворечивость информации;

? один набор процессов извлечения и бизнес-логики использования;

? общая семантика;

? централизованная, управляемая среда;

? легко создаваемые по шаблонам и наполняемые витрины данных;

? единый репозиторий метаданных;

? многообразие механизмов обработки и представления данных.

К недостаткам можно отнести большие затраты по реализации, высокую ресурсоемкость в масштабе всего предприятия, потребность в сложных сервисных системах, рискованный сценарий развития, когда все данные и метаданные находятся в одном репозитории и в неблагоприятном случае могут быть потеряны.