logo search
_кпп_ответы

27. Технология Data Mining.

Data Mining — совокупность методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пиатецким-Шапиро.

Цель этого поиска — представить данные в виде, четко отражающем бизнес-процессы, а также построить модель, при помощи которой можно прогнозировать процессы, критичные для планирования бизнеса (например, динамику спроса на те или иные товары или услуги либо зависимость их приобретения от каких-то характеристик потребителя).

В основе - концепция шаблонов, отражающих закономерности, свойственные подвыборкам данных.

Важная особенность Data Mining - нестандартность и неочевидность разыскиваемых шаблонов. Средства Data Mining отличаются тем, что вместо проверки заранее предполагаемых пользователями взаимозависимостей они на основании имеющихся данных способны находить такие взаимозависимости самостоятельно и строить гипотезы об их характере.

Применение Data Mining оправданно при наличии достаточно большого количества данных.

Cогласно Дюку, выделяют 5 стандартн типов закономерностей, выявляемых методами DM:

На основе классиф-ии Дюка можно выделить след. методы исследования данных в DM:

Задачи DataMining:

1) описательные (самое главное – дать наглядное описание имеющихся скрытых закономерностей): поиск ассоциативных правил, группировка объектов, построение регрессионной модели.

2) предсказательные (самое главное – предсказание случаев, для кот-ых данных еще нет): классификация объектов, построение регрессионной модели.