ПОИСК
Это наилучшее средство для поиска информации на сайте
Самоорганизующиеся карты
из "Анализ финансовых данных "
Перед тем как перейти к более детальному описанию СОК, было бы полезно дать краткий обзор некоторых традиционных методов кластеризации и визуального представления данных без использования специальных математических терминов. [c.21]Существует несколько методов обобщения наборов данных или статистических таблиц. Простейшие из них позволяют получить сводки данных. Например, наименьшее и наибольшее значения в наборе данных, медиану, первый и третий квартили. Такие простые методы очень полезны при обобщении наборов данных небольшой размерности. Обобщать и визуализировать данные большей размерности труднее. В этой книге мы сосредоточимся на методах, которые могут быть использованы для обобщения и визуального представления больших наборов многомерных данных, а также на способах обнаружения и иллюстрации содержащихся в них структур. [c.21]
Обычно выборочные совокупности данных состоят из множества величин. Величины в наборе данных могут соответствовать некоторому набору статистических показателей. Такой набор показателей может быть выражен вектором, что означает просто упорядоченный набор числовых величин. [c.21]
Вектор данных представляет собой точку в n-мерном пространстве. В том случае, когда существует только два или три измерения, достаточно легко бывает построить простые двумерные и трехмерные графики. Однако, если размерность данных больше, изобразить вектор или взаимосвязи между различными векторами графически весьма непросто. Именно поэтому необходимы другие методы визуального представления. [c.21]
В обычных методах визуального представления каждое измерение (компонента) многомерного набора данных влияет на некоторый аспект визуализации и затем результаты объединяются воедино. Эти методы можно использовать для визуального представления разного рода многомерных данных. Главным недостатком большинства методов является то, что они не позволяют сократить количество данных. Если набор данных велик, то изображение, содержащее все элементы этих данных, не будет наглядным. Эти методы могут, однако, быть полезными для иллюстрации сокращенных обобщающих представлений наборов данных. [c.21]
Краткий обзор традиционных методов кластеризации и визуального представления больших наборов данных служит достаточной основой для того, чтобы в следующем разделе перейти к рассмотрению самоорганизующихся карт. [c.22]
Методы кластеризации можно разделить на два основных типа иерархические и неиерархические. Внутри каждого из них существует огромное количество различных подходов и алгоритмов. [c.22]
Существует два вида проекционных методов линейные и нелинейные. [c.23]
Если n-мерный набор данных можно представить как n-мерное пространство, то двумерное пространство (т.е. плоскость) или одномерное пространство (т.е. прямая) будут представлять собой его подпространства. Множество данных может быть представлено в виде подмножества векторов, которые образуют линейное подпространство меньшей размерности. Каждый вектор т-мерного линейного подпространства (где m меньше п) есть линейная комбинация m независимых базисных векторов. Анализ главных компонент является одним из методов изображения векторов данных большой размерности в виде линейной проекции на подпространство меньшей размерности. [c.23]
СОК — это нейросетевой метод, предполагающий обучение без внешнего вмешательства. В нейросетевых методиках, предполагающих обучение с учителем, для нахождения образа или соотношения между данными требуется, чтобы один или более выходов были точно заданы вместе с одним или более входами. СОК, напротив, отображает данные большей размерности на карте меньшей размерности, состоящей из решетки нейронов. [c.25]
Алгоритм СОК основывается на соревновательном обучении без учителя. Он обеспечивает сохраняющее топологию отображение из пространства большой размерности в элементы карты. Элементы карты, или нейроны, обычно образуют двумерную решетку. Таким образом, это отображение является отображением пространства большой размерности на плоскость. Свойство сохранения топологии означает, что СОК распределяет сходные векторы входных данных по нейронам, т.е. точки, расположенные в пространстве входов близко друг к другу, отображаются на близко расположенные элементы СОК. Таким образом, СОК может служить как средством кластеризации, так и средством визуального представления данных большой размерности. [c.25]
Рисунок 0.1. Нейронная сеть, обучаемая с учителем при помощи метода обратного распространения ошибки, в сравнении с самоорганизующейся картой. [c.26]
Вернуться к основной статье