Собственные числа матрицы ковариаций/1,, фигурировавшие в предыдущем разделе, являются квадратами дисперсий вдоль ее главных осей. Если между входами существует линейная зависимость, некоторые из этих собственных чисел стремятся к нулю. Таким образом, наличие малых Я,- свидетельствует о том, что реальная размерность входных данных объективно ниже, чем число входов. Можно задаться некоторым пороговым значением s и ограничиться лишь теми главными компонентами, которые имеют Л>еЛ. Тем самым, [c.134]
Главные компоненты оказываются удобным инструментом и для восстановления пропусков во входных данных. Действительно, метод главных компонент дает наилучшее линейное приближение входных данных меньшим числом компонент - w (Здесь мы, как и прежде, для учета постоянного члена включаем фиктивную нулевую компоненту входов, всегда равную единице - см. Рисунок 5, где справа показана нейросетевая интерпретация метода главных компонент. Таким образом, w - это матрица размерности V x(t/ + l)). Восстановленные по [c.135]
Так как собственные векторы известны, по формуле (7.29) можно определить главные компоненты. При этом обычно довольствуются меньшим, чем л, числом главных компонент, но достаточным, чтобы воспроизвести большую часть дисперсии. По мере выделения главных компонент доля общей дисперсии становится все меньше и меньше. Процедуру вычисления главных компонент прекращают в тот момент, когда собственные значения, соответствующие каждый раз наибольшим дисперсиям, становятся пренебрежимо малыми. Количество выделенных главных компонент г в общем случае значительно меньше числа объясняющих переменных т. По г главным компонентам строится матрица Z. С помощью главных компонент оцениваются параметры регрессии [c.317]
Рассмотрим стандартизованную дисперсионно-ковариационную матрицу четырех активов, которые мы рассматривали в качестве примера применения метода главных компонент [c.311]
Хотя в методе главных компонент и факторном анализе используется дисперсионно-ковариационная матрица, они отличаются от анализа дисперсии — математического ожидания, рассмотренных в гл. 4 и 9, тем, что анализ дисперсии — математического ожидания измеряет общую изменчивость группы переменных без определения особого вклада подгруппы переменных в эту изменчивость. Метод главных компонент определяет и ранжирует подгруппы по их вкладу в совокупную изменчивость. Каждая из этих подгрупп — это "главная компонента" и определяется степенью ковариации между компонентами подгруппы. Вклад каждой из главных компонент в совокупную изменчивость ранжируется согласно совокупной дисперсии подгруппы. [c.494]
Первая стадия — это нахождение собственных векторов и соответствующих собственных значений дисперсионно-ковариационной матрицы С. Мы должны найти собственные векторы, потому что они дают нам линейно независимые комбинации переменных — главные компоненты, которые влияют на совокупную дисперсию. Мы должны найти собственные значения, потому что они показывают, за какую долю совокупного риска отвечает каждая главная компонента. [c.497]
Подобная проблема может появиться при использовании метода главных компонент, базирующегося на ковариационной матрице, составленной из нестандартизованных данных. По этой причине, в случае если данные по разным переменным обладают [c.502]
Теперь, используя метод главных компонент, определим темы совместных изменений, которые имеют влияние на дисперсию, преобразуем дисперсионно-ковариационную матрицу в группу из трех матриц Q, D и Q l и определим совокупную дисперсию, умножая вектор весов 1 х п на матрицы Q, D и Qr п x n и затем полученное произведение — на вектор весов п х 1 [c.508]
Таким же образом, умножая вектор размера денежных потоков на матрицу Q, мы получим вектор разложения отдельных денежных потоков по облигации по влиянию главных компонент [c.508]
D — это диагональная матрица, где элементы диагонали являются собственными значениями (X), записанными в порядке убывания. Умножая транспонированный вектор подверженностей на матрицу D и затем умножая это произведение на вектор подверженностей, мы получаем совокупную дисперсию, выраженную через главные компоненты следующим образом [c.509]
Изучение оптимального решения. Когда найдено оптимальное решение (г 2, К, W), возникает вопрос, в какой степени оно исчерпывает информацию, содержащуюся в исходных данных. Ведь у матрицы С (см. (3.27)) есть другие собственные значения и векторы. По аналогии с методом главных компонент [14, 10.5] для ответа на этот вопрос будем использовать величину [c.138]
Пусть i/ ,..., Up — нормированные собственные векторы матрицы R, расположенные в порядке убывания соответствующих им собственных чисел A,t А,2 . .. А,р. Тогда /-я главная компонента [14, п. 10.5.2] определяется как линейная ком- [c.255]
Сравнивая два способа решения систем (8.60) (непосредственно с матрицей X и с переходом к системе нормальных уравнений), можно сделать вывод, что несогласованные системы (8.60), как правило, лучше решать, используя переход к нормальной системе уравнений. В статистической практике несогласованные системы возникают, когда матрица данных X переопределена, т. е. число объектов (столбцов) в ней больше числа переменных (строк), и при этом линейные уравнения, входящие в систему (8.60), не могут выполняться точно. Но превышение числа объектов над числом переменных — типичная ситуация в регрессионном анализе. Второе условие несогласованности также часто выполняется, так как обычно системы линейных уравнений используются для оценки параметров линейных моделей типа (8.1), являющихся лишь приближением действительных соотношений между переменными (мерой этого приближения как раз и является дисперсия случайной компоненты е). Для обоснования перехода к нормальной системе уравнений существенно и то, что матрица Х Х тесно связана с ковариационной матрицей, которая является исходным объектом для различных видов многомерного анализа (главных компонент, факторного анализа и т. д.). [c.275]
Отбор существенных переменных в пространстве главных компонент рассмотрен в п. 8.3. Как там показано, он приводит к следующим результатам с одной стороны, к некоторому увеличению наблюдаемого значения нормированной суммы квадратов отклонений Д , но одновременно к уменьшению средне-квадратического отклонения от соответствующих истинных значений параметров и к уменьшению средней ошибки прогноза для векторов X, не входящих в матрицу плана X (т. е. в обучающую выборку, см. п. 11.3). Последнего можно достичь и при отборе существенных переменных в исходном пространстве (опять-таки за счет увеличения нормированной суммы квадратов отклонений на обучающей выборке). Фактически отбор переменных означает, что исходное множество из р переменных делится на два подмножества X (р—q) и X (q), состоящих из таких р — q и q переменных, что коэффициенты регрессии при р — q переменных, входящих в первое подмножество, полагаются равными нулю, а коэффициенты при q переменных из второго подмножества оцениваются по мнк (по окончании процедуры отбора для оценки можно использовать и методы, изложенные в 8.2—8.5). [c.280]
В табл. 19.3 показано применение анализа главных компонент. В колонке (часть таблицы под названием "Общности") видно, что значения общностей для каждой переменной от до равны 1, поскольку введены в диагональ корреляционной матрицы. Часть табл. 19.3 под названием собственные значения" дает собственные значения факторов, которые снижаются при переходе от первого фактора к шестому. Собственное значение фактора указывает полную дисперсию, присущую данному фактору. Полная дисперсия для всех шести факторов равна 6, т.е. числу переменных. Дисперсия, обусловленная влиянием первого фактора, равна 2,731 или 45,52% от полной дисперсии (2,731/6). Аналогично, дисперсия, обусловленная влиянием второго фактора, равна (2,218/6) или 36,97% от полной дисперсии, и два фактора вместе объясняют 82,49% полной дисперсии. Для числа факторов, которые необходимо использовать в анализе, существует несколько методов. [c.726]
Веса или коэффициенты значения фактора, используемые для объединения нормированных переменных, получают из матрицы коэффициентов значения фактора. Большинство компьютерных программ позволяет вычислить значения факторов. Только в анализе главных компонент можно вычислить точные значения факторов. [c.730]
Более того, в анализе главных компонент эти значения не взаимосвязаны. В анализе общих факторов оценки значений факторов получают, но нет гарантии, что факторы не будут коррелировать между собой. Значения факторов можно использовать вместо исходных переменных в последующем многомерном анализе. Например, используя матрицу коэффициентов значения фактора в табл. 19.3, можно два значения фактора для каждого респондента. Если нормированные значения переменной умножить на соответствующий коэффициент значения фактора, то получится значение данного фактора. [c.730]
Данные табл. 19.1 можно проанализировать, используя модель анализа общих факторов. С этой целью в диагональ матрицы вместо единиц вставили общности (относительные дисперсии общих факторов). Результаты, представленные в табл. 19.4, аналогичны результатам, полученным в ходе анализа главных компонент, приведенным в табл. 19.3. [c.734]
Значения факторных нагрузок в матрице факторной модели до вращения факторов, данные в табл. немного отличаются от значений факторных нагрузок в табл. 19.3, хотя структура нагрузок аналогична. Однако иногда структура нагрузок в анализе общих факторов отличается от таковой в анализе главных компонент по некоторым нагрузкам переменных на различные факторы. Матрица факторной модели после вращения факторов имеет структуру нагрузок, аналогичную структуре нагрузок в табл. 19.3, что приводит к аналогичной интерпретации факторов. [c.735]
Существует два основных метода проведения факторного анализа — анализ главных компонент и анализ общих факторов. В анализе главных компонент учитывается полная дисперсия. Анализ главных компонент рекомендуется, если основная задача исследователя — определение минимального числа факторов, которые вносят максимальный вклад в дисперсию, чтобы в последующем использовать их во многомерном анализе. В анализе общих факторов факторы оценивают только по общей (для всех факторов) дисперсии. Этот метод подходит, если основная задача — определение факторов, лежащих в основе изучаемой переменной, и общей дисперсии. Этот метод также известен как разложение матрицы. [c.741]
Совпадают ли полученные по ковариационной и корреляционной матрице оценки ортогональной регрессии и главных компонент с точностью до обратного преобразования [c.18]
Имеется несколько подходов, приводящих к методу главных компонент. Поскольку наблюдения, образующие матрицу X, как правило, коррелированы между собой, можно поставить вопрос о ее реальной размерности или о числе реально независимых переменных, образующих эту матрицу. Точнее, мы рассмотрим преобразование переменных X в новое множество попарно некоррелированных переменных, среди которых первая соответствует направлению максимально возможной дисперсии, вторая — направлению максимально возможной дисперсии в подпространстве, ортогональном первому направлению, и т. д. Пусть через [c.322]
Уравнения (31.15) дают точное линейное выражение переменных X через главные компоненты, а коэффициентами этой линейной комбинации служат элементы матрицы А. Если же будут сохранены не все главные компоненты, а некоторое их число, меньшее k, то уравнение (11.15) нужно будет заменить таким [c.327]
Используя матрицу собственных векторов (табл.1) и исходных данных в стандартизированном виде С табл.2), путем алгебраического ум-ыокеняя матрицы передай к матрице коэффициентов для получения уравнений регрессии в главных компонентах С табл.3). [c.6]
Шестая часть посвящена оценкам максимального правдоподобия, которые, конечно, являются идеальным объектом для демонстрации мощи развиваемой техники. В первых трех главах исследуется несколько моделей, среди которых есть многомерное нормальное распределение, модель с ошибками в переменных и нелинейная регрессионная модель. Рассматриваются методы работы с симметрией и положительной определенностью, специальное внимание уделено информационной матрице. Вторая глава этой части содержит обсуждение одновременных уравнений при условии нормальности ошибок. В ней рассматриваются проблемы оценивания и идентифицируемости параметров при различных (не)линейных ограничениях на параметры. В этой части рассматривается также метод максимального правдоподобия с полной информацией (FIML) и метод максимального правдоподобия с ограниченной информацией (LIML), особое внимание уделено выводу асимптотических ковариационных матриц. Последняя глава посвящена различным проблемам и методам психометрики, в том числе методу главных компонент, мультимодальному компо- [c.16]
В настоящей главе изучаются некоторые оптимизационные проблемы, которые встречаются в психометрике. Большинство этих задач связано со структурой собственных векторов и собственных значений ковариационной матрицы. Теоремы, встречающиеся в данной главе, можно разделить на четыре категории. Параграфы 2-7 имеют дело с методом главных компонент. Здесь применяется линейное ортогональное преобразование к р случайным величинам х, . . . , хр так, чтобы в результате получились новые переменные vi,. . . , vp, некоррелированные между собой. Первая главная компонента vi и есть нормированная линейная комбинация переменных из ж с максимальной дисперсией, вторая главная компонента v — нормированная линейная комбинация, имеющая максимальную дисперсию из комбинаций некоррелированных с v и т. д. Можно надеяться, что первые несколько компонент вносят основной вклад в разброс переменных х. На метод главных компонент можно взглянуть и по-другому предположим, что известна ковариационная матрица ж, скажем 7, и попытаемся приблизить ее другой неотрицательно определенной матрицей меньшего ранга. Если же 1 не известна, то воспользуемся оценкой S для Л, построенной по выборке из ж, и будем приближать S. [c.442]
Из полученной дисперсионно-ковариационной матрицы мы находим собственные векторы и связанные с ними собственные значения. На рынке государственных облигаций три главные компоненты отвечают за 99% риска временной структуры. В вышеупомянутых исследованиях Кана, Кана и Гульраджани и Карки и Рейеса первая компонента может быть интерпретирована как изменение общего уровня временной структуры аналогично параллельному смещению, вторая компонента — как изменение угла наклона кривой временной структуры, третья компонента — как изменение изгиба кривой временной структуры. [c.507]
Подход к отбору главных компонент на основе величины собственных чисел эквивалентен регуляризации при вычислении псевдообратной матрицы на ЭВМ [17]. Он может быть использован и при наличии точной линейной зависимости между переменными, которая, однако, замаскирована ошибками округления при представлении данных в ЭВМ. [c.258]
Вопрос о выборе способа численного решения имеет смысл лишь в том случае, когда погрешность вычисления оценок коэффициентов регрессии на ЭВМ сравнима по величине с их статистическим разбросом, который определяется формулой (8.8). Необходимым для этого условием, как мы увидим далее, является наличие мультиколлинеарности. Но при выраженной мультиколлинеарности с точки зрения статистической устойчивости оценок лучше переходить к решению регуляризован-ных (тем или иным способом) систем уравнений (8.60), (8.60 ), (8.60"), (8.60" ). Для систем нормальных уравнений методами регуляризации будут уже рассмотренные метод главных компонент (см. 8.2) и гребневая регрессия (см. 8.5). 8.6.2. Оценки величин возмущений для решений центрированной и соответствующей ей нормальной системы уравнений. Пусть А в = С некоторая система линейных уравнений, матрица А которой имеет размерность q X k (k не обязательно равно q), 6 — вектор размерности fe, правая часть С — вектор размерности q. [c.273]
Диагональ матрицы состоит из единиц, и вся в матрицу факторных нагрузок. Анализ главных компонент рекомендуется выполнять, если основная задача исследователя — определение минимального числа факторов, которые вносят максимальный вклад в дисперсию данных, чтобы в последующем использовать их в анализе. Эти факторы называют компонентами (prin ipal omponent). [c.725]
В качестве примера рассмотрим один из недавних проектов, осуществленный компанией Burke, в котором использовались 16 вопросов (т.е. 16 переменных). На основании корреляционной матрицы проведен анализ главных компонент, в результате которого маркетологи выделили пять факторов или компонент. Дальнейшее вращение факторов методом вари- .паказало, что компонент 5 представляет собой, по сути, компонент "одного [c.738]
А - часть матрицы А, соответствующая им (ее первые k стоблцов) это -коэффициенты по k уравнениям регрессии или k младших главных компонент [c.15]
А - остальная часть матрицы А, это - П—k старших главных компонент или собственно главных компоненет A=E[AE,AF] хА = 0 - гиперплоскость ортогональной регрессии размерности П—k [c.15]
Если ранг г матрицы X меньше k, то у матрицы Х Х будет k — г н левых характеристических корней, а изменения в переменных X мог быть полностью выражены с помощью г независимых переменных. Д же в том случае когда ранг матрицы X совпадает с числом столбце] некоторые из собственных значений Я могут оказаться очень близким к нулю, так что лишь небольшое число векторов, представляющи главные компоненты, будут вносить существенный вклад в дисперси переменных X. Общая вариация для переменных X определяется ка [c.324]
Таким образом, при анализе эмпирических данных мы можем вы-яслить главные компоненты для данной матрицы X и посмотреть, ка-ая часть общей вариации переменных X приходится на различные ком-эненты. Часто наличие взаимных корреляций между данными об эко-эмических или социальных показателях означает, что взятые в не-эльшом количестве компоненты будут заключать в себе значительную элю общей вариации. Поэтому хотелось бы иметь критерий, позволя-щий определить те компоненты, которые следует сохранить для даль- [c.326]