Пропущенные переменные

Сами эффекты at no-существу отражают наличие у субъектов исследования некоторых индивидуальных характеристик, не изменяющихся со временем в процессе наблюдений, которые трудно или даже невозможно наблюдать или измерить. Если значения таких характеристик не наблюдаются, то эти характеристики невозможно непосредственно включить в правые части уравнений регрессии в качестве объясняющих переменных. Но тогда мы имеем дело с "пропущенными переменными" - с ситуацией, которая может приводить к смещению оценок наименьших квадратов. Чтобы исключить такое смещение, в правые части уравнений вместо значений ненаблюдаемых индивидуальных характеристик как раз и вводятся ненаблюдаемые эффекты at. Проиллюстрируем возникновение указанного смещения следующим примером.  [c.245]


Все ответы отсеивались по методу исключения объекта целиком, в соответствии с которым анкеты, в которых было хотя бы одно значение, в анализ не I включались. Такой способ исключения выбран потому, что количество наблюдений с пропущенными переменными было незначительным, а размер выборки достаточно велик. I В процессе статистической корректировки данных вместо категориальных ли подставлены заменители. Кроме того, новые переменные выводились на основе исход-  [c.520]

Замена пропущенного условным (вменение Для определения условного значения или вычисления подходящих ответов на вопросы можно использовать структуру ответов респондентов по другим вопросам. На основе имеющихся данных исследователь пытается определить, какие ответы дал бы конкретный респондент, если бы он ответил на все вопросы. Это можно сделать статистически, на основе собранных данных, определив взаимосвязи между пропущенной переменной и другими переменными. Так, показатель частоты использования товара можно связать с размером семей респондентов, предоставивших информацию по этим показателям. Затем пропущенные данные по использованию товара можно вычислить, воспользовавшись показателем размера семьи респондента. Однако следует помнить, что этот метод очень трудоемок и нередко серьезно искажает данные. Чтобы избежать этого, для вычисления условных значений по пропущенным ответам разработаны сложные статистические процедуры, о чем рассказывается в следующем примере.  [c.531]


В данных о некоторых сделках имелись пропущенные переменные, такие как, например, возраст здания, данные о земельном участке (свободен или сдан в аренду), наличие лифта, состояние, этаж, этажность, расположение относительно сторон света, удаленность от центра города, число дней, потребовавшихся для продажи, дата первой перепродажи. Эти пропущенные данные были введены как фиктивные компоненты, обозначенные в программе переменной X . Оказалось, что использование фиктивных значений зачастую дает лучшие результаты, чем если бы эти значения были опущены вовсе.  [c.186]

Здесь S - нормированная производительность (средняя скорость поступления пакетов, деленная на максимальную производительность 1/m), a G - нормированная пропущенная нагрузка. Таким образом, S - независимая переменная, a G - ее функция. График зависимости G от S имеет вид двузначной кривой (рис. 5.19).  [c.199]

Обсудить процесс "очищения" данных и методы, используемые для работы с пропущенными ответами замена их нейтральными значениями, использование вмененных ответов, исключение наблюдения и попарное исключение переменных.  [c.519]

Рассмотрим исследование, насколько семьи желают учитывать рекомендации служб, занимающихся аудитом расхода электроэнергии (зависимая переменная) с учетом определенных финансовых факторов. В качестве независимых переменных использовались пять финансовых факторов, которыми манипулировали на известных уровнях, их значения благодаря удачно выбранному плану исследования были всегда известны. Однако в анкетах некоторые значения зависимой переменной оказались пропущенными. Их заменили условными (вмененными), вычисленными статистическим методом на основе соответствующих значений независимых переменных. Такая работа с отсутствующими значениями в огромной мере упростила последующий анализ и повысила достоверность его результатов [10].  [c.531]

В результате разные вычисления в ходе анализа могут основываться на разных размерах выборок. Такая процедура обычно применяется при следующих условиях если размеры выборки велики, если количество пропущенных ответов незначительно, если переменные не сильно взаимосвязаны. Следует помнить, что и в этом случае данная может привести к недостоверным и даже нелогичным результатам исследования.  [c.532]


Применение разных методов работы с пропущенными значениями нередко приводит к разным итогам, особенно если пропуск ответов носит систематический характер, а переменные тесно взаимосвязаны. Таким образом, исследователю необходимо свести к минимуму количество пропущенных ответов. Кроме того, прежде чем выбрать конкретный метод для работы с пропущенными значениями, он должен тщательно проанализировать все последствия применения той или иной процедуры.  [c.532]

Эта глава посвящена базовому анализу данных, включающему изучение распределения частот значений переменной (вариационных рядов), кросс-табуляцию (построение таблиц сопряженности) и проверку гипотез. Сначала мы рассмотрим распределение частот и объясним, как с его помощью определить количество выбросов, пропущенных и экстремальных значений данных, а также выявим центральную тенденцию в значениях изучаемых данных, их вариацию и форму кривой распределения. Затем введем понятие проверки гипотез и опишем общую процедуру проверки. Процедуры проверки гипотез делятся на проверку связей и проверку различий. Мы также рассмотрим использование кросс-табуляции для установления связи между двумя или тремя переменными. Хотя природу связи можно увидеть из таблиц, статистики позволяют определить значимость и силу связи. И наконец, мы познакомим вас с методами статистической проверки гипотез, связанных с различиями в одной или двух выборках.  [c.552]

Так называемый управляющий электрод, ярисоединен-]ный к одному из средних слоев. пластинки, не будет пропущен небольшой ток. Вентиль при этом открывается и пропускает ток в одном направлении. С помощью управляемых вентилей можно выпрямлять переменный ток и одновременно регулировать его величину и напряжение преобразовывать постоянный ток в гаеременный желаемой частоты. Управляемые кремниевые вентили на токи до 200 а и рабочие напряжения до 1000 в выпускаются серийно.  [c.52]

Значения, выпадающие из конкретного диапазона, нельзя использовать в анализе, и их необходимо исправить. Представим, например, что респондентов попросили выразить степень их согласия по ряду вопросов относительно стиля жизни по шкале от 1 до 5. Код 9 используется для обозначения пропущенных ответов, а значения 0, 6, 7 и 8 выходят за пределы назначенного диапазона. Существует множество компьютерных пакетов, например APSS, SAS, Minitab и Ex el, с помощью которых можно написать программы выявления по каждой переменной значений, выходящих за пределы определенного а также распечатать код респондента, код переменной, название переменной, номер записи и столбца и выпадающее из необходимого диапазона значение [7]. Все это значительно упрощает процедуру систематической проверки каждой переменной по каждому ее значению, выходящему из определенного диапазона. Правильные ответы можно определить, возвратившись к отредактированному и закодированному варианту анкеты,  [c.530]

Пропущенными ответами responses) называют значения переменных, которые остались неизвестными исследователю либо потому, что ответы респондентов были неоднозначны, либо неправильно или неразборчиво записаны.  [c.531]

Для отбора выпадающих из определенного диапазона данных в этом пакете используется функция TRANSFORM. Преобразующее слово USE и несколько функций и логических операторов обеспечивают мошные возможности для отбора данных. Некоторые программы имеют специальные опции для перечисления данных. Например, может распечатать только наблюдения с пропущенными значениями или значениями, выходящими за пределы конкретного диапазона. Эта программа позволяет составить список всех данных таким образом, что каждый столбец будет содержать все значения по одной переменной. Можно также распечатать все переменные по одному наблюдению перед переменными по следующему наблюдению. Программа AM позволяет распечатать позиции пропущенных и выходящих за пределы диапазона значений, 4D обеспечивает вывод на печать данных в компактной форме карты или образа либо распечатать только содержащие нечисловые символы.  [c.545]

Следующий этап заключается в кодировке данных. Для обозначения конкретного варианта ответа на конкретный вопрос ему присваивается числовой или буквенный код, а также указывается позиция столбца, которую данный код будет занимать. Полезно подготовить кодиро-вочную книгу, содержащую инструкции относительно кодирования и всю необходимую информацию о переменных в этом массиве данных. Закодированные данные переносятся на диски или магнитные ленты либо вводятся в компьютер непосредственно с клавиатуры. Кроме того, для переноса данных применяются методы считывания меток или маркеров с бланков, оптическое сканирование и компьютеризированный сенсорный анализ. Очищение данных заключается в проверке их последовательности и состоятельности и в работе с пропущенными ответами. Эта работа может вестись несколькими способами заменой пропущенных значений нейтральными или условными (вмененными) значениями, методом исключения объекта целиком или попарного исключения переменных. Качество анализа данных нередко можно повысить статистическими корректировками, такими как взвешивание, переопределение переменной и преобразование шкалы. Выбор стратегии анализа данных должен основываться на результатах предыдущих этапов процесса маркетинговых исследований, на известных характеристиках данных, на конкретных свойствах выбранных для использования статистических методов, а также на уровне подготовки исследователя и его философских убеждениях. Статистические методы можно подразделить на одномерные и многомерные,  [c.547]

Базовый анализ данных позволяет глубже в суть явления и является основой как для выполнения последующего анализа, так и для интерпретации данных. Для каждой переменной необходимо распределение частот признаков (вариационный ряд). Результаты анализа отражены в таблицах частот, и накопленных частот для всех значений переменной. Они 1><-казывают наличие выбросов, пропущенных или экстремальных значений. Показатели центра распределениясреднее арифметическое, медиана и мода. Вариация распределения признаков описывается размахом, дисперсией, стандартным отклонением, коэффициентом вариации и межразмахом. Форму кривой распределения определяют асимметрия и эксцесс.  [c.598]

Программный пакет SAS Neural Network Appli ation предназначен для обучения множества разновидностей нейронных сетей и включает в себя графический интерфейс пользователя. Данный пакет предусматривает возможность обучения на месте и настраивается с учетом потребностей пользователя. Основные функции пакета включают в себя многослойные перцептроны, сети радиального базиса, статистические версии обратного распространения ошибки и дискретизации обучаемого вектора, множество встроенных функций активации и ошибок, множественные скрытые слои, прямые связи между входами и выходами, обработку ситуаций с пропущенными данными, категориальные переменные, стандартизацию входных данных и целей и предварительную оптимизацию с помощью случайных начальных данных с целью избежать попадания в локальные минимумы. Обучение осуществляется с использованием стандартных численных алгоритмов оптимизации вместо более трудоемкого метода обратного распространения ошибки.  [c.260]

Эконометрика начальный курс (2004) -- [ c.38 ]