Ошибки статистического наблюдения

ОШИБКИ СТАТИСТИЧЕСКОГО НАБЛЮДЕНИЯ. МЕТОДЫ КОНТРОЛЯ ДАННЫХ НАБЛЮДЕНИЯ  [c.38]

Ошибки статистического наблюдения  [c.21]


Ошибки регистрации — это отклонения между значением показателя, полученного в ходе статистического наблюдения, и фактическим, действительным его значением. Такой вид ошибок имеет место и при сплошном, и при несплошном наблюдениях. Ошибки регистрации бывают случайными и систематическими. Случайные ошибки — это результат действия различных случайных факторов (например, цифры переставлены местами, перепутаны соседние строки или графы при заполнении статистического формуляра). Систематические ошибки регистрации всегда имеют одинаковую тенденцию либо к увеличению, либо к уменьшению значения показателей по каждой единице наблюдения, и поэтому величина показателя по совокупности в целом будет включать в себя накопленную ошибку. Примером статистической ошибки регистрации при проведении социологических опросов может служить округление возраста населения, как правило, на цифрах, оканчивающихся на 5 и 0. Многие  [c.21]


Расхождение между величиной какой-либо характеристики (показателя), полученной в результате статистического наблюдения и обработки данных, и ее действительными размерами называется ошибкой статистических данных. Она состоит из двух частей ошибки наблюдения и ошибки обработки данных. Чем меньше ошибка статистических данных, тем выше их достоверность.  [c.36]

Статистические органы принимают все меры, чтобы свести ошибки наблюдения к минимуму, другими словами, обеспечить достоверность данных. Для этой цели большое внимание уделяется научной организации статистического наблюдения, исключению возможных источников ошибок путем обучения или инструктажа счетных работников, составления таких форм и инструкций по их заполнению, которые были бы полностью понятны для заполняющих их лиц, проверки хода наблюдения. Органы государственной статистики ведут большую работу также на предприятиях, стройках, в совхозах и колхозах, помогая правильно поставить учет, верно составить отчетность, планомерно проверить правильность составленных отчетов. Большое участие в этой работе принимает также общественность.  [c.38]

На первом этапе статистического исследования формируются первичные статистические данные, или исходная статистическая информация, которая является фундаментом будущего статистического здания. Чтобы здание было прочным, добротной и качественной должна быть его основа. Если при сборе первичных статистических данных допущена ошибка или материал оказался недоброкачественным, это повлияет на правильность и достоверность как теоретических, так и практических выводов. Поэтому статистическое наблюдение от начальной до завершающей стадии — получения итоговых материалов — должно быть тщательно продуманным и четко организованным.  [c.12]

Чтобы хорошо организовать проверку, нужно представлять характер возможных ошибок. Все ошибки наблюдения можно назвать ошибками регистрации. Но они имеют разный характер и по-разному сказываются на результатах статистического исследования. Ошибки могут быть случайными и систематическими. Те и другие чаще всего возникают при опросе, но могут быть допущены и при непосредственном или документальном наблюдении.  [c.39]


Оценку генерального параметра получают на основе выборочного показателя с учетом ошибки репрезентативности. В другом случае в отношении свойств генеральной совокупности выдвигается некоторая гипотеза о величине средней, дисперсии, характере распределения, форме и тесноте связи между переменными. Проверка гипотезы осуществляется на основе выявления согласованности эмпирических данных с гипотетическими (теоретическими). Если расхождение между сравниваемыми величинами не выходит за пределы случайных ошибок, гипотезу принимают. При этом не делается никаких заключений о правильности самой гипотезы, речь идет лишь о согласованности сравниваемых данных. Основой проверки статистических гипотез являются данные случайных выборок. При этом безразлично, оцениваются ли гипотезы в отношении реальной или гипотетической генеральной совокупности. Последнее открывает путь применения этого метода за пределами собственно выборки при анализе результатов эксперимента, данных сплошного наблюдения, но малой численности. В этом случае рекомендуется проверить, не вызвана ли установленная закономерность стечением случайных обстоятельств, насколько она характерна для того комплекса условий, в которых находится изучаемая совокупность.  [c.193]

Модели временных рядов, как правило, оказываются сложнее моделей пространственной выборки, так как наблюдения в случае временного ряда вообще говоря не являются независимыми, а это значит, что ошибки регрессии могут коррелировать друг с другом, т. е. условие (1.4) вообще говоря не выполняется. В последующих главах мы увидим, что невыполнение условия (1.4) значительно усложняет статистический анализ модели.  [c.16]

В экономико-математическом моделированиивероятностных моделях, экономико-статистических моделях) В. отражается стохастическим членом модели, который называется "ошибкой", "вектором помех", а также "остатком". Этот член, во-первых, улавливает неучтенные моделью факторы, поскольку в модель можно включать лишь ограниченное число существенных переменных (хотя эффект каждого из неучтенных факторов — иначе он был бы признан существенным — невелик, в сумме они оказывают определенное воздействие на выходы модели) во-вторых, он включает непредсказуемый элемент случайности человеческих поступков и реакций и в-третьих, ошибки измерения или наблюдения, следствия неточности информации, имеющейся при разработке модели.  [c.52]

И наконец, следует уточнить, в соответствии с каким именно критерием качества аппроксимации неизвестных величин среднедушевых семейных денежных сбережений у (к) и уср (x) с помощью функции В0 + BI мы будем определять наилучший способ прогноза ср (х) по х. Наиболее обоснованное и точное решение этого вопроса опирается на знание вероятностной природы (а именно типа закона распределения вероятностей) остатков е в модели (В.З). Так, например, известно [14, с. 281], что если предположить, что при любых значениях к распределение вероятностей остатков е описывается (0, а2)-нормальным законом (т. е. нормальным законом со средним значением, равным нулю, и с некоторой, вообще говоря, неизвестной, но постоянной, т. е. не зависящей от х дисперсией а2) и что остатки е (дсг-), i = 1, 2,. .., п, характеризующие различные наблюдения, статистически независимы, то наименьшая ошибка прогноза (/ср (х) с помощью модели / (х) F (т. е. функция / (х) подбирается из класса F) обеспечивается требованием метода наименьших квадратов  [c.17]

Систематические ошибки репрезентативности - это неточности, которые аудитор может получить в процессе статистического выборочного наблюдения по вполне определенным причинам. Такие ошибки могут возникнуть как следствие преднамеренного или непреднамеренного искажения информации. Систематические ошибки репрезентативности тоже могут привести к искажению полученных результатов (как в сторону увеличения, так и в сторону уменьшения), по которым аудитор будет судить о всей проверяемой совокупности. Таким образом, в основе систематических ошибок репрезентативности лежит именно выборка, именно сам несплошной характер наблюдения.  [c.51]

Статистические оценки. Рассмотрим общие вопросы, связанные со статистическими оценками. Ошибка опыта, точнее, дисперсия воспроизводимости, служит основой для всех суждений о качестве модели и ее элементов. Поэтому естественно, прежде всего, выяснить, как она оценивается. Основное условие для экспериментальной оценки ошибки опыта — это параллельные наблюдения. При пассивной регистрации какого-либо процесса приходится надеяться на то, что за длительное время процесс будет несколько раз возвращаться в одно и то же состояние. Но даже если это и так, все равно существует ряд трудностей с оценкой ошибки. Другое дело, когда объект управляем, а эксперимент планируется. Тогда мы сами можем решить вопрос о выборе числа параллельных опытов и их расположении.  [c.229]

Значения экономических переменных определяются обычно влиянием не одного, а нескольких объясняющих факторов. В таком случае зависимость у =Дх) означает, что х - вектор, содержащий т компонентов х = (х,, х2,. .., хт). Задача оценки статистической взаимосвязи переменных у и х"= (х(, х,,. .., хга) формулируется аналогично случаю парной регрессии. Записывается функция у = Да,х)+е, где а - вектор параметров, е - случайная ошибка. Предполагается, что эта функция связывает переменную у с вектором независимых переменных х для данных генеральной совокупности. Как и в случае парной регрессии, предполагается, что ошибки е являются случайными величинами с нулевым математическим ожиданием и постоянной дисперсией е( и е статистически независимы при ij. Кроме того, для проверки статистической значимости оценок а обычно предполагается, что ошибки е( нормально распределены. Поданным наблюдений выборки размерности л требуется оценить значения параметров а, то есть провести параметризацию выбранной формулы (спецификации) зависимости.  [c.307]

Однако, схватывая в своих исходных принципиальных положениях наиболее адекватную онтологическую модель хода со бытии, статистический метод все же не гарантирует, что при своем применении он всегда воспроизводит действительный ход этих событий и вскрывает совершенно точно их связи и закономерности. Статистический метод есть все же только метод нашего познания, встречающий при своем применении ряд трудностей, которые лишают его возможности выявить строго и точно связи и закономерности действительности. Эти трудности лежат не только в сложности действительности, но и в качестве материала, в невозможности иметь то количество единичных наблюдений, которое необходимо, и, наконец, в наших субъективных ошибках.  [c.538]

Предположим, что при фиксированных значениях объясняющих переменных в и наблюдениях, что соответствует фиксированным значениям векторов xt, случайные ошибки el,...,en статистически  [c.314]

Предложенный метод требует ответа на ряд вопросов. Необходимо установить, что формальная оценка b из (7.44) представляет собой наилучшую линейную несмещенную оценку вектора р из (7.42), где наилучшая относится к выборочной и предварительной информации одновременно. На первый взгляд эта задача кажется тупиковой, поскольку модель (7.42) объединяет два качественно различных типа данных, а именно выборочные наблюдения для у и X и несколько априорных значений статистических оценок, указанных в г и R. В ряде обычных прикладных ситуаций переменная Y, а следовательно, и возмущение и, измеряются в постоянных долларах, приходящихся на душу населения в год, в то время как ошибка и относится к эластичности от дохода, и следовательно, является безразмерной величиной. Однако применение обобщенного метода наименьших квадратов означает, что минимизируется взвешенная сумма квадратов  [c.221]

Оценка коэффициентов. Сущность метода оценки коэффициентов в том, что сначала аудитор рассчитывает средний коэффициент (скажем, как отношение ошибки к балансовой стоимости), а не абсолютные значения этой ошибки (например, рассчитываются проценты по отношению к стоимостной оценке каждой отобранной единицы наблюдения), а затем ошибка в процентном выражении экстраполируется на совокупность и выявляется размер общей ошибки в стоимостном выражении. Разумеется, и этот метод не свободен от недостатков. Но его применение вполне оправдано, если разброс процентных соотношений равномерен по всей совокупности. И если обстоятельства позволяют, то аудитор вполне может воспользоваться таким методом распространения результатов выборки на всю совокупность, он тоже вполне экономичен по соотношению затрат времени и результатов статистического наблюдения.  [c.58]

При способе основного массива обследованию подвергается основной массив - та часть единиц, которая вносит наибольший вклад в изучаемое явление. Часть совокупности, о которой заведомо известно, что она не играет большой роли в характеристике совокупности, исключается из наблюдения, т. е. при этом методе отбираются и обследуются наиболее крупные единицы. Логика метода состоит в том, что крупные единицы могут практически определять интересующие нас статистические показатели. Например, вследствие концентрации производства в отрасли несколько наиболее крупных предприятий могут давать основной объем продукции, в то время как большая масса мелких предприятий выпускает ее незначительную часть. Это бывает при высоком уровне монополизма в отрасли экономики, особенно в условиях региона. Так, в Санкт-Петербурге в 1991 г. всего лишь на 7 предприятиях машиностроения и металлообработки, которые составляли 1,3% от числа промышленных предприятий города, работало около 20% работников. На каждом из этих предприятий было занято свыше 10 тыс. человек, в эту группу входили такие гиганты, как Кировский завод - 25 тыс. человек, Ленинец - 22,9 тыс. человек и т. д. В подобных условиях логично наблюдать только наиболее крупные предприятия, а мелкие либо вообще игнорировать, либо провести досчет приходящейся на них доли продукции. Поскольку их доля невелика, то ошибка  [c.26]

Перед отклонением нашей начальной гипотезы и принятием идеи, что рыночные цены - не полностью случайны, мы должны, во-первых, проверить, что наблюдение "статистически значимо". Проще говоря, это означает, что отклонение от экспоненты могло быть результатом малости набора данных или других, не идентифицированных факторов, не связанных с данными. Очевидное отклонение от показательного распределения не было бы, в этом случае подлинным, а явилось бы следствием ошибки, артефактом наших измерений или просто случайностью. Чтобы попытаться избежать этих ловушек, мы, нуждаемся в тестах, которые сообщают нам о том, что наблюдаемое отклонение существенно и заслуживает доверия. Действительно, бритва Оккама говорит, что мы должны предпочесть более простую гипотезу о случайности, пока сила очевидности не заставит изменить наши убеждения.  [c.76]

В отсутствие каких-либо готовых схем для оптимального выбора модели исследователь должен опробовать различные статистические критерии согласия. Так, Утанс и Муди [270] оценивали риск предсказания, полученный при различных архитектурах сети, а Каяма и др. [157] находили общее число дублирующих друг друга элементов в скрытом слое. Мы же просто сравнивали величины квадратного корня из среднеквадратичной ошибки (RMSE) на тестовом множестве, состоящем из 60 наблюдений, относящихся к последним 5 годам интервала наблюдений (1981-85 гг.). Для дальнейшей работы была взята та архитектура сети, которая давала наименьшее RMSE.  [c.140]

Большая часть времени руководителя расходуется на контроль текущих показателей выхода, а внимание наблюдателя более направлено на итоговые суммы, в том числе и на конечные показатели. По ним, в частности, он обязан провести статистическое выборочное наблюдение, оценить генеральную совокупность, имеющиеся отклонения (погрешности, ошибки) и некор-  [c.22]

ОЦЕНКА ТОЧЕЧНАЯ (англ, point estimation) — статистическая оценка, которая определяется одним числом. При выборке малого объема точечная оценка неизвестного параметра может значительно отличаться от оцениваемого параметра, т. е. приводить к грубым ошибкам. Поэтому при небольшом числе наблюдений следует пользоваться интервальными оценками.  [c.448]

Стандартные ошибки предсказания могут быть рассчитаны с помощью добавления в модель фиктивных переменных по методу Сал-кевера. Пусть имеется возможность получения статистических данных за р моментов на прогнозном периоде. Тогда строится такая же регрессия для совокупного набора данных выборки и прогнозного периода, но с добавлением фиктивных переменных Dt+i, Dt+2,. . ., Dt+p. При этом Dt+i = 1 только для момента наблюдения (t + i). Для всех других моментов Dt+i = 0. Доказано, что оценки коэффициентов и их стандартные ошибки для всех количественных переменных Xj в точности совпадают со значениями, полученными по регрессии, построенной только по данным выборки. Коэффициент при фиктивной переменной Dt+i будет равен ошибке предсказания в момент (t + i). A стандартная ошибка коэффициента равна стандартной ошибке предсказания.  [c.295]

Если статистика Дарбина-Уотсона близка к двум, мы считаем отклонения от регрессии случайными (хотя в действительности они могут и не быть таковыми). Это означает, что линейная функция, вероятно, отражает реальную взаимосвязь скорее всего, не осталось существенных неучтенных факторов, влияющих на зависимую переменную, и какая-либо другая, нелинейная формула не превосходит по статистическим характеристикам данную линейную. Даже если доля дисперсии зависимой переменной, объясненной с помощью регрессии, при этом мала, можно ожидать, что другая часть этой дисперсии, оставшаяся необъясненной, порождена действием множества различных малых факторов и может быть описана как случайная нормальная ошибка. Но как определить, достаточно ли близка величина статистики D W к двум Для этого имеются специальные таблицы, позволяющие при данном числе наблюдений и объясняющих переменных, для заданного уровня значимости, найти критические значения статистики Дарбина-Уотсона.  [c.324]

Соотношение коэффициента и его стандартной ошибки, или /-статистика (в последнем случае 0,017 0,004 = 4,25), важна для определения статистической значимости зависимости функции от соответствующей объясняющей переменной. Вообще говоря, нулевая гипотеза для /-статистики и, соответственно, коэффициента регрессии проверяется с помощью таблиц распределения Стьюдента. В данном случае ясно без таблиц, по общему порядку цифр, что коэффициент при GNP, равный 0,017, статистически значим (так как t Np = 4,25), а коэффициент при RSR, равный (-0,411), статистически незначим. Его /-статистика / =-0,411/0,947 -0,434 слишком мала по абсолютной величине. Если уточнить по таблицам, уровень значимости здесь составляет примерно. Следовательно, если в действительности (для генеральной совокупности) этот коэффициент равен нулю, то вполне вероятно (с вероятностью 2/3) для данного размера выборки (60 наблюдений) при двух объясняющих переменных получить такую (-0,434) или большую по модулю /-статистику данного коэффициента регрессии. Для оценки значимости коэф-  [c.336]

Одно из предположений классической регрессионной модели состоит в том, что случайные ошибки некоррелированы между собой и имеют постоянную дисперсию. В тех случаях, когда наблюдаемые объекты достаточно однородны, не сильно отличаются друг от друга, такое допущение оправдано. Однако во многих ситуациях такое предположение нереалистично. Например, если исследуется зависимость расходов на питание в семье от ее общего дохода, то естественно ожидать, что разброс в данных будет выше для семей с более высоким доходом. Это означает, что дисперсии зависимых величин (а следовательно, и случайных ошибок) не постоянны. Это явление в эконометрике называется гетерос-кедастичностью (в отличие от гомоскедастичности — равенства дисперсий). Кроме того, при анализе временных рядов в довольно редких случаях можно считать, что наблюдения некоррелированы во времени. Как правило, значение исследуемой величины в текущий момент времени статистически зависит от ее значений в прошлом, что означает наличие корреляции между ошибками. Поэтому естественно изучать модели регрессии без предположения, что V(e) = и2/.  [c.154]

Эта глава посвящена изучению двух важных классов обобщенных регрессионных моделей. Первый составляют модели с гетероске-дастичностью. Этот термин применяется в ситуации, когда матрица ковариаций вектора ошибок является диагональной, но элементы главной диагонали, вообще говоря, различны. Иными словами, ошибки в разных наблюдениях некоррелированы, но их дисперсии — разные. Модели второго класса, как правило, используются при анализе данных, имеющих характер временных рядов. В этих случаях часто приходится принимать во внимание то обстоятельство, что наблюдения в разные моменты времени статистически зависимы (типичный пример — ежедневный обменный курс доллара по отношению к рублю). Следовательно, ошибки, относящиеся к разным наблюдениям (разным моментам времени), могут быть коррелированы, и ковариационная матрица вектора ошибок не является диагональной. Формально проблему оценивания неизвестных параметров решает обобщенный метод наименьших квадратов, рассмотренный в предыдущей главе. Однако, как там отмечалось, его применение требует знания матрицы ковариаций П вектора ошибок, что бывает крайне редко. Поэтому, помимо те-  [c.167]

При анализе временных рядов часто приходится учитывать статистическую зависимость наблюдений в разные моменты времени. Иными словами, для многих временных рядов предположение о некоррелированности ошибок не выполняется. В этом разделе мы рассмотрим наиболее простую модель, в которой ошибки образуют так называемый авторегрессионный процесс первого порядка (точное определение будет дано ниже). Как было показано ранее (глава 5), применение обычного метода наименьших квадратов к этой системе дает несмещенные и состоятельные оценки параметров, однако можно показать (см., например, Johnston and DiNar-do, 1997), что получаемая при этом оценка дисперсии оказывается смещенной вниз, что может отрицательно сказаться при проверке гипотез о значимости коэффициентов. Образно говоря, МНК рисует более оптимистичную картину регрессии, чем есть на самом деле.  [c.184]

С февраля 1926 г. Евгений Евгеньевич — консультант Конъюнктурного института Наркомата финансов СССР, где начал заниматься изучением циклов в экономиках капиталистических стран. Одновременно заведовал сельскохозяйственной секцией Института экспериментальной статистики и статистической методологии ЦСУ СССР. После дела Трудовой крестьянской партии и закрытия Конъюнктурного института, подчинения ЦСУ Госплану СССР (1930) Е. Е. Слуцкий работал в институтах, связанных с геофизикой и метеорологией. В Институте геофизики и метеорологии предметом его исследования стало влияние солнечной активности на урожаи. В связи с недостаточной продолжительностью наблюдений за урожайностью (таблица В. Г. Михайловского охватывала динамику урожаев в России за 115 лет) он использовал ряд цен на пшеницу в Англии за 369 лет, составленный лордом Беверид-жем. Кроме этого, Е. Е. Слуцкий изучил годовые приросты 12 секвой за 2000 лет (именно на такой срок была рассчитана таблица солнечной активности Фрица). К сожалению, результаты этой работы погибли в период войны. В начале 1930-х гг. Евгений Евгеньевич занимался также проблемой связанных динамических рядов. Он вывел формулу средней квадратической ошибки коэффициента корреляции для случая, когда наблюдения не являются взаимонезависимыми, а представляют связанные ряды (случай стационарных временных рядов). К середине 20-х гг. относится еще одно достижение Слуцкого в журнале Metron была опубликована его статья о стохастической асимптоте и пределе [29], которая составила основу теории случайных функций — одного из важнейших направлений современной теории вероятностей.  [c.15]

Сначала мы рассмотрим общую модель с взаимодействиями, используемую в факторных планах. Дисперсионный анализ (или кратко ANOVA) применяется при обработке результатов факторного эксперимента. Показаны отношения между дисперсионным и регрессионным анализом. Обсуждаются рандомизация и разбиение на блоки в имитации. Исследуются предпосылки ANOVA, преобразование и кодирование. Следующий параграф -посвящен частному виду факторных планов, а именно таким планам, в которых все факторы имеют только по два значения. Приводится модель для таких 2fe планов вместе с анализом наблюдений. Затем идет параграф, в котором говорится только о дробных репликах от полного факторного эксперимента типа 2k, строящихся так, что вся важная информация сохраняется. Мы показываем, как можно выбрать конкретную структуру смешивания эффектов. Мы даем планы для модели только главных эффектов, планы для оценки главных эффектов в присутствии взаимодействий и планы для оценки как главных эффектов, так и двухфакторных взаимодействий (так называемые планы разрешения III, IV и V соответственно). Далее следует параграф, в котором показано, как получить независимую оценку дисперсии ошибки опыта о2 при частичном дублировании плана. Приводится метод переоценки эффектов с помощью дополнительной информации от повторения плана. Вместо дублирования наблюдений можно объединить суммы квадратов некоторых эффектов. Оба метода можно сочетать с проверкой соответствия модели. Если модель не годится, мы можем перейти к модели более высокого порядка. Показано, что планы этой главы легко достраиваются до планов более высокого порядка (это так называемые композиционные, или последовательно строящиеся, планы). Наконец, в следующем параграфе обсуждаются планы для поиска нескольких важных факторов среди многих мыслимых важных факторов, для так называемого отсеивания. Рассматривается интерпретация дробных факторных планов, когда некоторые факторы не могут быть важными. Приводятся также планы со случайным отбором факторных комбинаций и их анализ. Даются и так называемые сверхнасыщенные планы — систематические (т. е. не случайные) планы с меньшим числом наблюдений, чем эффектов. Затем мы демонстрируем несколько вариантов дробных реплик, в которых факторы объединяются в группы для уменьшения числа факторов и наблюдений. Исследуются предпосылки таких планов группового отсеивания и устанавливается, что они не ограничительны. Четыре типа планов группового отсеивания сравниваются между собой. Глава заканчивается кратким обсуждением теории статистических решений и проблемы многих откликов. Приводится литература по этим двум и по многим другим вопросам.  [c.8]

Смотреть страницы где упоминается термин Ошибки статистического наблюдения

: [c.246]    [c.59]    [c.3]    [c.19]