Однако правильный выбор объема сети — это еще не все. Надо определить значения всех весов, т.е. сеть должна научиться осуществлять нужное отображение. Для этого нужно выбрать эффективный алгоритм обучения. Самое простое здесь — взять классический алгоритм обратного распространения. Однако, часто более эффективными оказываются методы второго порядка. В последнее время было предложено большое количество новых алгоритмов, умень- [c.48]
И 24] ГРАДИЕНТНЫЙ МЕТОД ВТОРОГО ПОРЯДКА 201 [c.201]
Градиентный метод второго порядка [c.201]
В 18—23 были описаны методы построения минимизирующей последовательности управлений, использующие лишь первые производные входящих в задачу функционалов. Поэтому эти методы называют методами первого порядка. Давно было замечено, что при решении задач поиска минимума методом первого порядка сходимость оказывается очень медленной в окрестности точки минимума. Это и понятно ведь в этой окрестности, грубо говоря, первая производная минимизируемого функционала обращается в нуль, и приращение его при вариации аргумента (управления) определяется вторым членом разложения. Стремясь повысить скорость поиска и получить более точные результаты без существенного увеличения времени счета, естественно приходят к идее использования в вычислениях также вторых производных от функционалов задачи. Кроме того, с этим же связаны и надежды повысить эффективность поиска в условиях применения штрафных функций, когда сходимость методов первого порядка оказывается очень медленной даже сравнительно далеко от искомой точки минимума. Методы второго порядка разработаны не так подробно, как методы первого порядка, а опыт их фактического применения совсем невелик. Ниже будет описана общая схема метода второго порядка и рассмотрены возникающие при его реализации вычислительные проблемы. [c.201]
ГРАДИЕНТНЫЙ МЕТОД ВТОРОГО ПОРЯДКА 203 [c.203]
ГРАДИЕНТНЫЙ МЕТОД ВТОРОГО ПОРЯДКА 205 [c.205]
Формально получена сложная задача, однако и здесь напрашивается итерационный метод ее решения, при котором все условия (12) берутся в линейной форме, а квадратичные члены берутся из предыдущей итерации. Таким образом, каждый шаг этой процедуры потребует решения задачи на минимум квадратичного функционала при линейных ограничениях, что уже значительно проще соответствующие алгоритмы описаны, например, в 51. Мы ограничимся этим беглым и общим описанием, потому что в такой форме методы второго порядка, учитывая всю громоздкость предварительных вычислений, в сложных задачах применять будет, видимо, очень трудно и едва ли рационально. Однако можно ввести некоторые упрощения и получить более практичные, хотя и не столь последовательные, методы. [c.206]
ГРАДИЕНТНЫЙ МЕТОД ВТОРОГО ПОРЯДКА 207 [c.207]
Разумеется, теперь нельзя говорить о методе второго порядка, однако можно привести соображения в пользу такого непоследовательного подхода ведь в окрестности минимума вырождается (обращается в нуль) линейная часть приращения ЬР0, поэтому естественно уточнить вычисления именно в этом месте ). Учитывая в условиях Ff—0, i=l, 2,.. ., m, лишь линейные по Ьи ( ) члены, мы будем получать невязки Ft [и (-)+8м (-)] 0 ( 8м 2), и их компенсация на следующей итерации потребует малой, порядка 8м а, части вариации управления. Труднее оправдать использование простейшей формы уравнения в вариациях при преобразовании линейной по Ьх (t) части вариации функционала Р0. Видимо, решающим аргументом здесь является относительная простота преобразования исходного выражения для ЪР0 (6). Выше мы убедились в том, что, используя линейную связь между Ьх (t) и 8м ( ), нетрудно довести выкладки до конца и преобразовать первоначальное выражение F0 (в виде квадратичной формы от о г ( ) и Su ( )) в квадратичную форму только от Ъи ( ). Попытка проделать ту же операцию, используя более точную форму уравнения в вариациях, хотя и не встретила принципиальных трудностей, однако привела к существенному усложнению всей процедуры, так что ее не так просто довести до конца даже на уровне формальных выкладок. [c.207]
ГРАДИЕНТНЫЙ МЕТОД ВТОРОГО ПОРЯДКА 209 [c.209]
Решая N уравнений (17) вместе с т уравнениями (15 ) относительно N -m неизвестных sa , Х1 А2,. . ., Хт при каком-то фиксированном значении Х , получим решение, удовлетворяющее всем условиям задачи, за исключением (16 ). Проделав подобные вычисления для нескольких значений Х0, подберем нужное значение )i0 из условия (16 ), которое, кстати, может быть удовлетворено с не очень высокой точностью. Однако самым неприятным моментом всего алгоритма является необходимость решения систем линейных алгебраических уравнений высокого порядка N. Этим объясняется, видимо, тот факт, что в известных автору работах метод второго порядка использовался на сравнительно грубых сетках с небольшим значением N 10- -20. Если исходная вариационная задача содержит условие и (t) U, и в (16 ) берется первый вариант ограничений на sn, задача также оказывается вычислительно очень сложной при больших N. Таким образом, проявляется своеобразная противоречивость методов второго порядка. Имея целью в основном повысить эффективность поиска вблизи минимума и получить меньшее значение функционала, чем это удается сделать методами первого порядка, методы второго порядка, реализованные на грубых сетках невысокой размерности, теряют в точности именно из-за грубости аппроксимации, из-за сужения задачи на пространство управлений, не допускающее очень точного приближения искомого оптимального и (t). [c.209]
Стоит упомянуть еще одну причину, по которой методы второго порядка представляются интересными. Это связано с выбором шага спуска S. В методах первого порядка эту величину приходится назначать, тогда как в методах второго порядка учет квадратичных членов разложения приводит к естественному выбору абсолютной величины вариации Su (t) без введения искусственных ограничений. [c.209]
Метод сцепленных индексов Фишера является методом второго порядка, поскольку при уменьшении шага по времени т погрешность этого метода [c.135]
Сцепленный индекс Эджворта-Маршалла также является методом второго порядка. Остаточный член в формуле Эджворта-Маршалла может быть уменьшен вдвое в пределе при т — 0, если вместо полусуммы значений в [c.135]
Рассматриваемые ниже методы второго порядка решения вариационных неравенств и нелинейных задач о дополнительности привлекают своей квадратичной скоростью сходимости, но требуют повышенной гладкости отображений, более сложны [c.52]
Приведем несколько теорем, обосновывающих сходимость методов второго порядка. [c.53]
Преимуществом методов второго порядка является то, что при определенных предположениях они демонстрируют квадратичную скорость сходимости. Пример таких предположений дает следующая теорема. [c.54]
Заметим, что каждый шаг методов второго порядка требует решения вспомогательного вариационного неравенства. Если текущее приближение близко к решению и якобиан V F(x) положительно определен, отображение Fk вспомогательной задачи сильно монотонно. Таким образом, для ее решения можно опираться на рассмотренные ранее проекционные методы. [c.55]
Заметим, что итерационный процесс (5.2) относится к разряду двухуровневых на каждой его итерации нужно решить вспомогательное вариационное неравенство, требующее своего, вообще говоря, бесконечного вычислительного процесса. Как и в методах второго порядка, мы опускаем здесь анализ влияния погрешности решения вспомогательной подзадачи на сходимость основного процесса. [c.57]
Метод взвешенных конечных разностей. Этот метод состоит в том, что величина влияния каждого фактора определяется как по первому, так и по второму порядку подстановки, затем результат суммируется и от полученной суммы берется средняя величина, дающая единый ответ о значении влияния фактора. Если в расчете участвует больше факторов, то их значения рассчитываются по всем возможным подстановкам. [c.123]
Общая тенденция выявляется либо методом аналитического выравнивания (по уравнению прямой или параболы второго порядка), либо способом скользящей средней. После определения общей тенденции отчетливо проступают сезонные колебания, возникающие в результате действия как постоянных, так и случайных факторов. В процессе сезонных колебаний общая тенденция ряда должна быть исключена простым вычитанием из эмпирических данных или отношением эмпирических данных к выравненным. [c.319]
Расчет параметров полиномов различными методами. После того как выяснен характер кривой развития, необходимо определить ее параметры. Элементарный метод определения параметра уравнения тренда, описанного полиномом или экспонентой, состоит в решении системы уравнений по известным уровням ряда динамики. Ниже приводится методология расчета параметров уравнения прямой, параболы второго порядка и экспоненты. [c.81]
Оценка параметров уравнений регрессии (а0, о1 и о2 — в уравнении параболы второго порядка) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности. [c.115]
На примере композиционных планов второго порядка в работе [1] показано, что включение фактор времени в план нецелесообразно. В случае, когда выполнить это сложно, ПЭ проводится по первому методу, исходя из [c.171]
Очевидно, что вторые разности Д2, не содержат тенденции, поэтому при наличии в исходных уровнях тренда в форме параболы второго порядка их можно использовать для дальнейшего анализа. Если тенденции временного ряда соответствует экспоненциальный или степенной тренд, метод последовательных разностей следует применять не к исходным уровням ряда, а к их логарифмам. [c.269]
Идея, что одни агенты могут располагать средствами изменения решений и поведения других агентов, не имеет в действительности смысла, если не признать существования различных мотиваций и наличия организаций, функционирование которых как раз и опирается на эти различия. В рыночной экономике чистой конкуренции и совершенной информации стимул и мотивация — одно и то же. Каждый агент принимает здесь решения, ни на кого не ссылаясь выбор другого агента доводится до него через ограничения посредством рыночных механизмов. Дело меняется, как только в модель вводятся организации. Последние основываются на структурированном объединении агентов, которые разделяют общие цели (по крайней мере частично), но на базе различных мотиваций. К тому же существуют подгруппы, которые имеют неодинаковое, подчас противоречивое видение этих целей или по-разному представляют себе методы их реализации. Кроме того, они руководствуются специфическими целями второго порядка, которые могут побудить их утаить информацию или исказить ее1. [c.241]
В частности, для получения оптимальных вариантов развития Байкальского региона использовались алгоритм нелокального улучшения второго порядка, метод кратного максимума, а также методы агрегирования и дезагрегирования [c.177]
В процессе разработки новой техники конструкторам и разработчикам приходится иметь дело с балансировкой многих взаимосвязанных технических параметров, определяющих основные и вспомогательные характеристики изделий (грузоподъемность, собственная масса, скорость и т.д.). Попытки улучшить значения одних параметров часто приводят к ухудшению других. Оперируя методом проб и ошибок для выявления технических противоречий и их устранения, инженеры вынуждены перебрать множество вариантов. Одни и те же задачи могут быть решены на уровнях разного порядка. На уровне первого порядка (число проб не превышает 10) и даже на уровне второго порядка (число проб — до 100) многие специалисты способны находить неплохие, иногда [c.158]
В процессе разработки новой техники конструкторам и разработчикам приходится иметь дело с балансировкой многих взаимосвязанных технических параметров, определяющих основные и вспомогательные характеристики изделий (грузоподъемность, собственная масса, скорость и т.д.). Попытки улучшить значения одних параметров часто приводят к ухудшению других. Оперируя методом проб и ошибок, инженеры для выявления технических противоречий и их устранения вынуждены перебрать множество вариантов. Одни и те же задачи могут быть решены на уровнях разного порядка. На уровне первого порядка (число проб не превышает 10) и даже на уровне второго порядка (число проб — до 100) многие специалисты способны находить неплохие, иногда патентоспособные решения. Однако на уровне более высокого порядка, когда требуется провести до 1000, 10 000 и даже 100 000 проб, решение технической задачи связано с большими затратами средств и времени. Иногда на это уходит труд нескольких поколений изобретателей. [c.119]
Схема вычислений. Вводилась сетка 0 = ta< t< 2<. .. . <С tit и кусочно постоянное управление и ц/а. Сетка была неравномерной, более густой на интервале [0 20], TV да 100. Система уравнений (1) интегрировалась с шагом dt = Q,l(tn+1 — tn) методом Рунге—Кутта второго порядка точности. При этом запоминались [c.239]
Достаточно точное интегрирование такого уравнения методом второго, например, порядка точности (в наших расчетах использовался метод Эйлера с пересчетом) требует шага t 0,001. Поэтому шаг интегрирования дифференциальных уравнений (как прямого (1), так и сопряженных) не совпадал с шагом сетки для и (его величина Д 0,01), а был в 10 раз меньшим. Что касается числа S, то вначале оно задавалось величиной 100, а затем в процессе решения изменялось так, чтобы среднее значение м( ) было порядка 20. [c.259]
Решение задачи методом локальных вариаций описано в [41 ] (это же решение воспроизведено в монографии [86]). Численное решение задачи описывалось сеточными функциями xln (п= =0, 1,.. ., N), м,н /2, связанными конечно-разностными уравнениями (второго порядка точности) [c.276]
Важнейшей задачей социалистического соревнования является распространение передового опыта и подтягивание отстающих до уровня передовиков производства. Этот второй этап соревнования характерен для социалистического строя, где люди трудятся и помогают друг другу. Новаторы производства делятся своим производственным опытом, оказывают товарищескую помощь отстающим. Такая помощь оказывается различными методами в порядке прикрепления отстающих рабочих к новаторам для изучения их опыта, специального показа работы на рабочих местах, организации встреч новаторов разных предприятий, широкой популяризации наилучших методов работы в печати. [c.93]
Мы не затронули здесь более изощренных методов обучения, таких как метод сопряженного градиента, а также методов второго порядка, которые используют не только информацию о градиенте функции ошибки, но и информацию о вторых производных. Их разбор вряд ли уместен при первом кратком знакомстве с основами нейрокомпьютинга. [c.62]
В отличие от методов второго порядка, где веса изменяются пропорционально их вкладу в направление глобального поиска, в локальных методах оптимизации каждый вес меняется локально. В качестве примера таких методов можно назвать метод дельта-дельта (см. [151]),Кргор(см. [240]),Qui kProp( M. [104]). [c.32]
Хотя сцепленные индексы, построенные на основе почти всех используемых на практике индексных формул, и являются аппроксимациями индексов Дивизиа, скорость сходимости последовательности сцепленных индексов к индексу Дивизиа с уменьшением шага по времени до нуля существенно зависит от выбора индексной формулы. Так, при г— 0 погрешность сцепленного индекса Ласпейреса равна О(т) и аналогично для сцепленного индекса Пааше. Поэтому эти методы являются методами первого порядка, т.е. соответствующие сцепленные индексы достаточно медленно сходятся к индексу Дивизиа. Сцепленные индексы Фишера, Эджворта-Маршалла, Торнквиста являются методами второго порядка, поскольку при уменьшении шага по времени г погрешность этих методов равна О(т ), т.е. они, вообще говоря, сходятся к индексу Дивизиа гораздо быстрее, чем сцепленные индексы Ласпейреса и Пааше34. [c.41]
Нами был рассмотрен метод решения моделей с нелинейностью второго порядка 1. Для решения моделей с нелиней- ностью любого другого более высокого порядка можно аналогичным образом применить метод Монте-Карло. (При этом громоздкость расчетов сильно возрастет. [c.199]
При более последовательном подходе для улучшения процесса обучения можно использовать информацию о производных второго порядка от функции невязки. Соответствующие методы оптимизации называются квадратичными. Вся указанная информация собрана в матрице гессиана Н, имеющей размеры Nw х Nw, где Nw — число весов. Эта матрица содержит информацию о том, как изменяется градиент при малых смещениях по различным направлениям в пространстве весов. Прямое вычисление матрицы требует большого времени, поэтому разработаны методы, позволяющие избежать вычисления и хранения матрицы (спуск по сопряженному градиенту, масштабированный метод сопряженных градиентов (см. [197]), RBa kProp (см. [212]), квази-ньютоновский метод, метод Левенбер-га-Маркара). [c.32]
Начальные условия для (2.4.10) s =, so при t = 0. Граничные условия на горизонтальных границах области интегрирования —X х X, — Y у Y и на верхней границе при z = Z ставятся следующим образом. В тех точках границ, где вектор скорости направлен внутрь области определения решения, s = 8ф. Там, где вектор скорости направлен вовне этой области, значения концентраций экстраполируются на границу по приграничным значениям со вторым порядком аппроксимации. На нижней границе при z = А ставится граничное условие третьего рода, учитывающее поглощение и отражение примеси. Здесь SQ и вф — заданные значения. Уравнение (2.4.10) решается численным интегрированием в декартовой прямоугольной системе координат с применением метода фиктивных областей. Конечно-разностные аппроксимации производных по пространственным переменным построены на основе интегро-интерполяционного метода [Марчук, 1980]. Аппроксимация задачи по времени построена с помощью двуци-клического полного расщепления. Используемая схема покомпонентного расщепления дает решение для некоммутативных операторов со вторым порядком аппроксимации по времени и координатам. Для численной реализации конечно-разностных уравнений использована немонотонная прогонка. [c.116]
Количество оборудования, необходимого для инструментального цеха, может быть определено, если установлены годовая потребность в инструменте каждого типоразмера, изготовляемом в этом Цехе, и технология с нормами времени на его изготовление. Необходимое количество оборудования в данном случае рассчитывается обычными методами. При этом количество оборудования для изготовления инструмента второго порядка устанавливается в процентах от общей потребности в оборудовании для изготовления инструмента первого цорядка для всех цехов завода (за исключением инструментальных). Для режущего инструмента это примерно 15%, для мерительного инструмента и приспособлений —10%. Необходимо также учесть потребность в восстановлении и ремонте инструмента, которая может составлять около 20% от общей потребно- сти в оборудовании на изготовление инструмента. [c.313]
Вместо использования условий первого порядка, как это делалось в зигзагообразной процедуре, можно воспользоваться методом Ньютона-Рафсона, чтобы найти такие ф, . . . , фр, которые минимизируют функцию (12.8). Для этого нам понадобится знание производных первого и второго порядков, что дается следующей теоремой. [c.464]