ПОИСК
Это наилучшее средство для поиска информации на сайте
Примечания
из "Нейронные сети и финансовые рынки "
В этой главе архитектура нейронных сетей рассматривается с точки зрения двух наиболее важных видов приложений — задач классификации и анализа временных рядов. [c.42]Задача классификации понимается как задача отнесения образца к одному из нескольких попарно непересекающихся множеств. Чаще всего мы будем рассматривать двоичную классификацию. Примерами могут служить определение прибыльности или неприбыльное данной инвестиции, или задача различения жизнеспособных и склонных к банкротству фирм. Задача анализа временных рядов заключается в том, чтобы получить будущие значения, некоторой величины, зная ее текущие и прошлые значения и располагая данными о среде. [c.42]
В предыдущей главе мы рассмотрели методы нейронных вычислений. В настоящей главе мы исследуем две главные области применения сетей с прямой связью задачи классификации и моделирование временных рядов. Отличие между задачами этих двух типов состоит в наличии (временной) упорядоченности примеров. [c.42]
В идеальном варианте предварительная обработка должна дать такой набор признаков, чтобы задача оказалась линейно отделимой, — классификация после этого существенно упрощается. К сожалению, это редко удается сделать. Как правило, в нашем распоряжении имеется лишь ограниченный набор образцов, и часть из них используется для проведения границ, разделяющих классы ( построение классификатора ). Качество классификатора по отношению к имеющимся примерам измеряется оценкой. При последующей работе классификатора с новыми образцами происходит обобщение. Возможные способы оценить способность к обобщению мы рассмотрели в предыдущей главе. [c.44]
Вероятность того, что произойдет событие А, обозначается Р А . [c.44]
А при условии, что произойдет событие В. Вероятность того, что при двух бросаниях монеты оба раза выпадет орел, равна Р 2А) = 0.25. Условная вероятность выпадения двух орлов при условии, что в первый раз выпал орел (событие В), — частный случай условной вероятности, который называется апостериорной вероятностью. Так как результаты бросаний монеты независимы, знание первого из них ничего не говорит о втором, и поэтому Р А) = Р А I В] = 0.5. Для задач классификации более характерны зависимые события, когда наши знания о В влияют на ожидаемую вероятность А. [c.44]
При решении задачи распознавания статистическими методами важнейшее значение имеет правильный выбор способа статистического представления объекта. Тем самым, нужно проделать предварительную обработку данных. Для того чтобы выбрать характерные отличительные признаки объектов, требуется, как правило, серьезное изучение исходной проблемы. Например, в моделях банкротства банков важное значение имеют такие показатели, как опыт в управлении фондами и соответствие требованиям адекватности капитала. Различные наборы признаков приводят к разным распределениям. При этом в разных вариантах дисперсия и свойства выпуклости кластеров во входном пространстве могут сильно отличаться, соответственно, при их разделении потребуется проводить границы разной степени сложности — от линейных до сильно нелинейных. Чем лучше была сделана предварительная обработка, тем легче будет решена задача классификации. [c.45]
Богатые возможности отображения особенно важны в тех случаях, когда на основе нескольких оценок строится высокоуровневая процедура принятия решений. Известно много приложений нейронных сетей с прямой связью к задачам классификации. Как правило, они оказываются эффективнее других методов, потому что нейронная сеть генерирует бесконечное число нелинейных регрессионных моделей (см. [230]). [c.46]
Априорную плотность вероятности можно оценить различными способами. В параметрических методах предполагается, что плотность вероятности (PDF) является функцией определенного вида с неизвестными параметрами. Например, можно попробовать приблизить PDF при помощи гауссовой функции. Для того чтобы произвести классификацию, нужно предварительно получить оценочные значения для вектора среднего и матрицы ковариаций по каждому из классов данных и затем использовать их в решающем правиле. В результате получится полиномиальное решающее правило, содержащее только квадраты и попарные произведения переменных. Вся описанная процедура называется квадратичным дискриминантным анализом (QDA). В предположении, что матрицы ковариаций у всех классов одинаковы, QDA сводится к линейному дискриминантному анализу (LDA). [c.47]
Все это подчеркивает важность этапа предварительной обработки данных. Чем более компактно представлены характеристики образцов, тем меньше зависимость от настраиваемых параметров сети (О или 1). [c.49]
Задача двоичной классификации может быть решена на сети с одним выходным элементом, который может находиться в состоянии О или 1. Для задачи с многими классами нужно разработать способ записи (кодирования) выхода. Один возможный способ состоит в том, чтобы кодировать k классов с помощью /с-мерных наборов, приписывая 1-й компоненте значение 1, если исследуемый образец принадлежит i-му классу, и 0— в противоположном случае. Такой способ часто называют бабушкиным кодированием. Другой способ работы с многими классами — разбить задачу с k классами на k(k -1) подзадач, содержащих только по два класса. Окончательное присваивание элементу i-ro номера класса осуществляется несложной булевой функцией, на вход которой подаются выходы подзадач, В этом случае число выходных элементов с ростом k растет как k2. Это так называемое 2-на-2 кодирование часто оказывается лучше, чем бабушкин метод. Рис. 2.2 иллюстрирует проблему кодирования выхода на примере двумерной задачи с тремя классами. С помощью 2-на-2 кодирования задача классификации решается, тогда как в бабушкином методе кодирования необходимо строить нелинейные разрешающие границы. [c.49]
Далее может быть проведен анализ чувствительности и исследование причин неправильной классификации. Исследуя, насколько сильно (или, наоборот, слабо) сеть реагирует на отдаленность образца от разделяющей границы, можно вывести характеристику разрешающей способности метода классификации. Одно из возможных применений такого анализа — исследование сомнительных случаев и последующее удаление их из обучающей базы данных. [c.50]
По завершении всех указанных процедур сеть можно использовать в сложных комплексах принятия решений в сочетании с традиционными подходами, а также с другими сетями, обученными независимо и настроенными на другие характеристики объектов. [c.50]
После того, как выбор модели (т.е. архитектуры сети) сделан и проведена ее проверка, ее можно использовать для предсказания, объяснения и диагностики. С ее помощью можно определять, к какому из классов принадлежит предъявленный образец, или изучать возможные связи между различными характеристиками объектов и принимаемым решением, или выявлять причины, повлекшие за собой неправильную классификацию. [c.51]
В результате обработки поступившего образца классифицирующая модель выдает на выходе некоторое значение. Как правило, эти выходные значения бывает необходимо подвергнуть доводке. Например, если класс с номером 2 кодируется выходным вектором (0,1,0), а сеть выдала (0.1,0.6,0.3), то нужно решить, имеются ли достаточные основания причислить объект ко 2-му классу. [c.51]
Для того чтобы сконструировать хороший классификатор, очень важно иметь в своем распоряжении высококачественные данные. Никакой метод построения классификаторов, будь то в области распознавания образов, машинного обучения или многомерной статистики, никогда не выдаст классификатор нужного качества, если имеющийся набор примеров не будет достаточно богатым и представительным для той популяции, с которой придется работать в Данной модели. [c.53]
Завершая наше введение в методы классификации при помощи нейронных сетей, рассмотрим одну задачу распознавания образов, которую часто берут за образец при проверке методов. Это — задача Фишера об ирисах. Мы вкратце перечислим результаты, полученные при помощи классических подходов, а затем сравним их с тем, что Дают нейронные сети. [c.53]
Вернуться к основной статье