Метод наискорейшего спуска плюсы и минусы. Метод наискорейшего градиентного спуска. Реализация метода в программе: Метод сопряженных направлений

Матрица G (х ) размерностью(n xn ) считается положительно определенной, если все ее собственные значения m 1 , m 2 ,…, m n положительны, т.е. m j > 0 для всех j = 1, 2,…, n .

Матрица G (х ) считается отрицательно определенной, если собственные значения отрицательны, т.е. m j < 0 для всех j = 1, 2,…, n .

Если среди собственных значений G встречаются и положительные и отрицательные, то матрица является знакопеременной, а исследуемая функция – невыпуклой.

Для определения собственных значений необходимо решить характеристическое уравнение:

где I – квадратная единичная матрица; det – знак определителя.

Матрица отличается от матрицы Гессе тем, что по диагонали располагаются члены вида .

Так для двухмерной функции f (x 1 , x 2)характеристическое уравнение будет иметь вид:

(4.10)

Собствееные значения m 1 и m 2 есть корни обыкновенного квадратного уравнения m 2 + b m + c = 0, образуются после раскрытия определителя.

Для примера возьмем функции двух переменных:

f (x )= 2 – 2x 1 –2x 2 +x 1 2 +x 2 2 – x 1 x 2

Координаты экстремальной точки x * определяются решением системы уравнений

И равны x 1 * = 2, x 2 * = 2

Гессиан . После решения характеристического уравнения , т.е. квадратного уравнения (2 – m) 2 – 1 = 0 получены собственные значения m 1 = 3, m 2 = 1, т.е. матрица G является положительно определенной. Следовательно, функция f (x ) является выпуклой и в экстремальной точке х * = (2,2) принимает минимальное значение f (x *) = –2.

Оба способа проверки достаточных и необходимых условий экстремума второго порядка приведены в табл.4.2.

Пример 4.4. Найти экстремум функции на множестве Е 2 .

Решение. 1. Запишем необходимые условия экстремума первого порядка:

;

x * = (0,0).

2. Проверим выполнение достаточных условий экстремума.

Первый способ: Матрица Гессе имеет вид .Так как М 1 = 2 > 0, , то в точке x* локальный минимум (строка 1 в табл.4.2).

Второй способ: Найдем собственные значения матрицы Гессе, используя (4.10):

Отсюда и . Так как все собственные значения положительны, то в точке x * локальный минимум (строка 1 в табл. 4.2). Из примера 3.3 следует, что функция является строго выпуклой на множестве Е 2 . Поэтому точка локального минимума является и точкой глобального минимума (согласно п.3, утверждение 3.1).

3. Вычислим значение функции в точке глобального минимума: f (x *) = 0.

Пример 4.5 . Найти экстремум функции на множестве Е 2 .

Решение. 1. Запишем необходимые условия первого порядка:

; .

В результате решения системы получаем стационарную точку x * = (0,0).

2. Проверим выполнение достаточных условий экстремума и необходимых условий второго порядка.

Первый способ: Матрица Гессе имеет вид . Так как М 1 = 2 > 0, , то достаточныое условия экстремума не выполняются (строки 1 и 2 в табл.4.2). Проверим выполнение необходимых условий второго порядка.

Главные миноры первого порядка (m = 1) получаются из M 2 в результате вычеркивания n – m =2 – 1 = 1 строк и столбцов, с одинаковыми номерами: – 2, 2. Главный минор второго порядка (m = 2) получается из M 2 в результате вычеркивания n – m= 0 строк и столбцов, т.е. совпадает с M 2: -4. Отсюда следует, что необходимые условия экстремума второго порядка не выполняются (строки 3 и 4 в табл.4.2). Так как матрица Гессе не является нулевой, то можно сделать вывод о том, что в точке х * нет экстремума (строка 6 в табл.2.1).

Таблица 4.2

Критерий проверки достаточных и необходимых условий второго порядка в задаче поиска безусловного экстремума

Параметры с малыми значениями вторых производных обнуляют. Анализ чувствительности имеет большую вычислительную сложность и требует много дополнительной памяти.

Соотношения (1.4) и (1.6) определяют знаки главных миноров матрицы Гессе для нашей функции и тем самым являются достаточным условием неположительной определенности соответствующей квадратичной формы (1.3). Поэтому для вогнутости линейно однородных функций с двумя ресурсами условие (1.4) достаточно.

Матрица Я, как уже говорилось, называется матрицей Гессе (или гессианом).

При более последовательном подходе для улучшения процесса обучения можно использовать информацию о производных второго порядка от функции невязки. Соответствующие методы оптимизации называются квадратичными. Вся указанная информация собрана в матрице гессиана Н, имеющей размеры Nw х Nw, где Nw - число весов. Эта матрица содержит информацию о том, как изменяется градиент при малых смещениях по различным направлениям в пространстве весов. Прямое вычисление матрицы требует большого времени, поэтому разработаны методы, позволяющие избежать вычисления и хранения матрицы (спуск по сопряженному градиенту, масштабированный метод сопряженных градиентов (см. ), RBa kProp (см. ), квази-ньютоновский метод, метод Левенбер-га-Маркара).

Первое уравнение (4.17) показывает, как изменится выпуск при увеличении цены на продукцию фирмы. Поскольку матрица Гесса Н отрицательно определена, то и матрица Н"1 также отрицательно определена, поэтому

Отметим, что из факта существования функции Q в силу симметрии матрицы вторых производных (матрицы Гессе) для дважды дифференцируемой фунции нескольких переменных следуют равенства, связывающие чувствительности оценок к изменению запасов ресур-

Кроме того, матрица Гессе вторых производных этой функции по С должна быть при С = 0 отрицательно определенной.

Рассмотрим изменение матрицы Гессе функции / (С) при ее монотонном преобразовании . Предварительно запишем составляющие градиента в точке

Чтобы функция FQ() была выпукла, достаточно, чтобы матрица Т = Tij была отрицательно определенной. Первые слагаемые в (9.108) отличаются от элементов 7 j матрицы Гессе исходной задачи неотрицательным множителем, так как функция FQ монотонно возрастающая. Если вторые слагаемые в этих выражениях равны нулю, то вогнутой функции достижимости исходной задачи будет соответствовать вогнутость и FQ().

Таким образом, матрица Гессе для функции достижимости преобразованной задачи представляет собой сумму

Первое из них представляет собой п уравнений относительно составляющих вектора А, а второе - условие отрицательной определенности квадратичной формы , которое проверяется по критерию Сильвестра применительно к матрице Гессе функции R .

Здесь и ниже через R f0 и R i обозначены частные производные R по соответствующим переменным. Условиям отрицательной определенности должна удовлетворять матрица Гессе функции R с элементами (см. (9.125))

Вторая часть составляет теоретическое ядро книги. Она полностью посвящена строгому изложению теории дифференциалов и основ анализа, сформулированных на языке дифференциалов. Вводятся понятия первого и второго дифференциалов, приводится правило идентификации для матриц Якоби и Гессе. Завершает главу параграф, посвященный теории оптимизации при наличии ограничений, изложенный в терминах дифференциалов.

Четвертая часть, посвященная неравенствам, возникла благодаря нашему убеждению, что эконометристы должны легко оперировать неравенствами, такими как неравенство Коши-Буняковского (Шварца), неравенство Мин-ковского и их обобщения, а также владеть мощными результатами, например теоремой отделимости Пуанкаре. В какой-то мере глава является и историей нашего разочарования. Когда мы начинали писать эту книгу, у нас была амбициозная идея - вывести все неравенства методами матричного дифференциального исчисления . В конце концов , каждое неравенство может быть представлено как решение некоторой оптимизационной задачи . Однако эта идея оказалась иллюзией, поскольку матрица Гессе в большинстве случаев оказывается вырожденной в точке экстремума.

Обозначения. В книге мы используем, в основном, стандартные обозначения, за исключением того что векторы обозначены простым (не полужирным) курсивом. Специальные символы используются для обозначения производной (матрицы) D и матрицы Гессе Н. Оператор дифференцирования обозначается как d. Полный список всех символов, использованных в тексте, содержится в Указателе обозначений в конце книги.

В этой главе рассматриваются понятия вторых производных, дважды диф-ференцируемости и второго дифференциала. Особое внимание уделяется связи между дважды дифференцируемостью и аппроксимацией второго порядка. Мы определяем матрицу Гессе (для векторных функций) и находим условия для ее (столбцовой) симметрии. Мы также получаем цепное правило для матриц Гессе и его аналог для вторых дифференциалов. Доказывается теорема Тейлора для вещественных функций . Наконец, очень кратко обсуждаются дифференциалы высших порядков и показывается, как анализ векторных функций можно распространить на матричные функции.

Ранее мы определили матрицу, которая содержит все частные производные первого порядка. Это была матрица Якоби . Теперь определим матрицу (называемую матрицей Гессе), которая содержит все частные производные второго порядка. Дадим определение этой матрицы сначала для вещественных, а затем для векторных функций.

Пусть / S -> Rm, S С Rn есть

Метод наискорейшего спуска (в англ. литературе «method of steepest descent») - это итерационный численный метод (первого порядка) решения оптимизационных задач, который позволяет определить экстремум (минимум или максимум) целевой функции:

- это значения аргумента функции (управляемые параметры) на вещественной области.

В соответствии с рассматриваемым методом экстремум (максимум или минимум) целевой функции определяют в направлении наиболее быстрого возрастания (убывания) функции, т.е. в направлении градиента (антиградиента) функции. Градиентом функции в точке называется вектор, проекциями которого на координатные оси являются частные производные функции по координатам:

где i, j,…, n - единичные векторы, параллельные координатным осям.

Градиент в базовой точке строго ортогонален к поверхности, а его направление показывает направление наискорейшего возрастания функции, а противоположное направление (антиградиент), соответственно, показывает направление наискорейшего убывания функции.

Метод наискорейшего спуска является дальнейшим развитием метода градиентного спуска. В общем случае процесс нахождения экстремума функции является итерационной процедурой, которая записывается следующим образом:

где знак «+» используется для поиска максимума функции, а знак «-» используется для поиска минимума функции;

Единичный вектор направления, который определяется по формуле:

- модуль градиента определяет скорость возрастания или убывания функции в направлении градиента или антиградиента:

Константа, определяющая размеры шага и одинаковая для всех i-х направлений.

Величина шага выбирается из условия минимума целевой функции f(х) в направлении движения, т. е. в результате решения задачи одномерной оптимизации в направлении градиента или антиградиента:

Другими словами, величину шага определяют при решении данного уравнения:

Таким образом, шаг расчета выбирается такой величины, что движение выполняется до тех пор, пока происходит улучшение функции, достигая, таким образом, экстремума в некоторой точке. В этой точке вновь определяют направление поиска (с помощью градиента) и ищут новую точку оптимума целевой функции и т.д. Таким образом, в данном методе поиск происходит более крупными шагами, и градиент функции вычисляется в меньшем числе точек.

В случае функции двух переменных данный метод имеет следующую геометрическую интерпретацию: направление движения из точки касается линии уровня в точке . Траектория спуска зигзагообразная, причем соседние звенья зигзага ортогональны друг другу. Условие ортогональности векторов направлений спуска в соседних точках записывается следующим выражением:

Траектория движения к точке экстремума при использовании метода наискорейшего спуска, изображенная на графике линии равного уровня функции f(x)

Поиск оптимального решения завершается в случае, когда на итерационном шаге расчета (несколько критериев):

Траектория поиска остается в малой окрестности текущей точки поиска:

Приращение целевой функции не меняется:

Градиент целевой функции в точке локального минимума обращается в нуль:

Следует отметить, что метод градиентного спуска оказывается очень медленным при движении по оврагу, причём при увеличении числа переменных целевой функции такое поведение метода становится типичным. Овраг представляет собой впадину, линии уровня которой приближенно имеют форму эллипсов с различающимися во много раз полуосями. При наличии оврага траектория спуска имеет вид зигзагообразной линии с малым шагом, вследствие чего результирующая скорость спуска к минимуму сильно замедляется. Это объясняется тем, что направление антиградиента этих функций существенно отклоняется от направления в точку минимума, что приводит к дополнительной задержке в расчете. В результате алгоритм теряет вычислительную эффективность.

Овражная функция

Метод градиента вместе с его многочисленными модификациями является распространенным и эффективным методом поиска оптимума исследуемых объектов. Недостатком градиентного поиска (так же и рассмотренных выше методов) является то, что при его использовании можно обнаружить только локальный экстремум функции. Для отыскания других локальных экстремумов необходимо производить поиск из других начальных точек. Так же скорость сходимости градиентных методов существенно зависит также от точности вычислений градиента. Потеря точности, а это обычно происходит в окрестности точек минимума или в овражной ситуации, может вообще нарушить сходимость процесса градиентного спуска.

Методика расчета

1 шаг: Определение аналитические выражения (в символьном виде) для вычисления градиента функции

2 шаг : Задаем начальное приближение

3 шаг: Определяется необходимость рестарта алгоритмической процедуры для обнуления последнего направления поиска. В результате рестарта поиск осуществляется заново в направлении скорейшего спуска.

Рис.3. Геометрическая интерпретация метода наискорейшего спуска. На каждом шаге выбирается так, чтобы следующая итерация была точкой минимума функции на луче L.

Этот вариант градиентного метода основывается на выборе шага из следующего соображения. Из точки будем двигаться в направлении антиградиента до тех пор пока не достигнем минимума функции f на этом направлении, т. е. на луче:

Другими словами, выбирается так, чтобы следующая итерация была точкой минимума функции f на луче L (см. рис. 3). Такой вариант градиентного метода называется методом наискорейшего спуска. Заметим, кстати, что в этом методе направления соседних шагов ортогональны.

Метод наискорейшего спуска требует решения на каждом шаге задачи одномерной оптимизации. Практика показывает, что этот метод часто требует меньшего числа операций, чем градиентный метод с постоянным шагом.

В общей ситуации, тем не менее, теоретическая скорость сходимости метода наискорейшего спуска не выше скорости сходимости градиентного метода с постоянным (оптимальным) шагом.

Числовые примеры

Метод градиентного спуска с постоянным шагом

Для исследования сходимости метода градиентного спуска с постоянным шагом была выбрана функция:

Из полученных результатов можно сделать вывод, что при слишком большом чаге метод расходится, при слишком малом сходится медленно и точчность хуже. Надо выбирать шаг наибольшим из тех, при которых метод сходится.

Градиентный метод с дроблением шага

Для исследования сходимости метода градиентного спуска с дроблением шага (2) была выбрана функция:

Начальное приближение - точка (10,10).

Использован критерий останова:

Результаты эксперимента отражены в таблице:

Значение параметра	Значение параметра	Значение параметра	Достигнутая точность	Количество итераций

Из полученных результатов можно сделать вывод об оптимальном выборе параметров: , хотя метод не сильно чувствителен к выбору параметров.

Метод наискорейшего спуска

Для исследования сходимости метода наискорейшего спуска была выбрана функция:

Начальное приближение - точка (10,10). Использован критерий останова:

Для решения одномерных задач оптимизации использован метод золотого сечения.

Метод получил точность 6e-8 за 9 итераций.

Отсюда можно сделать вывод, что метод наискорейшего спуска сходится быстрее, чем градиентный метод с дроблением шага и метод градиентного спуска с постоянным шагом.

Недостатком методом наискорейшего спуска является необходимость решать одномерную задачу оптимизации.

При программировании методов градиентного спуска следует аккуратно относится к выбору параметров, а именно

· Метод градиентного спуска с постоянным шагом: шаг следует выбирать меньше 0.01, иначе метод расходится (метод может расходится и при таком шаге в зависимости от исследуемой функции).
· Градиентный метод с дроблением шага не очень чувствителен к выбору параметров. Один из вариантов выбора параметров:
· Метод наискорейшего спуска: в качестве метода одномерной оптимизации можно использовать метод золотого сечения (когда он применим).

Метод сопряжённых градиентов - итерационный метод для безусловной оптимизации в многомерном пространстве. Основным достоинством метода является то, что он решает квадратичную задачу оптимизации за конечное число шагов. Поэтому, сначала описывается метод сопряжённых градиентов для оптимизации квадратичного функционала, выводятся итерационные формулы, приводятся оценки скорости сходимости. После этого показывается, как метод сопряжённых обобщается для оптимизации произвольного функционала, рассматриваются различные варианты метода, обсуждается сходимость.

Постановка задачи оптимизации

Пусть задано множество и на этом множестве определена целевая функция (objective function) . Задача оптимизации состоит в нахождении на множестве точной верхней или точной нижней грани целевой функции. Множество точек, на которых достигается нижняя грань целевой функции обозначается.

Если, то задача оптимизации называется безусловной (unconstrained). Если, то задача оптимизации называется условной (constrained).

Метод сопряжённых градиентов для квадратичного функционала

Изложение метода

Рассмотрим следующую задачу оптимизации:

Здесь - симметричная положительно определённая матрица размера. Такая задача оптимизации называется квадратичной. Заметим, что. Условие экстремума функции эквивалентно системе Функция достигает своей нижней грани в единственной точке, определяемой уравнением. Таким образом, данная задача оптимизации сводится к решению системы линейных уравнений Идея метода сопряжённых градиентов состоит в следующем: Пусть - базис в. Тогда для любой точки вектор раскладывается по базису Таким образом, представимо в виде

Каждое следующее приближение вычисляется по формуле:

Определение. Два вектора и называются сопряжёнными относительно симметричной матрицы B, если

Опишем способ построения базиса в методе сопряжённых градиентов В качестве начального приближения выбираем произвольный вектор. На каждой итерации выбираются по правилу:

Базисные вектора вычисляются по формулам:

Коэффициенты выбираются так, чтобы векторы и были сопряжёнными относительно А.

Если обозначить за, то после нескольких упрощений получим окончательные формулы, используемые при применении метода сопряжённых градиентов на практике:

Для метода сопряжённых градиентов справедлива следующая теорема: Теорема Пусть, где - симметричная положительно определённая матрица размера. Тогда метод сопряжённых градиентов сходится не более чем за шагов и справедливы следующие соотношения:

Сходимость метода

Если все вычисления точные, и исходные данные точны то метод сходится к решению системы не более чем за итераций, где - размерность системы. Более тонкий анализ показывает, что число итераций не превышает, где - число различных собственных значений матрицы A. Для оценки скорости сходимости верна следующая (довольно грубая) оценка:

Она позволяет оценить скорость сходимости, если известны оценки для максимального и минимального собственных значений матрицы На практике чаще всего используют следующий критерий останова:

Вычислительная сложность

На каждой итерации метода выполняется операций. Такое количество операций требуется для вычисления произведения - это самая трудоёмкая процедура на каждой итерации. Отальные вычисления требуют O(n) операций. Суммарная вычислительная сложность метода не превышает - так как число итераций не больше n.

Численный пример

Применим метод сопряжённых градиентов для решения системы, где C помощью метода сопряжённых градиентов решение этой системы получается за две итерации. Собственные числа матрицы - 5, 5, -5 - среди них два различных, поэтому, согласно теоретической оценке число итераций не могло превышать двух

Метод сопряжённых градиентов - один из наиболее эффективных методов решения СЛАУ с положительно определённой матрицей. Метод гарантирует сходимость за конечное число шагов, а нужная точность может быть достигнута значительно раньше. Основная проблема заключается в том, что из-за накопления погрешностей может нарушаться ортогональность базисных веторов, что ухудшает сходимость

Метод сопряжённых градиентов в общем случае

Расссмотрим теперь модификацию метода сопряжённых градиентов для случая, когда минимизируемый функционал не является квадратичным: Будем решать задачу:

Непрерывно дифференцируемая в функция. Чтобы модифицировать метод сопряжённых градиентов для решения этой задачи необходимо получить для формулы, в которые не входит матрица А:

можно вычислять по одной из трёх формул:

1. - Метод Флетчера - Ривса (Fletcher-Reeves method)

2. - Метод Полака - Райбера (Polak-Ribi`ere method)

Если функция - квадратичная и строго выпуклая, то все три формулы дают одинаковый результат. Если - произвольная функция, то каждой из формул cоответствует своя модификация метода сопряжённых градиентов. Третья формула используется редко, так как она требует, чтобы функция и вычисления гессиана функции на каждом шаге метода.

Если функция - не квадратичная, метод сопряжённых градиентов может и не сходиться за конечное число шагов. Кроме того, точное вычисление на каждом шаге возможно только в редких случаях. Поэтому накопление погрешностей приводит к тому, что вектора перестают указывать направление убывания функции. Тогда на каком-то шаге полагают. Совокупность всех номеров, при которых принимается, обозначим за. Номера называются моментами обновления метода. На практике часто выбирают, где - размерность пространства.

Сходимость метода

Для метода Флетчера - Ривса существует теорема о сходимости, накладывающая не слишком жёсткие условия на минимизируемую функцию: Теорема. Пусть и выполняются следующие условия:

Множество ограничено

Производная удовлетворяет условию Липшица с константой в некоторой окрестности

множества M: .

Для метода Полака-Райбера доказана сходимость в предположении, что - строго выпуклая функция. В общем случае доказать сходимость метода Полака - Райбера невозможно. Напоротив, верна следующая теорема: Теорема. Предположим, что в методе Полака-Райбера значения на каждом шаге вычисляются точно. Тогда существует функция, и начальное приближение, такие что.

Тем не менее, на практике метод Полака-Райбера работает лучше. Наиболее распространённые критерии останова на практике: Норма градиента становится меньше некоторого порога Значение функции в течении m последовательных итераций почти не изменилось

Вычислительная сложность

На каждой итерации методов Полака-Райбера или Флетчера-Ривса по одному разу вычисляются функция и её градиент, решается задача одномерной оптимизации. Таким образом, сложность одного шага метода сопряжённых градиентов имеет тот же порядок, что и сложность шага метода скорейшего спуска. На практике метод сопряжённых градиентов показывает лучшую скорость сходимости.

Будем искать методом сопряжённых градиентов минимум функции

Минимум этой фнкции равен 1 и достигается в точке (5, 4). Сравним на примере этой функции методы Полака-Райбера и Флетчера-Ривса. Итерации в обоих методах прекращаются, когда на текущем шаге квадрат нормы градиента становится меньше. Для выбора используется метод золотого сечения

Метод Флетчера - Ривса	Метод Полака - Райбера
Число итераций	Найденное решение	Значение функции	Число итераций	Найденное решение	Значение функции
		(5.01382198,3.9697932)			(5.03942877,4.00003512)
		(5.01056482,3.99018026)			(4.9915894,3.99999044)
		(4.9979991,4.00186173)			(5.00336181,4.0000018)
		(4.99898277,4.00094645)			(4.99846808,3.99999918)
		(4.99974658,4.0002358)			(4.99955034,3.99999976)

Реализовано два варианта метода сопряжённых градиентов: для минимизации квадратичного функционала, и для минимизации произвольной функции. В первом случае метод реализуется функцией vector FindSolution(matrix A, vector b) Здесь A и b - матрица и вектор, фигурирющие в определении квадратичной задачи оптимизации. Для минимизации произвольного функционала можно использовать одну из двух функций: vector FletcherRievesMethod(int spaceSize, Function F, vector (*GradF) (vector)) vector PolakRibiereMethod(int spaceSize, Function F, vector (*GradF) (vector)) Параметры для обеих функций совпадают и имеют следующий смысл: spaceSize - размерность пространства(число переменных, от которых зависит минимизируемый функционал) F - указатель на минимизируемую функцию. Функция должна иметь вид double <имя функции>(vector) GradF - указатель на функцию, вычисляющую градиент минимизируемого функционала Оба метода используют вспомогательную функцию для решения задачи одномерной оптимизации. В программе реализована одномерная оптимизация методом золотого сечения.

Методы градиентного спуска являются достаточно мощным инструментом решения задач оптимизации. Главным недостатком методов является ограниченная область применимости. В методе сопряжённых градиентов используется информация только о линейной части приращения в точке, как и в методах градиентного спуска. При этом метод сопряжённых градиентов позволяет решать квадратичные задачи за конечное число шагов. На многих других задачах метод сопряжённого градиента также превосходит метод градиентного спуска. Сходимость метода градиентов существенно зависит от того, насколько точно решается задача одномерной оптимизации. Возможные зацикливания метода устраняются с помощью обновлений. Тем не менее, если метод попадёт в локальный минимум функции, скорее всего, ему не удастся из него выбраться.