Главная > Теория автоматического управления > Теория автоматического управления, Ч.II (Воронов А.А.)
<< Предыдущий параграф
Следующий параграф >>
<< Предыдущий параграф Следующий параграф >>
Макеты страниц

Метод динамического программирования

Пусть объект описывается уравнением

где — белый шум с характеристиками

При условии, что требуется найти допустимое управление при котором критерий оптимальности

принимает минимальное значение.

Таким образом, рассматривается стохастическая задача оптимального управления, в которой случайное воздействие является белым шумом и входит в уравнение объекта аддитивно; ограничение на правый конец траектории отсутствует, фазовый вектор измеряется полностью и без помех, т. е. в каждый момент времени точно известно состояние объекта. В этой задаче является марковским процессом (так как случайное воздействие является белым шумом) и вся информация, используемая при определении характеристики будущего состояния объекта, содержится в Поэтому оптимальное управление должно быть функцией только от текущего состояния Здесь, как всюду в этой главе, управление называется допустимым, если функция кусочно-непрерывна и принимает значение из множества Кроме того, предполагается, что уравнение

при каждом фиксированном имеет единственное решение на интервале . Функции предполагаются непрерывными.

Для решения сформулированной задачи воспользуемся уравнением

где — элементы матрицы при граничном условии

Уравнение (10.169) является функциональным уравнением динамического программирования для стохастической задачи оптимального управления (10.166)-(10.168) и также называется уравнением Беллмана. Скалярная функция есть функция Беллмана. Если множество открыто и минимум левой части уравнения (10.169) достигается в стационарной точке, то уравнение Беллмана можно представить в виде слег дующей системы уравнений:

Достаточное условие оптимальности [181. Пусть существуют скалярная функция обладающая непрерывными частными производными допустимое управление и удовлетворяющие уравнению Беллмана (10.169) или (10.171) и граничному условию (10.170). Тогда управление и является оптимальным.

Обычно уравнение Беллмана записывают, используя след матрицы. Следом (или шпуром) -матрнцы обозначают или называется сумма элементов ее главной диагонали:

Как легко проверить непосредственным вычислением,

поэтому уравнение (10.169), очевидно, можно представить в виде

Вывод уравнения Беллмана. Пусть в момент фазовый вектор принимает определенное значение. Обозначим значение функционала (10.168) при указанном значении и некотором фиксированном управлении и

Минимальное значение этого функционала

есть, по определению, функция Беллмана. Опуская для краткости записи аргументы функций, представим функцию Беллмана в виде

или

Используя свойства условного математического ожидания

можно записать

Подставив это выражение в (10.172) и используя принцип оптимальности, получим

Но так как

то

Представим (10.166) в виде разностного уравнения

Если — белый шум с характеристиками (10.167), то по определению белого шума является случайным процессом с характеристиками

Моменты более высокого порядка являются малыми величинами более высокого порядка, чем поэтому из (10.174) имеем:

Разлагая в ряд в точке и используя последние соотношения, получим

Подставив это выражение для из (10.173) предельным переходом при получаем (10.169).

Граничное условие (10.170) получается непосредственно из определения функции Беллмана.

<< Предыдущий параграф Следующий параграф >>
Оглавление