Приложение 1 к лекции 9

Вывод уравнения Беллмана

Пусть управляемый объект описывается векторным дифференциальным уравнением общего вида

(П.1.1)

а критерий оптимальности также имеет общий вид

(П.1.2)

Необходимо в классе допустимых управлений найти управление u0(t), при котором функционал I достигает минимального значения, т.е.

(П.1.3)

а объект переводится за время T- t0 из заданного начального состояния x(t0) в произвольное конечное, принадлежащее пространству состояний.

В основу дальнейших рассуждений положен принцип оптимальности, утверждающий, что любой оставшийся конечный участок оптимальной траектории сам по себе является также оптимальной траекторией.

Предположим, что уже найдены оптимальное управление u0(t) и соответствующая ему траектория движения объекта x(t). Выберем на оптимальной траектории две точки, соответствующие моментам времени t и t+ , где - малая величина. Согласно принципу оптимальности участки оптимальной траектории от точек t и t+ до конечной точки Т являются оптимальными. Обозначим минимальное значение функционала (П.1.2), соответствующее этим участкам:

(П.1.4)

(П.1.5)

На основании выражений (П.1.4), (П.1.5) можно записать

(П.1.6)

Учитывая малость , запишем

(П.1.7)

где - малая с большим порядком малости, чем .

Функцию х(t+ ) разложим в ряд Тейлора в окрестности точки t, представив его в виде

(П.1.8)

где - совокупность последующих членов ряда.

Предполагая дифференцируемость функции V по своим аргументами и учитывая (П.1.8), функцию V(x(t+ ), t+ ) разложим в ряд Тейлора в окрестности точки (x(t), t):

(П.1.9)

где - вектор-строка частных производных в точке (x(t),t); - приращение вектора x(t); - совокупность последующих членов ряда Тейлора.

Подставим (П.1.7), (П.1.9) в (П.1.6):

(П.1.10)

где - все члены с порядком малости, большим, чем у .

Так как величина V(x(t),t) не зависит от управления, вынесем ее из-под символа минимума и взаимно уничтожим с левой частью выражения. Оставшиеся члены разделим на . Производную , не зависящую от u(t), вынесем за скобки, а производную заменим согласно (П.1.1) функцией f. Тогда с учетом того, что , получим уравнение Беллмана

(П.1.11)