[ Article ]

Journal of Institute of Control, Robotics and Systems - Vol. 31, No. 2, pp.98-105

ISSN: 1976-5622 (Print) 2233-4335 (Online)

Print publication date 01 Feb 2025

Received 09 Nov 2024 Revised 04 Dec 2024 Accepted 28 Dec 2024

DOI: https://doi.org/10.5302/J.ICROS.2025.24.0267

지도학습 기반 다중매개변수 혼합정수 이차계획법을 활용한 실시간 모델예측제어

유승준¹

; 권민우¹

; 김광기¹^{, *}

인하대학교 전기컴퓨터공학과 대학원생 clokh@inha.edu
인하대학교 전기컴퓨터공학과 대학원생 minu@inha.edu
인하대학교 전기공학과 교수 kwangki.kim@inha.ac.kr

Supervised Learning for Real-time Model Predictive Control Leveraging Multi-parametric Mixed Integer Quadratic Programming

Seungjun Yoo¹

; Minwoo Gwon¹

; Kwang-Ki Kim¹^{, *}

1Department of Electrical and Computer Engineering, Inha University, Republic of Korea
1Department of Electrical and Computer Engineering, Inha University, Republic of Korea
1Department of Electrical and Computer Engineering, Inha University, Republic of Korea

^*Corresponding author.

Abstract

This paper presents a novel supervised learning framework for real-time optimization of multi-parametric mixed-integer quadratic programming (mp-MIQP) problems. The framework utilizes a multi-layer perceptron (MLP) model to efficiently predict both continuous and binary control inputs while classifying the feasibility of the optimization problem. To address the computational burden of branch-and-bound methods and the memory limitations of explicit model predictive control (MPC), this framework learns optimal control inputs across diverse system states and prediction horizons through offline training. Comparative evaluations reveal that the proposed method significantly outperforms traditional approaches in computational speed and memory efficiency while maintaining high accuracy in approximating optimal solutions. These advancements position the framework as a transformative solution for real-time control applications, offering a robust and efficient alternative for online optimization in mp-MIQP problems.

Keywords:

model predictive control, multiparametric-mixed integer quadratic programming (mp-MIQP), supervised learning, multi-layer perceptron, real-time online optimization.

I. 서론

다중매개변수 혼합 정수 이차 계획법(mp-MIQP, Multiparametric-Mixed Integer Quadratic Programming)은 연속 변수와 이산 변수를 포함하며, 이차 비용 함수와 복잡한 제약 조건을 최적화하는 문제를 다루는 수학적 모델링 기법으로 널리 사용되고 있다[1,2]. mp-MIQP는 자동차, 로보틱스, 우주항공 그리고 전력전자 시스템의 임베디드 제어와 같은 다양한 응용 분야에서 실제 하이브리드 시스템을 모델링하는 방법 중 하나로 최적화 문제 해결을 위한 중요한 역할을 하지만, NP-hard 문제로 분류되며 높은 계산 복잡성을 가지는 한계가 있다[3-5]. 특히, 임베디드 피드백 제어기에서 실시간 연산을 수행하는 경우, 반복적 최적화 연산에 따른 계산 부담이 기하급수적으로 증가하며, 제한된 컴퓨팅 자원을 사용하는 임베디드 제어 시스템에 적용하기 어려운 제약이 존재한다.

이를 해결하기 위해 분기 한정법(Branch & Bound)과 같은 기법이 상용 최적화 솔버(CPLEX, GUROBI, MOSEK 등) 그리고 최적제어 솔버(Embotech사의 FORCESPRO 등)를 통해 활용되고 있다. 분기 한정법은 문제를 작은 서브 문제로 나누어 탐색하며, 탐색 공간의 상한 및 하한을 계산하여 최적해를 포함하지 않는 영역을 가지치기(pruning) 하는 방식으로 연산량을 줄인다. 그러나 이 기법은 최적화 문제의 이산 변수 수가 많아지거나 예측 구간(prediction horizon)이 증가할수록 탐색 공간이 지수적으로 늘어나며, 실시간 최적화에는 여전히 제한적이다. 이는 차량 제어, 로보틱스와 같은 응용 분야에서 특히 실질적인 제약이 되며, 이러한 분기 한정법의 실시간성의 한계를 해결하기 위하여 각 분야에서의 연구가 진행되어 왔다. 차량 제어 분야[6,7] 에서는 하이브리드 전기차(HEV)의 에너지 관리 최적화를 위해 Piecewise Affine (PWA) 모델로 표현하고, Big-M 기법을 적용하여 MIQP로 변환한 뒤 분기 한정법을 기반의 CPLEX를 활용하여 최적화를 수행하는 방법이 연구되었다. 이를 통해 전기 모터와 내연 기관의 에너지 사용 비율을 최적화하여 연료 소비와 배출을 줄이는 데 기여하였다. 로보틱스 분야[8] 에서는 로봇의 불연속적인 동작을 혼합 논리 동적 시스템 (MLD)으로 구성하고 이를 MIQP로 모델링하며 이전 샘플링 단계에서의 최적화 결과를 Warm-start 기법으로 활용해 분기 한정법의 계산 효율성을 개선한 연구가 진행되었다. 이를 통해 분기 한정법에서의 계산 성능 향상을 실험적으로 입증 하였다.

Explicit MPC (Model Predictive Control)을 기반으로 하는 mp-MIQP 최적화 방법은 분기 한정법에서의 본질적인 계산 복잡도 문제를 해결하기 위해 제안되었으며, mp-MIQP의 계산 효율성을 극대화한다[9,10]. Explicit MPC 기반 최적화 방법은 mp-MIQP 문제를 오프라인에서 미리 해결하고, 가능한 모든 상태와 제약 조건 조합에 대한 최적화 솔루션을 PWA 함수와 콤팩트(Compact, i.e., Closed and Bounded)한 볼록(Convex) 다면체(Polyhedral) (또는 다포체) 영역으로 저장한다. 이를 통해 온라인 실시간 연산 단계에서는 저장된 데이터를 활용하여 주어진 상태에 대한 최적해를 빠르게 조회할 수 있어 실시간 처리가 가능하다. 특히, 리프팅(Lifting) 기법을 사용하여 조각별 이차 함수를 고차원 공간에서 선형 함수로 변환하고, 다면체 영역 간 중복을 제거하여 효율적인 검색을 실시간으로 가능하게 한다[11].

그러나, Explicit MPC 또한 실제 임베디드 제어시스템에 적용되기 위해서는 아직 해결해야 하는 문제점들을 가지고 있다. 첫째, 오프라인 단계에서의 높은 초기 연산 비용이 존재하며, 조각별 함수의 복잡성이 증가할수록 다면체 영역을 정의하기 위한 연산 복잡도와 저장 비용 또한 급증할 수 있다. 둘째, 저장된 다면체 영역의 수가 많아지면 메모리 사용량이 과도해져 예측 구간이 길어지거나 차원이 높아질수록 저장 용량 부담이 지수형태로 가중된다. 이러한 한계는 특히 고차원 문제나 복잡한 제약 조건 그리고 안정화(Stabilizing) 요구 사양을 가진 최적제어 문제와 연관된 mp-MIQP 문제에서 Explicit MPC의 적용이 제한될 수 있다. 따라서 Explicit MPC는 특정 응용 분야에서 실시간 최적해 도출에 강점을 보이지만, 더 복잡하고 일반적인 문제를 다루기 위해서는 여전히 추가적인 개선과 보완이 필요하다.

따라서 본 논문에서 mp-MIQP에 대한 실시간 최적화를 통한 최적 제어 입력 값을 도출하기 위하여 지도학습 기반의 최적제어 솔루션 추정의 방법론을 제시한다. 제안하는 지도 학습 기반 최적제어 또는 예측제어 접근법은 Explicit MPC에서의 최적 솔루션에 대한 PWA함수와 다면체 영역을 지도 학습 모델로 대체하는 폭 넓은 의미의 End-to-End 옵티마이저(Optimizer)의 역할을 하며, 연속형 제어입력 결정 변수에 대해서는 회귀(Regression) 출력층을 통하여, 이진(Binary) 제어입력 결정 변수 그리고 초기조건(Initial Condition) 상태에 따른 예측제어의 최적화 문제 실현 가능성(Feasibility)에 대해서는 분류(Classification) 출력층을 통한 도출을 설계하였다.

기존 mp-QP의 Explicit MPC 솔루션의 한계를 극복하기 위하여, 기계학습 기반의 군집화를 통한 상태 공간의 복잡성을 줄이고, 인공 신경망(Neural Network) 모델을 통해 상태 변수와 최적 제어입력 결정 변수의 관계를 학습하려는 다양한 학술적 시도가 있어 왔다[12,13]. 본 논문에서는, 계산 복잡도 및 저장 메모리 할당 요구량이 훨씬 높은 하이브리드(Hybrid) MPC 그리고 mp-MIQP 문제에 대한 학습 기반 End-to-End 옵티마이저 기법을 제안하며, 분류 출력층을 통해 이진 제어입력 결정 변수의 최적해를 추정하는 도전적 문제를 다룬다는 점에서 차별성이 있다. 이는 학습된 데이터 기반의 추정 해를 구하는 것이기 때문에 최적해 도출 및 제어 요구사양들의 만족에 대한 평가가 이루어져야 하며, 실시간 온라인 최적화의 목적을 달성하기 위한 연산 시간과 저장 메모리 할당량에 대한 성능 평가가 이루어져야 한다. 이를 위하여 일반적인 Explicit MPC 기반 최적화 방법과의 최적성 및 효율성 비교를 통하여 제안 방법의 성능을 검증하였다.

II. 기존 다중매개변수 혼합 정수 이차 계획 문제에 대한 최적화 방법

1. 분기 한정법 기반 최적화 방법

분기 한정법[14,15]은 mp-MIQP 문제를 포함하는 일반적인 혼합 정수 계획 문제의 최적해를 찾는 데 보편적으로 사용되는 전역 최적화 기법이다. 분기 한정법은 비볼록 문제에서도 최적해를 보장할 수 있으며, 탐색 트리를 사용해 상하한을 지속적으로 갱신하며 최적해에 접근하는 방식으로 작동한다.

1) 초기 상하한 설정: 분기 한정법 알고리즘의 첫 번째 단계에서는 초기 탐색 영역에 대해 상한과 하한을 설정한다. 이를 위해 탐색 영역 Q_init 에 대해 상한 U₁ 과 하한 L₁ 을 계산한다. 상한은 영역 내 임의의 점을 선택하거나 국소 최적화 방법을 통해 얻을 수 있고, 하한은 문제의 볼록 완화를 통해 얻는다. 각 하위 문제 Q ⊂ Q_init 에 대하여 식 (1)과 같은 관계를 갖는다.

L Q ≤ f * Q ≤ U Q

(1)

여기서 f^∗(Q)는 영역 Q 에서의 최적 비용이며, L(Q)와 U(Q)는 각각 하한과 상한이다. 만약 초기 상하한의 차이가 사전에 정의된 허용 오차 ϵ 이내라면 탐색을 중단하고 현재 해를 최적해로 간주한다.

2) 탐색 영역 분할: 탐색을 계속해야 하는 경우, 분기 한정법은 탐색 영역을 작은 하위 영역으로 분할하여 탐색 트리를 확장한다. 이를 위해 변수의 값을 기준으로 영역을 나누어 각 하위 문제에 대해 상하한을 다시 계산한다. 혼합 정수 문제에서는 이진 변수에 대해 0 또는 1 값을 고정하여 분할을 수행한다.

3) 한정 및 가지치기: 각 하위 문제에서 계산된 상하한을 바탕으로 가지치기를 수행하여, 최적해를 포함하지 않는 영역을 탐색 트리에서 제거할 수 있다. 예를 들어, 식 (2)와 같이 특정 하위 문제의 하한 L(Q)가 현재까지 발견된 전역 상한 U_best 보다 높다면 해당 분기는 최적해를 포함할 가능성이 없으므로 탐색에서 제외한다. 가지치기를 통해 계산 효율성을 높이고 메모리 사용량을 줄일 수 있다.

P r u n i n g c o n d i t i o n : L Q ≥ U b e s t

(2)

4) 탐색 트리 업데이트 및 종료 조건: 탐색 트리의 각 단계에서는 전역 상하한을 갱신하며 지속적으로 탐색 영역을 좁혀나간다. 최적화 종료 조건은 상한과 하한의 차이가 설정된 허용 오차 이하일 때이다. 상하한 차이가 충분히 좁아진다면 탐색을 중단하고 현재 해를 최적해로 결정한다. 탐색 트리의 각 단계에서는 효율적인 탐색을 위해 특정 전략에 따라 변수를 선택하여 분할하는 방식이 사용된다. 탐색 및 가지치기를 통하여 트리의 특정 노드를 제거하여 탐색 공간을 줄이는 과정은 그림 1을 통하여 확인할 수 있다.

Fig. 1.

An exemplary procedure of the optimal solution identification in a branch and bound algorithm.

5) 수렴 과정 및 효율성: 분기 한정법 알고리즘은 이러한 분할과 가지치기 과정을 통해 점차 최적해에 수렴해 나간다. 분할된 하위 문제의 볼륨이 감소함에 따라 상하한 차이가 좁혀지며 수렴 속도가 빨라진다. 이 과정을 통해 탐색이 단계적으로 수렴하게 되며, 필요에 따라 탐색 깊이를 조정하여 탐색 효율성을 높인다. 분기 한정법은 혼합 정수 최적화 문제에 유용하지만, 예측 구간이 커질수록 탐색할 하위 문제가 지수형태로 증가함으로 계산 비용이 높아 실시간 제어와 같은 응용에서는 한계가 존재한다.

2. Explicit MPC 기반 최적화 방법

mp-MIQP 문제에 대한 Explicit MPC 알고리즘은 최적 제어 입력을 실시간 제어에서 빠르게 구할 수 있도록 설계된 기법이다. 이 방법은 모든 실행 가능한 상태에 대한 최적 제어 입력을 사전에 계산하여 실시간에서는 최적화 문제를 풀지 않고 현재 시스템 상태에 따라 미리 계산된 제어 법칙을 기반으로 실시간으로 제어 결정을 내린다.

1) 혼합정수 변수 파라미터화를 통한 문제 분할: Explicit MPC에서 예측 구간에 대한 이진 변수 𝛿 ∈ {0,1}^𝑛_𝛿의 조합에 따라 다중매개변수 이차 계획 문제(mp-QP)로 분할된다. 여기서, 총 분할의 개수는 이진 변수 조합 Power-Set의 원소 개수(Cardinality)인 2^𝑛_𝛿 이다. 2^𝑛_𝛿 개의 각 𝛿 조합에 대하여 연속 변수 𝑧 만을 포함하는 QP 문제로 변환되며, 이는 아래와 같은 일반적인 형태를 가진다.

m i n i m i z e 12 Z T H z + x T F T z

(3)

s u b j e c t t o G z ≤ w + S x, z ∈ R m

(4)

이때 𝐻, 𝐹, 𝐺, 𝑆, 𝑤는 상태와 제약 조건을 정의하는 행렬과 벡터이며, 식 (3)과 (4)로 구성되는 QP 문제는 상태 𝑥의 선형 동역학 제약조건을 만족하는 동시에 𝑧 와 𝑥 의 비용을 이차식 형태로 최소화하는 최적화 문제이다. 이렇게 변환된 각 𝛿 조합에 따라 정의된 QP는 고유한 해를 가지게 된다. 따라서 𝛿의 조합이 고정되면 mp-MIQP 문제는 𝑧만을 포함하는 mp-QP 문제로 변환되고, 결과적으로 초기조건 상태 변수 벡터 $x →$ 에 따라 최적제어 입력 𝑧을 다중 매개 변수에 대하여 계산할 수 있게 된다. 이를 통해 각 𝛿 조합에 따라 다면체 영역을 결정할 수 있다.

2) 활성 세트에 따른 임계 구역 분할: 각 연속 변수에 대한 최적화 문제에서, 특정 상태가 만족하는 활성 제약 조건의 집합을 활성 세트라고 한다. 활성 세트 접근을 통해 각 상태에 맞는 활성 제약 조건이 다르면 상태 공간이 새로운 임계 영역으로 구분된다. 이때, 특정 $x →$ 에서 활성화된(Active) 제약 조건의 집합 𝐴(𝑥)를 이용하여 최적해를 찾을 수 있다. 이 때, 최적 제어 문제는 식 (5)의 KKT (Karush-Kuhn-Tucker) 조건을 만족해야 한다.

H z + F x + G' λ = 0 λ i G i z - w i - S i x = 0 λ ≥ 0 G z ≤ w + S x

(5)

여기서 λ는 라그랑주 승수이며, 식 (5)의 두 번째 식은 아다마르 곱(Hadamard product)으로 Complementarity 조건에 해당하며 𝜆 ⊥ (𝐺𝑧 − 𝑆𝑥 − 𝑤)와 같이 나타낸다. 하위단의 QP 문제에서 헤시안(Hessian) 행렬 𝐻가 Positive Definite이고 선형 제약조건 𝐺𝑧 ≤ 𝑤 + 𝑆𝑥 의 Feasible Set이 Compact한 다면체임을 가정하여, 각 임계 영역에서는 식 (5)의 KKT 조건을 만족하는 해가 고유하게 존재함을 고려하였다.

이로 인해 각 임계 영역은 상태 공간 내에서 활성화된 제약 조건에 의해 결정된 특정 영역으로 분할되며, 각 임계 영역내에서 제어 입력은 선형 관계로 표현될 수 있고 해당 영역의 가치 함수(Value Function 또는 Optimal Cost-to-Go Function)는 초기조건 상태변수 𝑥의 볼록 2차 함수로 정의될 수 있다. 뿐만 아니라, 인접한 임계 영역의 경계 영역에서 최적제어 입력과 가치함수가 모두 연속되며, 전체 상태변수 영역에서의 가치함수가 볼록하다[7].

3) 임계 영역별 최적 제어 입력 법칙 저장: Explicit MPC의 최종 단계로, 각 𝜎 번째 임계 영역 𝐶𝑅_𝜎 에 대한 최적 제어 입력을 어핀(Affine) 제어 법칙으로 사전에 계산하여 저장할 수 있다. 이 제어 법칙은 식 (6)과 같은 형태로 나타나진다.

u * x = K σ x + d σ, x ∈ C R σ

(6)

여기서 𝐾_𝜎와 𝑑_𝜎는 임계 영역 𝐶𝑅_𝜎내에서 최적 제어 입력을 계산하기 위한 계수이다. 이렇게 계산된 제어 법칙은 실시간 제어 시 해당 초기조건 상태변수 𝑥 가 속한 임계 영역을 탐색하여 저장된 제어 법칙을 적용함으로써 최적제어 입력을 빠르게 매칭할 수 있도록 한다.

Explicit MPC는 분기 한정법 기반의 알고리즘의 예측 구간에 따라 지수적으로 증가하는 높은 연산량을 활성 세트에 따라 임계 영역으로 나누어 선형 제어 법칙을 저장하여 해결하였지만, 그에 따라 지수적으로 증가하는 임계 영역으로 저장 메모리 할당량이 기하급수적으로 늘어나게 되어, 높은 예측 구간을 가지는 mp-MIQP에서 실시간 온라인 구현의 어려움이 있다.

III. 지도 학습 기반 혼합 정수 이차 계획법에 대한 최적화

본 장에서는 mp-MIQP의 실시간 온라인 최적화를 위해 지도 학습 기반 해결안을 제안한다. II장에서의 정확한(exact) 최적화 알고리즘과 달리, 본 장에서는 단계별 현재 상태 값에 따라 오프라인 학습된 모델을 통하여 최적제어입력 값을 추정하는 End-to-End 학습 기반 최적화 알고리즘을 통해 예측제어 문제와 연관된 mp-MIQP의 최적해를 추정한다. 제안하는 예측제어를 위한 지도학습 기반 최적화 방법은 지수적으로 증가하는 분기 한정법의 연산량과 Explicit MPC의 메모리 요구량의 단점을 해소함과 동시에 높은 정확도를 유지하여 실시간 제어 환경에서의 활용 가능성을 극대화하기 위한 방법이다.

본 연구의 지도 학습 기반 최적화 모델은 그림 2와 같이 다층 퍼셉트론(Multi-Layer Perceptron) 구조를 기반으로 하여, 최적제어 입력과 실행 가능성을 동시에 예측할 수 있도록 설계한다. 상태 변수와 예측 시점을 입력으로 받아 복잡한 상태-최적 입력 값 관계를 학습하며, 실시간 제어에 필요한 높은 계산 효율성을 제공한다.

Fig. 2.

Multi-layer perceptron based supervised model.

1) 모델 레이어: 지도 학습 모델의 입력 𝜒는 시스템의 상태를 나타내는 𝑑_𝑥차원 초기조건 상태변수 벡터 𝑥와, 예측 구간(Prediction Horizon)의 길이(time-steps) 𝑁_𝑝로 구성된다. 따라서, 𝜒는 시스템 상태와 예측 구간을 포함한 𝑑_𝑥 + 1차원 벡터이며, 지도 학습 모델의 첫 번째 은닉층의 ℎ₀ (= 𝜒)로 입력되어진다. 본 모델은 총 𝑁 개의 은닉층을 포함하며, 각 𝑖 번째 은닉층은 𝑑_𝑖 개의 뉴런으로 구성되어 있다. 각 은닉층에서는 가중치 행렬 𝑊_𝑖와 바이어스 벡터 𝑏_𝑖를 통해 입력 데이터를 고차원 공간으로 선형 변환한 후, ReLU (Rectified Linear Unit) 활성화 함수를 적용하여 비선형성을 추가하며 다음과 같이 나타낼 수 있다:

h i = R e L U W i h i - 1 + b i, i = 1,2, …, N

(7)

이 과정을 통해 입력 데이터는 각 은닉층을 거치면서 더욱 복잡한 패턴을 학습할 수 있는 형태로 변환된다. 마지막 𝑁 번째 은닉층의 출력 ℎ_𝑁는 실수형 최적 입력 값을 출력하기 위한 회귀 출력층과 이진 최적 입력 값과 실현 가능성을 출력하기 위한 분류 출력층으로 목적에 맞게 두 개의 출력층으로 전달된다.

2) 회귀 출력층: 회귀 출력층은 마지막 은닉층의 출력 ℎ_𝑁에 대해 선형 결합을 수행하여 실수형 최적 입력 값을 예측하는 역할을 한다. 회귀 출력 $y^r e g$ 은 식 (8)과 같이 정의된다.

y^r e g = W r e g h N + b r e g

(8)

회귀 출력층에서 예측된 값 $y^r e g$ 은 실제 최적 입력 값 𝑦_𝑟𝑒𝑔과의 차이를 최소화하기 위해 학습된다. 이를 위해 평균 제곱 오차를 회귀 손실 함수로 식 (9)과 같이 정의하여 예측값과 실제 값 간의 오차를 측정한다.

L o s s r e g = 1 n ∑ j = i n y^r e g, j - y r e g, j 2

(9)

여기서 𝑛은 배치 크기를 나타내며 학습 과정에서의 평균 손실을 계산하기 위해 사용된다. $y^r e g, j$ 은 모델이 예측한 𝑗번째 샘플의 회귀 출력 값이며, 𝑦_{𝑟𝑒𝑔,𝑗}은 실제 𝑗번째 샘플의 목표 출력 값이다. 따라서, 회귀 손실 함수 𝐿𝑜𝑠𝑠_𝑟𝑒𝑔을 최소화함으로써 모델은 실수형 최적 입력 값에 대하여 예측된 회귀 출력이 실제 목표 값과 가까워지도록 학습되며 회귀 출력층에서의 학습이 이루어진다.

3) 분류 출력층: 분류 출력층은 이진 최적 입력 값과 실현 가능성에 대한 ℎ_𝑁에 대해 선형 결합을 수행하고, 그 결과에 시그모이드(sigmoid) 활성화 함수를 적용하여 각 클래스에 대한 0과 1사이의 확률 값으로 식 (10)과 같이 예측한다.

y^c l s = σ W c l s h N + b c l s = 1 1 + e - W c l s h N + b c l s

(10)

회귀 출력층과 마찬가지로 분류 출력층에서 예측된 값 $y^c l s$ 는 실제 이진 데이터 𝑦_𝑐𝑙𝑠와 비교되어 학습된다. 이진 분류의 성능을 최적화하기 위해 이진 교차 엔트로피(Binary Cross-Entropy)를 손실 함수로 정의한다. 이진 교차 엔트로피 손실 함수는 식 (11)과 같이 정의되며, 모델이 각 클래스에 대한 확률을 올바르게 예측하도록 유도한다.

L o s s c l s = - 1 n ∑ j = 1 n ∑ k = 1 2 y c l s, j k l o g y^c l s, j k + 1 - y c l s, j k l o g 1 - y^c l s, j k

(11)

이진 교차 엔트로피 손실 함수 𝐿𝑜𝑠𝑠_𝑐𝑙𝑠를 최소화함으로써 모델은 각 샘플이 해당 클래스에 속할 확률을 정확하게 예측하도록 학습되며, 이진 분류 출력층에서의 학습이 이루어진다.

이와 같이 지도 학습 기반 혼합 정수 이차 계획법 최적화 모델은 복잡한 상태-입력 관계를 효과적으로 학습하여, 실시간 제어에서 최적 입력과 실행 가능성을 높은 정확도로 예측할 수 있도록 설계되었다. 이러한 접근법을 통해 연산 효율성을 높이면서도 예측 모델의 실용성을 유지하는 기반이 마련되었다.

IV. 성능 평가

III장에서 제시한 지도학습 기반 혼합 정수 이차 계획법에 대한 최적화는 학습된 데이터 기반으로 현재 상태에 따른 최적 입력 값을 추정하는 기법이다. 따라서, 지도학습 기반으로 도출되는 추정 최적 입력 값과 실행 가능성 여부가, II장의 Explicit MPC 알고리즘을 통한 정확한 해와 비교하였을 때의 정확도를 검증할 필요가 있다. 또한, 실시간 온라인 최적화를 수행하기 위해서 중요한 연산 시간과 저장 메모리 할당량을 비교하여 지도 학습 기반의 최적화의 기존 Explicit MPC 알고리즘 대비 성능 향상도를 평가할 수 있다.

따라서 본 장에서는 일반적인 mp-MIQP 문제를 정의하고 이에 대한 Explicit MPC 기반 솔루션과 지도 학습 기반 최적화와 비교하여 추정된 최적입력 및 실행 가능성의 정확도와 연산 시간, 저장 메모리 할당량을 비교한다. 또한, mp-MIQP에 대한 응용 사례로 스위칭 전력변환기 제어 문제를 예시로 들어, 학습된 다층 퍼셉트론 모델 기반 End-to-End 예측 제어 옵티마이저로써의 적합성에 대한 성능 평가를 수행하였다.

1. 일반적인 다중매개변수 혼합 정수 이차 계획 문제

1) 다중매개변수 혼합 정수 이차 계획 문제 정의: 지도학습 기반 최적화 방법의 실시간성 성능 평가를 위하여 식 (12)~(14)와 같이 2개의 상태 변수와 2개의 입력 변수를 갖는 MIQP 문제를 정의한다.

m i n i m i z e ∑ t = 1 N - 1 x t T P x t + u t T Q u t + x N T P N x N

(12)

s u b j e c t t o x t + 1 = A x t + B u t - 5 - 5 ≤ x ≤ 55 u 1 ∈ 0,1 - 4 ≤ u 2 ≤ 3

(13)

P = 1001 Q = 1001 P N = 5005 A = 1.2 - 1 - 0.8 0.5 B = 2 - 0.5 - 0.5 0.8

(14)

식 (12)에서는 정규화를 위한 이산화 시간 단계마다 상태값과 입력 값에 대한 비용을 최소화하는 목적 함수를 이차식 형태로 설정한다. 식 (13)에서는 제어 시스템의 동역학을 선형 관계로 제약조건화 하여 모델링하였으며, 이 때 입력 변수는 이진 입력 값을 갖는 혼합 정수 변수 𝑢₁와 실수형 입력을 갖는 𝑢₂로 정의한다. 본 mp-MIQP 문제에서의 가중치 𝑃,𝑄, 𝑃_𝑁 과 상태 전이 행렬 𝐴와 제어 행렬 𝐵는 각각 식 (14)와 같이 정의한다.

2) Explicit MPC를 통한 최적해: Explicit MPC 기반 최적화 및 모델 예측 제어를 위한 솔버로써 오픈 소스인 MPT3 (Multi Parametric Toolbox 3)를 MATLAB 환경에서 사용하여 혼합 정수 이차 계획법에 대한 최적해를 도출하였다[16]. 1에서부터 10까지로 정의된 각 예측 구간 𝑁_𝑝에 따라 2^𝑁_𝑝개로 이진 변수의 매개변수화 조합으로 나눈다. 각 이차 계획 문제에대한 Explicit MPC을 통하여 임계 영역으로 분할하며, 각 임계 영역마다 최적 제어 법칙을 선형 조합으로 저장하였다. 𝑁_𝑝 = 1,3,5,7에 대하여 정의된 임계 영역은 그림 3과 같이 나타난다. 이를 통해 도출되는 최적 입력 값은 Ground-truth 데이터가 된다.

Fig. 3.

Define critical regions for each prediction horizon.

3) 지도학습 알고리즘 기반 최적해: MPT3를 통해 생성된 𝑁_𝑝 별 Explicit MPC 기반 최적해 도출을 통해 구한 데이터셋을 III장에서 제안한 다층 퍼셉트론 기반 지도 학습 모델에 학습시킨다. 사용된 데이터셋은 상태 변수 𝑥_𝑡, 예측 구간 𝑁_𝑝, 최적 제어 입력 값 $u t *$ , 실행 가능성 𝜃를 포함한다. 모델 학습 및 튜닝은 PyTorch 라이브러리를 통해 GPU: NVIDIA Geforce RTX 4070 Laptop을 사용하며, CUDA를 통하여 GPU 가속 및 병렬 처리 기능을 활용하여 학습하도록 설정하였다. 모델 학습 이전 입력 데이터 (𝑥_𝑡, 𝑁_𝑝)과 출력 데이터 ( $u t *$ , 𝜃)로 분할된다. 출력 데이터는 회귀와 분류 작업에 따라 각 손실 함수에 맞추어 Adam 머신러닝 최적화 솔버를 기반으로 학습률 0.001로 설정해 학습하였다. 4개의 층으로 구성된 다층 퍼셉트론 모델 학습은 50 에폭(epoch)에 걸쳐 진행되며, 각 에폭에서 배치 단위로 입력 데이터를 통해 최적 입력과 실행 가능성 예측을 수행한다. 각 배치에서 예측 값과 실제 값 간의 손실을 계산한 후, 역전파로 가중치를 업데이트한다. 이 과정을 통해 학습된 모델은 Explicit MPC의 결과와 비교한다.

4) 정확도 평가: 다중매개변수 최적화를 통한 정확한 최적화 솔루션 1000개(각 𝑁_𝑝 별 100개)와 지도학습 기반 추정해를 비교한 결과는 다음과 같다. 회귀 출력층을 통해 도출된 $u 2 *$ 는 𝑅𝑀𝑆𝐸 값이0.2418이며, 분류 출력층을 도출된 $u 1 *$ 은 일치율 99.8%, 실행 가능성 𝜃는 일치율 99.5%로 계산되었다.

5) 연산 시간 비교: 각 알고리즘을 통한 최적제어 입력은 CPU: Intel i7-13700H 하드웨어를 통해 연산되어졌으며, 각 예측 구간마다 임의의 상태 입력 값 100개의 데이터 총 1000개에 따르는 최적해 도출에 소요되는 평균 연산 시간을 통해 두 알고리즘의 연산 시간을 비교하였으며 결과는 그림 4와 같다. 평균 연산 시간은 Explicit MPC에서 𝑁_𝑝 = 1일 때 약 1.201 ms이며 𝑁_𝑝 = 10일 때 약 2.731 ms로 𝑁_𝑝가 커질수록 평균 연산 시간이 증가하는 걸 확인할 수 있다. 지도학습 기반 혼합 정수 이차 계획법에서 전 예측 구간에서 평균 약 0.055 ms로 동일하게 소요되었으며, 본 문제에서 지도학습 기반의 알고리즘을 통한 최적해를 구할 때 Explicit MPC 대비 25.74~ 48.76배 가량 빠른 것을 확인할 수 있다.

Fig. 4.

Average calculation time and standard deviation for prediction horizon.

6) 저장 메모리 할당량 비교: Explicit MPC에서 𝑁_𝑝 별로 생성된 Explicit MPC의 저장 메모리 할당량과 본 혼합 정수 이차 계획 문제를 하나의 지도 학습 모델로 대체한 저장 메모리 할당량을 비교한 결과는 그림 5와 같다.

Fig. 5.

Storage memory allocation for prediction horizon.

mp-MIQP에서는 𝑁_𝑝 = 10 까지의 저장 메모리 할당량은 138,912 𝐾𝐵 로 𝑁_𝑝 가 증가함에 따라 지수형태로 증가하기 때문에, 지도학습 기반 혼합 정수 이차 계획법에서의 저장 메모리 할당량 78 𝐾𝐵 와 비교했을 때 약 1780.923배로 큰 차이를 보이는 것을 볼 수 있다.

2. 스위칭 전력 컨버터 제어 문제

IV장 1절에서 제안된 지도학습 기반 최적해 추정 솔루션 도출 기법은 높은 정확도를 보이며, 기존 알고리즘 대비 낮은 연산 시간과 적은 메모리 사용량을 통해 실시간 최적화에 적합한 방법임이 검증되었다. 따라서, 본 장에서는 실제 전력 전자 분야에서의 하이브리드 시스템을 대상으로 지도 학습 기반 실시간 최적화를 진행하여, 옵티마이저로써의 타당성과 최적성을 평가한다.

1) 다중매개변수 혼합 정수 이차 계획 문제 정의:그림 5에 제시된 컨버터 회로 모델의 스위칭 모드 제어를 위하여 mp-MIQP를 정의한다[17]. 해당 문제는 출력 전압 𝑣_2,𝑡이 참조 신호 𝑣_{𝑑𝑒𝑠,𝑡}를 정확히 추적(Reference tracking)하면서 스위칭 빈도를 최소화하여 시스템의 효율성과 안정성을 극대화하는 것을 목표로 하며, 이를 위해 식 (15), (16)과 같은 목적 함수와 시스템 동역학을 기반으로 문제를 구성하였다.

Fig. 6.

Switching power converter circuit model.

m i n i m i z e ∑ t = 0 T v 2, t - v d e s, t T P v 2, t - v d e s, t + ∑ t = 1 T - 1 λ u t - u t - 1

(15)

s u b j e c t t o x t + 1 = G x t + H u t u t ∈ - 1,0, 1, t = 0,1, …, T - 1

(16)

식 (15)의 목적함수는 𝑣_2,𝑡가 𝑣_{𝑑𝑒𝑠,𝑡}를 최대한 정확히 추적하도록 유도하는 항 (𝑣_2,𝑡 − 𝑣_{𝑑𝑒𝑠,𝑡})^𝑇𝑃(𝑣_2,𝑡 − 𝑣_{𝑑𝑒𝑠,𝑡})와 스위칭 입력의 변화량 |𝑢_𝑡 − 𝑢_𝑡−1| 을 최소화하여 스위칭 빈도를 줄이고 이전 상태 입력을 유지하는 것을 선호하는 항으로 구성된다. 이 두 항목은 출력 신호 품질 향상과 스위칭 손실 감소를 동시에 달성하며, 이 때 𝑃 와 𝜆 는 두 목표 간의 트레이드-오프를 조정하는 가중치 파라미터이다. 식 (16)의 시스템 동역학 제약조건 𝑥_𝑡+1 = 𝐺_{𝑥_𝑡} + 𝐻_{𝑢_𝑡}은 시간 𝑡 에서 입력 𝑢_𝑡 에 의해 현재 상태 𝑥_𝑡 가 다음 상태 𝑥_𝑡+1 로 선형적으로 변화하는 과정을 설명한다. 상태 벡터 𝑥_𝑡 = [𝑖_1,𝑡, 𝑣_1,𝑡, 𝑖_2,𝑡, 𝑣_2,𝑡]^𝑇 는 인덕터 전류와 커패시터 전압으로 구성되며, 이는 제어 입력 𝑢_𝑡 ∈ {−1,0,1}에 따라 변화한다. 해당 MIQP 문제의 최적화를 위해 각 파라미터는 식 (17)~(19)과 같이 설정하여 해결하였다.

L 1 C 1 L 2 C 2 = 10 μ H 1 μ F 10 μ H 10 μ F, R V d c T λ = 1 Ω 10 V 300 2.2 V 2

(17)

P = 10 - 3 000 0 10 - 3 00 00 10 - 3 0 00022,

(18)

v d e s, t = A s i n ω t + ϕ

(19)

식 (17)은 전력 컨버터의 물리적 파라미터와 가중치 파라미터를 정의하며, 식 (18)에서는 상태 변수 가중치 행렬 𝑃를 통해 출력 전압 𝑣₂ 추적의 중요성을 강조한다. 식 (19)에서는 시간에 따라 변하는 사인파의 참조 신호를 정의한다. 따라서 모델링 된 mp-MIQP 문제에 대하여 지도 학습 기반 최적화 알고리즘을 적용하기 위하여 다양한 𝑥_𝑡, 𝑁_𝑝, 그리고 𝑣_{𝑑𝑒𝑠,𝑡}의 범위에서 도출되는 $u t *$ 와 𝜃 의 데이터를 다층 퍼셉트론 모델의 학습 데이터로 활용할 수 있다.

2) 지도 학습 알고리즘 기반 최적해: 오프라인 단계에서 생성되는 다양한 𝑥_𝑡, 𝑁_𝑝 , 𝑣_{𝑑𝑒𝑠,𝑡} 별 데이터를 지도 학습 모델이 효과적으로 학습하여 실시간 온라인 최적해를 추정하기 위해서 기존 고려되는 𝑥_𝑡, 𝑁_𝑝 뿐만 아니라, 𝑣_{𝑑𝑒𝑠,𝑡} 도 추가적으로 학습 데이터에 포함되어야 한다. 이를 위해, 각 시간 단계에서의 𝑣_{𝑑𝑒𝑠,𝑡}의 값을 포함하여, 이를 결정하는 파라미터 𝐴, 𝜔, 𝜙 까지 입력 데이터로 활용한다. 다층 퍼셉트론 기반 지도 학습 모델은 이러한 입력 데이터를 비선형적으로 학습하여 복잡한 단계를 효과적으로 모델링할 수 있다. 참조 신호의 파라미터를 포함한 데이터 학습은 다양한 작업 조건에서 참조 신호 변화를 보다 정확히 예측 하도록 모델의 일반화 성능을 향상시키며, 결과적으로 실시간 최적해 추정의 정밀성을 높인다. 제안된 방식을 통한 MPC 제어기로써 최적화 성능은 Explicit MPC 알고리즘의 결과와 비교하여 평가될 수 있다.

3) 최적화 성능 평가: 학습이 완료된 지도학습 모델 기반 최적해 추정 기법은 Explicit MPC 알고리즘과의 참조 신호 추적과 스위칭 빈도 및 최종 비용 값 비교를 통해 새로운 실시간 최적화 도구로써 적합성이 평가되어진다. 그림 7과 표 1은 초기 상태 변수 𝑥₀ = [2.003, −0.726, 1.686, −0.020], 𝑁_𝑝 = 25, 𝑣_{𝑑𝑒𝑠,𝑡} = 4.62 sin $2.21 π t T$ 일 때의 Explicit MPC와 지도학습 기반 최적화 방법의 결과이다. 그림 7과 표 1을 통한 두 알고리즘의 비교 결과 본 mp-MIQP 문제의 주 제어 목적인 참조 신호 추적에 대해서는 RMSE가 약 0.03 정도 차이가 나는데 반해, 낮은 가중치를 가지는 스위칭 횟수에 대해서는 2배이상 차이가 나는 것을 확인할 수 있다. 최종적으로 최적화 후 계산되는 총 비용 값은 Ground-Truth인 Explicit MPC 대비 91.5% 성능을 보인다.

Fig. 7.

Comparison of the controlled trajectory and control inputs of explicit MPC and learning MPC(Ours).

Table 1.

Optimization performance comparison of Explicit MPC and Learning MPC(Ours).

본 장에서 지도학습 기반 mp-MIQP 최적화 기법에 대한 실시간 온라인 최적화 적합성의 성능을 일반적인 mp-MIQP 문제와 스위칭 전력 컨버터 mp-MIQP 문제에서 평가하였다. 일반적인 mp-MIQP 문제에서는 Explicit MPC와 지도 학습 접근법의 결과 비교하였으며, 해당 혼합 정수 이차 계획 문제에 대해서 1780.923배 작은 저장 메모리 할당량을 가지면서, 최대 116.20배 빠른 연산 속도를 보여줌으로써 실시간 온라인 최적화에 적합할 것으로 전망된다. 또한, 도출되는 해의 최적성의 경우 일반적인 mp-MIQP에서는 회귀 출력에서는 −4 ≤ 𝑢₂ ≤ 3의 입력 범위 기준 0.2418의 RMSE, 분류 출력에서 $u 1 *$ 은 99.8%, 𝜃는 99.5% 수준의 높은 정확도를 가진다. 스위칭 전력 컨버터 문제에서는 mp-MIQP 비용 함수에 대하여 91.5%의 성능을 보이며, 큰 실시간성 확보 대비 높은 정확도를 보이는 것이 실험적으로 입증됐다.

V. 결론 및 향후 계획

본 논문에서는 실시간 온라인 최적화를 위한 낮은 연산량과 저장 메모리 할당량을 가지면서 높은 정확도를 보이는 지도 학습 기반 mp-MIQP에 대한 최적화 방법을 제안했다. 오프라인으로 생성된 예측 구간과 상태 값에 따른 실제 최적해에 대한 데이터셋을 다층 퍼셉트론 기반 모델로 학습하였고, 이는 분기 한정법 기반 최적화에서의 높은 연산량과 Explicit MPC 기반 최적화에서의 큰 저장 메모리 할당량이 가지는 단점을 보완하는, 최적화 솔버로의 성능 또한 검증된 실시간 온라인 최적화에 특화된 접근법이다.

본 논문에서 제안한 지도학습 기반 mp-MIQP 최적화 기법의 개선을 위해, 다음과 같은 추가 연구를 계획한다. 첫째, 파라미터 값 변화에 대한 유연성 증대를 위한 확장된 End-to-End 학습모델을 연구한다. 현재의 제안된 방법은 mp-MIQP 문제에서 고정된 파라미터 값을 학습에 활용한다. 이를 확장하여, mp-MIQP의 파라미터 값을 입력층에 포함하여 학습 과정에서 다루는 방식을 개발할 계획이다. 이러한 접근은 문제 내 파라미터 변화에 유연하고 적응적으로 대처하며, 학습된 모델의 일반화를 향상시킬 것으로 기대한다. 둘째, 이진 최적 입력 값 궤적(trajectory) 예측을 이용한 실시간 온라인 최적화 연구를 추가한다. 제안된 접근법은 각 시간 단계의 상태 변수 값에 따라 최적 입력 값을 도출하는 방법에 중점을 둔다. 향후 연구에서는 초기 상태 변수 값을 기반으로 이진 최적 입력 값의 궤적을 예측하고 이를 매개변수화하여 이차 계획 문제와 같은 볼록 최적화 문제로 변환하는 방법을 고안한다. 이 방식은 기존 방법과의 성능 및 효율성을 비교하여 지도학습 기반 혼합 정수 계획 최적화 기법의 발전 가능성을 입증할 수 있을 것으로 전망한다.

Acknowledgments

이 논문은 2024년도 정부(산업통상자원부)의 재원으로 한국산업기술진흥원의 지원을 받아 수행된 연구임(P0020536, 2024년 산업혁신인재성장 지원사업).

REFERENCES

V. Dua, N. A. Bozinis, and E. N. Pistikopoulos, “A multiparametric programming approach for mixed-integer quadratic engineering problems,” Computers & Chemical Engineering, vol. 26, no. 4, pp. 715-733, 2022. [https://doi.org/10.1016/S0098-1354(01)00797-9]
A. Fuchs, D. Axehill, and M. Morari, “Lifted evaluation of mp-MIQP solutions,” IEEE Transactions on Automatic Control, vol. 60, no. 12, pp.3328-3331, 2015. [https://doi.org/10.1109/TAC.2015.2417853]
H. Park, G. Padilla, and K. Yu, “Sall tracking control for hybrid aquatic UAV,” Journal of Institute of Control, Robotics and Systems (in Korean), vol. 30, no 2, pp. 159-165, 2024. [https://doi.org/10.5302/J.ICROS.2024.23.0072]
Y. Cho and B. Cho, “Hybrid control of wheel quadruped robot for enhanced mobility and efficiency in diverse terrains,” Journal of Institute of Control, Robotics and Systems (in Korean), vol. 30, no 8, pp. 863-870, 2024. [https://doi.org/10.5302/J.ICROS.2024.24.0055]
J. Zhang, C. Liu, X. Li, H. Zhen, M. Yuan, Y. Li and J. Yan, “A survey for solving mixed integer programming via machine learning,” Neurocomputing, vol. 519, pp. 205-217, 2023. [https://doi.org/10.1016/j.neucom.2022.11.024]
G. Ripaccioli, A. Bemporad, F. Assadian, C. Dextreit, S. Di Cairano, and I. Kolmanovsky, “Hybrid modeling, identification, and predictive control: An application to hybrid electric vehicle energy management,” Hybrid Systems: Computation and Control, pp. 321-335, 2009. [https://doi.org/10.1007/978-3-642-00602-9_23]
H. Jung, T. Oh, H. Park, H. Lee, and J. Lee, “Hybrid model predictive control for hybrid electric vehicle energy management using an efficient mixed-integer formulation,” IFAC-Papers OnLine, pp. 501-506, 2022. [https://doi.org/10.1016/j.ifacol.2022.07.493]
T. Marcucci and R. Tedrake, “Warm start of mixed-integer programs for model predictive control of hybrid systems,” IEEE Transactions on Automatic Control, vol. 66, no. 6, pp. 2433-2448, 2022. [https://doi.org/10.1109/TAC.2020.3007688]
R. Oberdieck and E. N. Pistikopoulos, “Explicit hybrid model-predictive control: The exact solution,” Automatica, vol. 58, pp. 152-159, 2015. [https://doi.org/10.1016/j.automatica.2015.05.021]
A. C. Kokossis and M. C. Georgiadis and E. Pistikopoulos, “Robust (explicit) optimization and control via Mixed Integer Programming,” 33rd European Symposium on Computer Aided Process Engineering, vol. 52 pp. 1711-1716, 2023. [https://doi.org/10.1016/B978-0-443-15274-0.50272-9]
A. Fuchs, D. Axehills, and M. Morari, “Efficient evaluation of mp-MIQP solutions using lifting,” arXiv:1311.4752, 2014. https://arxiv.org/abs/1311.4752
Y. Huo, F. Bouffard and G. Joós “Integrating learning and explicit model predictive control for unit commitment in microgrids,” Applied Energy, vol. 306, pp. 118026, 2022. [https://doi.org/10.1016/j.apenergy.2021.118026]
E. T. Maddalena, C. Moraes, G. Waltrich, and C. Jones, “A neural network architecture to learn explicit MPC controllers from data,” IFAC-PapersOnLine, vol. 53, pp. 11362-11367, 2020. [https://doi.org/10.1016/j.ifacol.2020.12.546]
R. Fletcher and S. Leyffer, “Numerical experience with lower bounds for MIQP branch-and-bound,” SIAM Journal on Optimization, vol. 8, no. 2, pp. 604-616, 1998. [https://doi.org/10.1137/S1052623494268455]
S. Boyd and J. Mattingley, “Branch and bound methods,” Notes for EE364B Winter 2006-07, Standford University, pp. 1-18, (Updated on Apr. 1, 2018). https://web.stanford.edu/class/ee364b/lectures/bb_notes.pdf
M. Kvasnica, J. Holaza, B. Takács, and D. Ingole, “Design and verification of low-complexity explicit MPC controllers in MPT3,” European Control Conference (ECC), pp. 2595-2600, 2015. [https://doi.org/10.1109/ECC.2015.7330929]
R. Takapoui, N. Moehle, S. Boyd, and A. Bemporad, “A Simple effective heuristic for embedded mixed-integer quadratic programming” International Journal of Control, vol. 93, no. 1, pp. 2-12, 2020. [https://doi.org/10.1080/00207179.2017.1316016]

유 승 준

2024년 인하대학교 전기공학과(공학사). 2024년~현재 인하대학교 대학원 전기컴퓨터공학과 석사과정 재학 중. 관심분야는 모델 예측 제어, 딥러닝, 최적화 기반 전기차 에코 드라이빙.

권 민 우

2023년 인하대학교 기계공학과(공학사). 2023년~현재 인하대학교 대학원 전기컴퓨터공학과 석사과정 재학 중. 관심분야는 모델 예측 제어, 혼합 정수 최적화 기반 제어, 제어 시스템 최적 스케쥴링.

김 광 기

2007년 연세대학교 천문우주학과(이학사). 2009, 2013년 일리노이대학교(UIUC) 항공우주공학과(공학석사, 공학박사). 2013~2016년 조지아 공과대학(Georgia Tech) 전기컴퓨터공학과 박사후연구원. 2016~2017년 현대기아자동차기술연구소 전자기술센터 책임연구원. 2017년~현재 인하대학교 전기공학과 교수. 관심분야는 제어, 로보틱스, 최적화.

	Tracking error (RMSE)	Number of switching	Total cost
Explicit MPC	0.563	26	2153.1
Ours	0.593 (5.3%↑)	59 (126.9%↑)	2336.9 (8.5%↑)