Classical optimization theory deals with fixed, time-invariant objective functions. However, time-varying optimization has emerged as an important subject for decision-making in dynamic environments. In this work, we study the problem of learning from streaming data through a time-varying optimization lens. Unlike prior works that focus on generic formulations, we introduce a structured, \emph{weight-based} formulation that explicitly captures the streaming-data origin of the time-varying objective, where at each time step, an agent aims to minimize a weighted average loss over all the past data samples. We focus on two specific weighting strategies: (1) uniform weights, which treat all samples equally, and (2) discounted weights, which geometrically decay the influence of older data. For both schemes, we derive tight bounds on the ``tracking error'' (TE), defined as the deviation between the model parameter and the time-varying optimum at a given time step, under gradient descent (GD) updates. We show that under uniform weighting, the TE vanishes asymptotically with a $\mathcal{O}(1/t)$ decay rate, whereas discounted weighting incurs a nonzero error floor controlled by the discount factor and the number of gradient updates performed at each time step. Our theoretical findings are validated through numerical simulations.
논문 ID : 2510.13052제목 : Time-Varying Optimization for Streaming Data Via Temporal Weighting저자 : Muhammad Faraz Ul Abrar (애리조나 주립대학교), Nicolò Michelusi (애리조나 주립대학교), Erik G. Larsson (린셰핑 대학교)분류 : cs.LG cs.AI cs.SY eess.SP eess.SY math.OC발표 시간 : 2025년 10월 15일 (arXiv 사전 인쇄본)논문 링크 : https://arxiv.org/abs/2510.13052 전통적인 최적화 이론은 고정적이고 시간 불변의 목적 함수를 다룬다. 그러나 시간 가변 최적화는 동적 환경에서의 의사결정을 위한 중요한 주제가 되었다. 본 논문은 시간 가변 최적화의 관점에서 스트리밍 데이터 학습 문제를 연구한다. 일반적인 공식에 중점을 두는 선행 연구와 달리, 우리는 시간 가변 목적의 스트리밍 데이터 소스를 명시적으로 포착하는 구조화된 가중치 기반 공식을 도입한다. 여기서 에이전트는 각 시간 단계에서 모든 과거 데이터 샘플의 가중 평균 손실을 최소화하는 것을 목표로 한다. 우리는 두 가지 특정 가중치 전략에 중점을 둔다: (1) 균등 가중치(모든 샘플을 동등하게 취급), (2) 할인 가중치(구기하적 감소로 오래된 데이터의 영향을 감소). 두 방식 모두에 대해, 우리는 경사 하강법(GD) 업데이트 하에서 "추적 오차"(TE)의 타이트한 경계를 도출한다. TE는 모델 매개변수와 주어진 시간 단계의 시간 가변 최적해 사이의 편차로 정의된다. 우리는 균등 가중치 하에서 TE가 O(1/t)의 감소율로 점근적으로 소멸하는 반면, 할인 가중치는 할인 인자 및 각 시간 단계에서 수행되는 경사 업데이트 횟수에 의해 제어되는 0이 아닌 오차 하한을 생성함을 증명한다.
본 논문이 해결하고자 하는 핵심 문제는 스트리밍 데이터 환경에서의 시간 가변 최적화 학습 문제이다. 구체적으로:
전통적 최적화의 한계 : 고전적 기계학습 최적화는 정적 목적 함수를 가정하며, 정적 데이터 분포를 전제하지만, 현실의 솔루션은 동적으로 진화하는 환경에서 작동한다스트리밍 데이터의 도전 : 데이터가 순차적으로 도착하고, 목적 함수가 시간에 따라 진화하여 비정상 최적화 문제를 야기한다계산 제약 : 실시간 또는 자원 제한 설정에서 각 시간 단계마다 제한된 횟수의 업데이트만 수행할 수 있다이 문제는 여러 핵심 응용 분야에서 중요한 의미를 갖는다:
자율주행 차량의 이동 로봇 추적 이동 목표 위치 결정 포트폴리오 최적화 변동성 금융 시장에서의 위험 관리 시간 가변 시스템 동역학의 제어기 적응 일반적 공식의 느슨한 경계 : 대부분의 기존 연구는 일반적 시간 가변 공식(1)에 중점을 두며, 스트리밍 데이터의 내재적 구조를 무시하여 추적 오차의 느슨한 경계를 초래할 수 있다구조화된 분석의 부재 : 기존 방법은 스트리밍 데이터의 가중치 구조를 명시적으로 활용하여 더 타이트한 성능 경계를 얻지 못한다이론과 실제의 괴리 : 지속적 학습 분야의 방법은 대부분 경험적이며, 이론적 기초가 부족하다구조화된 가중치 공식 제안 : 스트리밍 데이터의 구조를 명시적으로 포착하는 시간 가변 목적 함수를 도입하며, 이는 모든 과거 샘플 손실의 가중 평균으로 정의된다두 가지 가중치 전략의 이론적 분석 :
균등 가중치: 추적 오차가 O(1/t) 속도로 점근적으로 소멸함을 증명 할인 가중치: 명시적인 0이 아닌 점근 추적 오차 경계 도출 타이트한 경계 도출 : 스트리밍 데이터 구조를 활용하여 기존 일반적 시간 가변 분석보다 더 타이트한 TE 경계 획득이론 및 실험 검증 : 수치 시뮬레이션을 통해 이론적 발견의 유효성 검증단일 에이전트(예: 엣지 또는 클라우드 서버)가 시간 가변 기계학습 모델 매개변수를 추적하는 학습 설정을 고려한다:
입력 : 각 반복 t≥1에서, 에이전트는 새로운 데이터 샘플(xt, yt)을 수신한다출력 : 모델 매개변수 wt는 누적 데이터의 가중 평균 손실을 최소화한다제약 : 각 시간 단계마다 E번의 경사 업데이트만 수행할 수 있다시간 가변 목적 함수 :
w t ∗ = arg min w ∈ R d F t ( w ) , 여기서 F t ( w ) = ∑ i = 1 t a i ( t ) f i ( w ) w_t^* = \arg\min_{w \in \mathbb{R}^d} F_t(w), \quad \text{여기서} \quad F_t(w) = \sum_{i=1}^t a_i(t)f_i(w) w t ∗ = arg min w ∈ R d F t ( w ) , 여기서 F t ( w ) = ∑ i = 1 t a i ( t ) f i ( w )
여기서:
a i ( t ) a_i(t) a i ( t ) 는 시간 t에서 i번째 샘플의 가중치f i ( w ) f_i(w) f i ( w ) 는 i번째 데이터 샘플의 손실 함수가중치는 다음을 만족: 0 ≤ a i ( t ) ≤ 1 0 \leq a_i(t) \leq 1 0 ≤ a i ( t ) ≤ 1 및 ∑ i = 1 t a i ( t ) = 1 \sum_{i=1}^t a_i(t) = 1 ∑ i = 1 t a i ( t ) = 1 경사 하강법 업데이트 :
w t , k + 1 = w t , k − η ∇ F t + 1 ( w t , k ) = w t , k − η ∑ i = 1 t + 1 a i ( t + 1 ) ∇ f i ( w t , k ) w_{t,k+1} = w_{t,k} - \eta\nabla F_{t+1}(w_{t,k}) = w_{t,k} - \eta\sum_{i=1}^{t+1} a_i(t+1)\nabla f_i(w_{t,k}) w t , k + 1 = w t , k − η ∇ F t + 1 ( w t , k ) = w t , k − η ∑ i = 1 t + 1 a i ( t + 1 ) ∇ f i ( w t , k )
추적 오차 정의 :
TE ( t ) = ∥ w t − w t ∗ ∥ \text{TE}(t) = \|w_t - w_t^*\| TE ( t ) = ∥ w t − w t ∗ ∥
모든 i = 1 , … , t i = 1, \ldots, t i = 1 , … , t 에 대해 a i ( t ) = 1 / t a_i(t) = 1/t a i ( t ) = 1/ t 로 설정하면, 목적 함수는 다음과 같이 변환된다:
F t + 1 ( w ) = t t + 1 F t ( w ) + 1 t + 1 f t + 1 ( w ) F_{t+1}(w) = \frac{t}{t+1}F_t(w) + \frac{1}{t+1}f_{t+1}(w) F t + 1 ( w ) = t + 1 t F t ( w ) + t + 1 1 f t + 1 ( w )
기하 할인을 사용: a i ( t ) = 1 − γ 1 − γ t γ t − i a_i(t) = \frac{1-\gamma}{1-\gamma^t}\gamma^{t-i} a i ( t ) = 1 − γ t 1 − γ γ t − i , 여기서 0 < γ < 1 0 < \gamma < 1 0 < γ < 1 은 할인 인자이다.
구조화된 분석 : 일반적 시간 가변 최적화와 달리, 스트리밍 데이터의 가중치 구조를 명시적으로 활용한다최소화기 표류 분석 : ∥ w i + 1 ∗ − w i ∗ ∥ \|w_{i+1}^* - w_i^*\| ∥ w i + 1 ∗ − w i ∗ ∥ 를 분석하여 목적 함수 변화를 이해한다재귀적 오차 분석 : 오차 진화를 추적하기 위한 재귀 관계를 수립한다가정 1 (L-평활성 및 μ-강볼록성) : 각 데이터 샘플의 손실 함수는 다음을 만족한다:
∥ ∇ f t ( x ) − ∇ f t ( y ) ∥ ≤ L ∥ x − y ∥ \|\nabla f_t(x) - \nabla f_t(y)\| \leq L\|x-y\| ∥∇ f t ( x ) − ∇ f t ( y ) ∥ ≤ L ∥ x − y ∥ f t ( y ) ≥ f t ( x ) + ∇ f t ( x ) T ( y − x ) + μ 2 ∥ y − x ∥ 2 f_t(y) \geq f_t(x) + \nabla f_t(x)^T(y-x) + \frac{\mu}{2}\|y-x\|^2 f t ( y ) ≥ f t ( x ) + ∇ f t ( x ) T ( y − x ) + 2 μ ∥ y − x ∥ 2 가정 2 (유계 최소화기) : ∥ w t ∗ ∥ ≤ C \|w_t^*\| \leq C ∥ w t ∗ ∥ ≤ C 를 만족하는 C > 0 C > 0 C > 0 이 모든 t에 대해 존재한다.
명제 1 : 균등 가중치에 대해, 추적 오차는 다음을 만족한다:
TE ( t ) ≤ α t ∥ w 0 − w 1 ∗ ∥ + C ′ A t \text{TE}(t) \leq \alpha^t\|w_0 - w_1^*\| + \frac{C'A}{t} TE ( t ) ≤ α t ∥ w 0 − w 1 ∗ ∥ + t C ′ A
여기서 α = ( 1 − η μ ) E < 1 \alpha = (1-\eta\mu)^E < 1 α = ( 1 − η μ ) E < 1 , C ′ = ( 1 + L / μ ) L C μ C' = (1+\sqrt{L/\mu})\frac{LC}{\mu} C ′ = ( 1 + L / μ ) μ L C 이다.
핵심 결론 : TE는 O(1/t) 속도로 감소하며, 점근 추적 오차는 0이다.
명제 2 : 할인 가중치에 대해, 점근 추적 오차는 다음을 만족한다:
ATE γ = lim sup t → ∞ ∥ w t − w t ∗ ∥ ≤ ( 1 + L μ ) L C μ ⋅ ( 1 − γ ) α 1 − α \text{ATE}_\gamma = \limsup_{t\to\infty} \|w_t - w_t^*\| \leq \left(1+\sqrt{\frac{L}{\mu}}\right)\frac{LC}{\mu} \cdot \frac{(1-\gamma)\alpha}{1-\alpha} ATE γ = lim sup t → ∞ ∥ w t − w t ∗ ∥ ≤ ( 1 + μ L ) μ L C ⋅ 1 − α ( 1 − γ ) α
핵심 결론 : 0이 아닌 오차 하한이 존재하며, 할인 인자 γ 및 경사 업데이트 횟수 E에 의해 제어된다.
스칼라 이차 손실 함수를 사용: f t ( w ) = μ 2 ( w − c t ) 2 f_t(w) = \frac{\mu}{2}(w-c_t)^2 f t ( w ) = 2 μ ( w − c t ) 2
매개변수 설정:
c t c_t c t 는 유계 무작위 보행으로 생성: c t + 1 = max ( − C max , min ( c t + z t + 1 , C max ) ) c_{t+1} = \max(-C_{\max}, \min(c_t + z_{t+1}, C_{\max})) c t + 1 = max ( − C m a x , min ( c t + z t + 1 , C m a x )) z t ∼ N ( 0 , σ 2 ) z_t \sim \mathcal{N}(0, \sigma^2) z t ∼ N ( 0 , σ 2 ) , C max = 100 C_{\max} = 100 C m a x = 100 , σ 2 = 100 \sigma^2 = 100 σ 2 = 100 , μ = 0.1 \mu = 0.1 μ = 0.1 제곱 평균 제곱근 추적 오차 최대(최악의 경우) 추적 오차 1000회 독립 실행의 통계 결과 O(1/t) 감소 검증 : 실험은 이론적 예측과 일치하는 단조 감소를 명확히 보여준다경사 업데이트 횟수의 영향 : E를 10에서 20으로 증가시키면, 경험적 TE는 약 0.09의 개선 인자를 보이며, 이는 이론적 예측과 정량적으로 일치한다장기 행동 : 큰 t에 대해, TE는 최소화기 표류의 잔여 오차에 의해 지배된다0이 아닌 오차 하한 : 모든 오차 지표는 소멸하지 않는 점근 오차 하한으로 수렴한다할인 인자의 영향 : 더 큰 γ는 더 낮은 점근 추적 오차를 생성한다이론 검증 : γ=0.99일 때, TE는 균등 가중치 경우에 가까워지며, 이론적 분석을 검증한다명제 3 : ATE γ ≤ ϵ \text{ATE}_\gamma \leq \epsilon ATE γ ≤ ϵ 을 보장하기 위해, 다음을 수행해야 한다:
E ≥ ln ( ϵ C ′ ( 1 − γ ) + ϵ ) ln ( 1 − η μ ) E \geq \frac{\ln\left(\frac{\epsilon}{C'(1-\gamma)+\epsilon}\right)}{\ln(1-\eta\mu)} E ≥ l n ( 1 − η μ ) l n ( C ′ ( 1 − γ ) + ϵ ϵ )
경사 업데이트, 이는 O(ln(1/ε))의 경사 반복 복잡도를 초래한다.
초기 연구 : 이계 정보를 활용하는 뉴턴형 알고리즘으로 지수 수렴 달성유계 표류 조건 : ∥ w t + 1 ∗ − w t ∗ ∥ ≤ C \|w_{t+1}^* - w_t^*\| \leq C ∥ w t + 1 ∗ − w t ∗ ∥ ≤ C 를 가정하는 방법예측-보정 방식 : 예측 및 경사 보정을 결합하는 방법작업 수열 학습 : 작업 수열에서 ML 모델 학습재앙적 망각 : 새 작업 학습 시 이전 작업 성능 저하의 도전경험적 방법 : 기존 방법은 주로 경험적이며, 이론적 기초가 부족하다본 논문은 처음으로 시간 가변 최적화와 지속적 학습을 이론적 관점에서 연결하며, 명시적인 스트리밍 데이터 구조 분석을 제공한다.
균등 가중치 : O(1/t) 감소의 추적 오차를 달성하며, 점근적으로 완벽한 추적을 실현한다할인 가중치 : 명확히 정량화할 수 있는 0이 아닌 점근 오차를 생성하며, 이는 오래된 데이터에 대한 망각을 반영한다구조화된 분석 : 스트리밍 데이터 구조를 활용하여 일반적 방법보다 더 타이트한 경계를 획득한다균등 vs 할인 : 균등 가중치는 각 새로운 샘플의 영향을 O(1/t)로 희석하는 반면, 할인 가중치는 O(1)의 표류를 유지한다가중치 수렴성 : γ→1일 때, 할인 가중치는 균등 가중치로 수렴하며, 상응하게 ATE_γ→0이다계산 예산 트레이드오프 : 더 많은 경사 업데이트 E는 추적 오차를 감소시킬 수 있지만, 계산 비용을 증가시킨다메모리 가정 : 모든 과거 샘플 경사에 접근할 수 있다고 가정하며, 메모리 제약을 고려하지 않는다특정 손실 함수 : 이론적 분석은 L-평활성 및 μ-강볼록성 가정에 기반한다유계 최소화기 : 최소화기가 균일하게 유계라는 가정이 필요하다메모리 제약 분석 : 메모리 제약 하에서의 시간 가변 학습 연구더 일반적인 손실 함수 : 비볼록 또는 기타 유형의 손실로 확장분산 설정 : 연합 학습 등 분산 환경에서의 응용적응형 가중치 : 데이터 기반 동적 가중치 전략 연구이론적 엄밀성 : 완전한 수학적 분석 및 타이트한 경계 도출 제공구조화된 접근 : 스트리밍 데이터 구조를 명시적으로 활용하여 일반적 방법보다 더 정확한 결과 획득실용적 가치 : 두 가지 가중치 전략은 서로 다른 실제 응용 시나리오에 대응한다실험 검증 : 수치 결과는 이론적 예측과 높은 일치도를 보인다명확한 표현 : 논문 구성이 우수하고 수학적 도출이 명확하다가정의 제한 : L-평활성 및 μ-강볼록성 가정은 실제 응용에서 과도할 수 있다메모리 요구 : 모든 과거 경사를 저장해야 하며, 대규모 응용에서 비현실적이다단일 에이전트 : 단일 에이전트 설정만 고려하며, 다중 에이전트 또는 분산 시나리오를 다루지 않는다단순한 실험 : 실험은 단순한 이차 손실 함수를 사용하며, 복잡한 시나리오 검증이 부족하다이론적 기여 : 시간 가변 최적화 및 지속적 학습에 중요한 이론적 기초 제공방법론적 가치 : 구조화된 분석 방법은 다른 시간 가변 학습 문제로 일반화될 수 있다실제 응용 : 온라인 학습 및 적응형 시스템 설계에 이론적 지침 제공재현성 : 이론적 결과 및 실험 설정이 상세히 기술되어 재현이 용이하다온라인 학습 시스템 : 새로운 데이터에 지속적으로 적응해야 하는 기계학습 시스템적응형 제어 : 시간 가변 시스템의 제어기 설계금융 모델링 : 시장 변화에 적응해야 하는 투자 전략IoT 응용 : 센서 네트워크의 실시간 데이터 처리추천 시스템 : 사용자 선호도 변화에 적응해야 하는 추천 알고리즘논문은 40편의 관련 문헌을 인용하며, 시간 가변 최적화, 지속적 학습, 볼록 최적화 등 핵심 분야의 중요한 연구를 포괄하여 연구에 견고한 이론적 기초를 제공한다.