2025-11-16T20:04:19.781760

In-Context Learning for Non-Stationary MIMO Equalization

Jiang, Qin, Zhu
Channel equalization is fundamental for mitigating distortions such as frequency-selective fading and inter-symbol interference. Unlike standard supervised learning approaches that require costly retraining or fine-tuning for each new task, in-context learning (ICL) adapts to new channels at inference time with only a few examples. However, existing ICL-based equalizers are primarily developed for and evaluated on static channels within the context window. Indeed, to our knowledge, prior principled analyses and theoretical studies of ICL focus exclusively on the stationary setting, where the function remains fixed within the context. In this paper, we investigate the ability of ICL to address non-stationary problems through the lens of time-varying channel equalization. We employ a principled framework for designing efficient attention mechanisms with improved adaptivity in non-stationary tasks, leveraging algorithms from adaptive signal processing to guide better designs. For example, new attention variants can be derived from the Least Mean Square (LMS) adaptive algorithm, a Least Root Mean Square (LRMS) formulation for enhanced robustness, or multi-step gradient updates for improved long-term tracking. Experimental results demonstrate that ICL holds strong promise for non-stationary MIMO equalization, and that attention mechanisms inspired by classical adaptive algorithms can substantially enhance adaptability and performance in dynamic environments. Our findings may provide critical insights for developing next-generation wireless foundation models with stronger adaptability and robustness.
academic

Контекстное обучение для неустационной MIMO-эквализации

Основная информация

  • ID статьи: 2510.08711
  • Название: In-Context Learning for Non-Stationary MIMO Equalization
  • Авторы: Jiachen Jiang¹, Zhen Qin²³⁴, Zhihui Zhu¹
    • ¹Кафедра компьютерных наук и инженерии, Университет штата Огайо
    • ²³⁴Институт вычислительных открытий и инженерии, Кафедра электротехники и компьютерных наук, Кафедра статистики, Университет Мичигана
  • Классификация: cs.LG cs.AI
  • Дата публикации: Подано на arXiv 9 октября 2025 г.
  • Ссылка на статью: https://arxiv.org/abs/2510.08711

Аннотация

Эквализация канала является фундаментальной технологией для смягчения искажений, вызванных частотно-избирательным затуханием и межсимвольными помехами. В отличие от стандартных методов контролируемого обучения, требующих дорогостоящего переобучения или тонкой настройки для каждой новой задачи, контекстное обучение (ICL) позволяет адаптироваться к новым каналам во время вывода, используя только несколько примеров. Однако существующие эквализаторы на основе ICL разработаны и оценены в основном для статических каналов в пределах контекстного окна. Насколько известно авторам, предыдущие принципиальные анализы и теоретические исследования ICL сосредоточены на стационарных условиях, где функция остается фиксированной в контексте. В данной работе исследуется способность ICL решать неустационарные задачи с точки зрения эквализации нестационарных каналов. Авторы используют принципиальный подход для разработки эффективных механизмов внимания с улучшенной адаптивностью, руководствуясь алгоритмами адаптивной обработки сигналов.

Исследовательский контекст и мотивация

Определение проблемы

Эквализация канала является ключевой технологией в системах беспроводной связи, предназначенной для компенсации искажений, вносимых каналом, таких как частотно-избирательное затухание и межсимвольные помехи. В условиях нестационарного канала матрица канала динамически эволюционирует и обычно может быть только частично наблюдаема, что требует от эквализатора постоянной адаптации на основе ограниченных или зашумленных наблюдений.

Ограничения существующих методов

  1. Традиционные методы: нулевое принуждение (ZF), линейный минимум среднеквадратической ошибки (LMMSE), адаптивные эквализаторы и другие требуют точного знания канала
  2. Методы обучения: глубокое обучение, метаобучение, обучение с подкреплением и другие методы обычно требуют обучения независимых моделей для каждой задачи или включают дополнительные обновления параметров
  3. Существующие методы ICL: в основном предполагают статический канал в пределах контекстного окна, используют стандартное внимание softmax, что может препятствовать захвату быстрых изменений канала и временных корреляций

Исследовательская мотивация

Статья ставит два ключевых вопроса:

  1. Может ли ICL не только идентифицировать задачу из контекста, но и отслеживать нестационарные изменения задачи?
  2. В неустационарных условиях является ли внимание softmax оптимальным выбором, или можно разработать новые варианты механизмов внимания для повышения адаптивности?

Основные вклады

  1. Расширение фреймворка ICL: расширение ICL с класса функций на класс нестационарных функций с применением к задаче эквализации канала
  2. Новый механизм внимания: предложен фреймворк проектирования механизмов внимания, основанный на классических алгоритмах адаптивной обработки сигналов
  3. Три варианта внимания:
    • LMS-внимание: основано на адаптивном алгоритме наименьших средних квадратов (LMS)
    • Multi-LMS-внимание: стратегия многошагового обновления для захвата долгосрочной динамики
    • LRMS-внимание: основано на формулировке наименьшего корня среднего квадрата (LRMS) для повышения робастности
  4. Теоретическая связь: установлена принципиальная связь между обновлениями, вдохновленными LMS, и механизмом внимания DeltaNet

Детальное описание методов

Определение задачи

Дан набор предыдущих пар вход-выход (контекст C = {(xᵢ,yᵢ)}ᴷᵢ₌₁), целью является вывод передаваемого сигнала xₖ₊₁ из нового наблюдения приема yₖ₊₁ без явного знания базового канала.

Модель канала

Используется нестационарная m₁×m₂ авторегрессионная модель MIMO:

Hᵢ = ρHᵢ₋₁ + √(1-ρ²)Wᵢ, i = 2,...,K

где:

  • ρ ∈ [0,1): коэффициент памяти, управляющий скоростью изменения канала
  • Hᵢ ∈ ℂᵐ²ˣᵐ¹: комплексная матрица канала
  • Wᵢ ~ CN(0,σ²ᵨI): матрица аддитивного шума

Модель дискретной системы MIMO:

yᵢ = Qᵦ(Hᵢxᵢ + eᵢ), i = 1,...,K

Проектирование адаптивного механизма внимания

1. LMS-внимание

После удаления функции softmax выход становится oᵢ = Sᵢqᵢ, где матрица состояния Sᵢ обновляется путем решения задачи регрессии во время тестирования:

Sᵢ ≈ argmin_{S∈ℝᵈˣᵈ} L(S) = 1/2 Σⱼ₌₁ᶦ ||vⱼ - Skⱼ||₂²

Используется одношаговое обновление градиентного спуска:

Sᵢ = Sᵢ₋₁ - βᵢ(Sᵢ₋₁kᵢ - vᵢ)kᵢᵀ

2. Multi-LMS-внимание

Для улучшения скорости адаптации и стабильности предложено M-шаговое расширение в замкнутой форме:

Sᵢ = Sᵢ₋₁ - [1-(1-βᵢ||kᵢ||₂²)ᴹ]/||kᵢ||₂² (Sᵢ₋₁kᵢ - vᵢ)kᵢᵀ

3. LRMS-внимание

Используется потеря корня среднего квадрата для повышения робастности:

L(S) = 1/2 Σⱼ₌₁ᶦ ||vⱼ - Skⱼ||₂

Соответствующая рекурсивная форма:

Sᵢ = Sᵢ₋₁ - βᵢ [(Sᵢ₋₁kᵢ - vᵢ)/||Sᵢ₋₁kᵢ - vᵢ||₂] kᵢᵀ

Технические инновации

  1. Теоретическая основа: установлена теоретическая связь между классической адаптивной фильтрацией и современными механизмами внимания
  2. Вычислительная эффективность: LMS-внимание избегает вычислительных затрат softmax
  3. Проектирование робастности: LRMS адаптивно снижает вес ненадежных обновлений через нормализацию
  4. Долгосрочное отслеживание: Multi-LMS улучшает отслеживание долгосрочной динамики канала через многошаговые обновления

Экспериментальная установка

Набор данных

  • Архитектура модели: двухслойный трансформер GPT-2 (размер встраивания 64, 4 головы внимания на слой)
  • Конфигурация канала: 2×2 нестационарная система MIMO
  • Входные сигналы: нормализованное созвездие QPSK
  • Квантизация: b-битный равномерный квантизатор, диапазон -4,4
  • Размер обучающего набора: 8192 предварительно обученных канала
  • Длина контекста: K = 20

Метрики оценки

Среднеквадратическая ошибка (MSE):

MSE(θ) = E[||fθ(C,yₖ₊₁) - xₖ₊₁||²]

Экспериментальные параметры

  • Коэффициент памяти ρ: равномерно выбирается из [0.9,1)
  • Отношение сигнал-шум SNR: выбирается из 0,30 дБ
  • Количество бит квантизации b: выбирается из целочисленного диапазона 1,6
  • Уровень шума изменения канала: σᵨ = 0.1
  • Обучение: оптимизатор Adam, 50000 шагов, размер пакета 128

Методы сравнения

  1. Эквализатор LMMSE (теоретический базис)
  2. Эквализатор ICL на основе внимания softmax
  3. Эквализатор ICL на основе LMS-внимания

Результаты экспериментов

Основные результаты

Из результатов экспериментов на рисунке 1 видно:

  1. Общая производительность: эквализаторы ICL превосходят LMMSE во всех условиях
  2. Сравнение механизмов внимания: LMS-внимание показывает сопоставимую или лучшую производительность по сравнению с softmax-вниманием
  3. Чувствительность параметров:
    • Увеличение коэффициента памяти ρ, SNR или количества бит квантизации постоянно снижает ошибку оценки
    • LMS-внимание не только снижает вычислительную нагрузку, но и сохраняет или улучшает точность

Абляционные исследования

Multi-LMS vs одношаговый LMS (рисунок 2a)

  • Увеличение количества шагов M обычно улучшает производительность
  • При слишком большом M модель может переобучиться на текущих зашумленных наблюдениях, что приводит к снижению производительности

LRMS vs LMS (рисунок 2b)

  • При низком количестве бит квантизации (b=1) LRMS-внимание превосходит LMS-внимание
  • Механизм LRMS эффективно смягчает влияние выбросов и серьезного квантизационного шума

Экспериментальные выводы

  1. Вычислительные преимущества: LMS-внимание избегает вычислительных затрат нелинейных функций softmax
  2. Робастность: LRMS показывает более стабильную производительность в шумных условиях
  3. Адаптивность: стратегия многошагового обновления лучше захватывает долгосрочную динамику канала
  4. Практичность: предложенные методы значительно повышают адаптивность и производительность в динамических условиях

Связанные работы

Теоретические исследования ICL

Существующие теоретические анализы ICL в основном сосредоточены на стационарных условиях, предполагая, что функция остается фиксированной в контексте. Данная работа впервые расширяет это на нестационарные сценарии.

Методы эквализации канала

  1. Классические методы: ZF, LMMSE, адаптивные эквализаторы, эквализаторы с обратной связью по решениям и другие
  2. Методы машинного обучения: глубокое обучение, метаобучение, обучение с подкреплением, графические нейронные сети и другие
  3. Методы ICL: недавно появившиеся эквализаторы на основе трансформеров для последовательных моделей

Проектирование механизмов внимания

Статья заимствует исследования связей между трансформерами и фильтрами Калмана, регрессией во время тестирования, моделями пространства состояний.

Заключение и обсуждение

Основные выводы

  1. ICL эффективно справляется с нестационарными задачами MIMO-эквализации
  2. Механизмы внимания, вдохновленные классическими адаптивными алгоритмами, значительно повышают адаптивность и производительность в динамических условиях
  3. Установлена теоретическая связь между адаптивной обработкой сигналов и современными механизмами внимания

Ограничения

  1. Масштаб экспериментов: проверка проведена только на системах 2×2 MIMO, производительность на системах большего масштаба требует дальнейшей проверки
  2. Модель канала: используется специфическая авторегрессионная модель канала, применимость других моделей требует дальнейшего исследования
  3. Теоретический анализ: отсутствуют теоретические гарантии сходимости и способности к обобщению нестационарного ICL

Направления будущих исследований

  1. Разработка следующего поколения адаптивных и робастных беспроводных фундаментальных моделей
  2. Расширение на более сложные условия канала и системы MIMO большего масштаба
  3. Предоставление теоретической базы анализа для нестационарного ICL

Глубокая оценка

Преимущества

  1. Высокая инновационность: впервые расширено ICL на нестационарные условия, заполнена теоретическая лакуна
  2. Принципиальный подход: проектирование механизмов внимания на основе классических адаптивных алгоритмов имеет прочную теоретическую основу
  3. Высокая практическая ценность: решает важную проблему в реальной беспроводной связи
  4. Полные эксперименты: охватывают различные параметры и методы сравнения
  5. Ясное изложение: точное описание технических деталей, строгие математические выводы

Недостатки

  1. Ограниченный масштаб экспериментов: проверка только на системах малого масштаба MIMO
  2. Недостаточный теоретический анализ: отсутствуют теоретические гарантии сходимости и обобщения
  3. Ограниченные методы сравнения: отсутствует сравнение с другими передовыми адаптивными методами эквализации
  4. Практические соображения: не учитываются сложность и ограничения реальных систем

Влияние

  1. Академический вклад: открывает новое направление для теоретических исследований ICL
  2. Практическая ценность: предоставляет новые идеи для проектирования систем беспроводной связи
  3. Междисциплинарное влияние: связывает области машинного обучения и обработки сигналов
  4. Воспроизводимость: предоставляет детальные параметры экспериментов и детали реализации

Применимые сценарии

  1. Нестационарные условия канала: мобильная связь, спутниковая связь и другие динамические условия
  2. Системы с ограниченными ресурсами: сценарии, требующие быстрой адаптации и ограниченных вычислительных ресурсов
  3. Многозадачное обучение: приложения, требующие быстрого переключения между различными условиями канала
  4. Граничные вычисления: сценарии, требующие адаптации в реальном времени на граничных устройствах

Список литературы

Статья цитирует 31 соответствующую работу, охватывающую эквализацию канала, адаптивную фильтрацию, машинное обучение и механизмы внимания из нескольких областей, обеспечивая прочную теоретическую основу и полный обзор литературы.


Общая оценка: Это высококачественная исследовательская работа с важными вкладами как в теоретические инновации, так и в практическую ценность. Статья впервые расширяет ICL на нестационарные условия, предложенные методы имеют прочную теоретическую основу и хорошую экспериментальную верификацию. Хотя есть место для улучшения в масштабе экспериментов и теоретическом анализе, работа предоставляет важное вдохновение и направление для развития соответствующих областей.