2025-11-21T19:43:16.429165

Isotropy and Geometry of Pretrained Protein LMs

Hakim, Roy, Rahman
Large pretrained language models have transformed natural language processing, and their adaptation to protein sequences -- viewed as strings of amino acid characters -- has advanced protein analysis. However, the distinct properties of proteins, such as variable sequence lengths and lack of word-sentence analogs, necessitate a deeper understanding of protein language models (LMs). We investigate the isotropy of protein LM embedding spaces using average pairwise cosine similarity and the IsoScore method, revealing that models like ProtBERT and ProtXLNet are highly anisotropic, utilizing only 2--14 dimensions for global and local representations. In contrast, multi-modal training in ProteinBERT, which integrates sequence and gene ontology data, enhances isotropy, suggesting that diverse biological inputs improve representational efficiency. We also find that embedding distances weakly correlate with alignment-based similarity scores, particularly at low similarity.
academic

Изотропия и геометрия предварительно обученных белковых языковых моделей

Основная информация

  • ID статьи: 2510.10655
  • Название: A Look at the Isotropy of Pretrained Protein Language Models
  • Авторы: Sheikh Azizul Hakim, Kowshic Roy, M Saifur Rahman
  • Классификация: q-bio.OT (Количественная биология - Прочее)
  • Конференция: ICML 2025 Workshop on Multi-modal Foundation Models and Large Language Models for Life Sciences
  • Ссылка на статью: https://arxiv.org/abs/2510.10655

Аннотация

Крупные предварительно обученные языковые модели революционизировали область обработки естественного языка, а их адаптация к белковым последовательностям — рассмотрение белков как строк аминокислотных символов — способствовала развитию анализа белков. Однако уникальные свойства белков, такие как переменная длина последовательности и отсутствие аналогии слово-предложение, требуют более глубокого понимания белковых языковых моделей (LM). В данном исследовании с использованием средней попарной косинусной схожести и метода IsoScore исследуется изотропия пространства встраивания белковых LM, обнаруживая, что модели ProtBERT и ProtXLNet высоко анизотропны, при этом глобальные и локальные представления используют только 2-14 измерений. В противоположность этому, мультимодальное обучение ProteinBERT интегрирует данные последовательности и генной онтологии, повышая изотропию, что указывает на то, что разнообразные биологические входные данные улучшают эффективность представления. Исследование также обнаруживает слабую корреляцию между расстояниями встраивания и оценками сходства на основе выравнивания, особенно в случаях низкой сходства.

Исследовательский контекст и мотивация

Определение проблемы

Данное исследование направлено на решение проблемы недостаточного понимания геометрических свойств пространства встраивания белковых языковых моделей. Конкретно включает:

  1. Отсутствие анализа изотропии: Хотя в обработке естественного языка существует обширная литература об изотропии пространства встраивания языковых моделей, в области белков такой анализ практически отсутствует
  2. Проблема эффективности пространства встраивания: Необходимо понять, эффективно ли высокомерные белковые встраивания используют все измерения
  3. Проверка биологической релевантности: Связь между метриками расстояния в пространстве встраивания и традиционными биологическими мерами сходства остается неясной

Значимость

  1. Теоретическое значение: Глубокое понимание механизмов репрезентативного обучения белковых языковых моделей, обеспечивающее теоретическую основу для улучшения моделей
  2. Практическая ценность: Анализ изотропии может направлять снижение размерности и сжатие моделей, повышая вычислительную эффективность
  3. Применение генеративных моделей: Для генеративных задач, таких как дизайн белков и предсказание вариантов, критически важны разнообразные и информационно богатые скрытые пространства

Ограничения существующих методов

  1. Проблема прямого переноса: Большинство существующих белковых языковых моделей прямо применяют архитектуры NLP, недостаточно учитывая уникальные свойства белковых последовательностей
  2. Ограничения унимодальности: Большинство моделей обучаются только на информации последовательности, лишены функциональных и структурных биологических априорных знаний
  3. Игнорирование геометрических свойств: Отсутствует систематический анализ геометрической структуры пространства встраивания

Основные вклады

  1. Первый систематический анализ: Первый комплексный анализ изотропии пространства встраивания белковых языковых моделей
  2. Многомерный метод оценки: Применение двух дополняющих друг друга методов измерения изотропии: средней попарной косинусной схожести и IsoScore
  3. Проверка преимуществ мультимодального обучения: Демонстрация эффективности мультимодального обучения (последовательность + генная онтология) в повышении изотропии представления
  4. Анализ биологической релевантности: Глубокий анализ связи между расстояниями встраивания и традиционной схожестью выравнивания, выявляющий ограничения существующих методов
  5. Анализ локальных представлений: Расширенный анализ локальных встраиваний на уровне аминокислот, обнаруживающий аналогичные модели анизотропии

Подробное описание методов

Определение задачи

Основная задача данного исследования — анализ геометрических свойств пространства встраивания белковых языковых моделей, конкретно включающая:

  • Входные данные: Наборы данных белковых последовательностей и предварительно обученные белковые языковые модели
  • Выходные данные: Меры изотропии (IsoScore, средняя попарная косинусная схожесть), количество эффективных измерений, анализ корреляции между расстояниями встраивания и биологической схожестью
  • Ограничения: Использование стандартных наборов данных белков и опубликованных предварительно обученных моделей для обеспечения воспроизводимости результатов

Методы измерения изотропии

1. Средняя попарная косинусная схожесть

Косинусная схожесть определяется как нормализованное скалярное произведение двух векторов x и y: cosine similarity=xyxy\text{cosine similarity} = \frac{x \cdot y}{|x||y|}

Изотропия оценивается путем вычисления средней косинусной схожести всех пар векторов в пространстве встраивания.

2. Метод IsoScore

Применяется метод IsoScore, предложенный Rudman и соавторами, обладающий следующими характеристиками:

  • Независимость от среднего: Не зависит от среднего значения данных
  • Глобальная стабильность: Стабилен относительно подмножеств данных
  • Инвариантность к вращению: Не зависит от вращения координатной системы

IsoScore вычисляется на основе матрицы ковариации главных компонент, формула расчета эффективной размерности: effective dim(X)=i(X)×(n1)+1\text{effective dim}(X) = i(X) \times (n-1) + 1

где i(X) — это IsoScore, n — количество исходных измерений.

Анализ архитектуры моделей

Оцениваемые модели

  1. ProtBERT/ProtBERT-BFD: На основе архитектуры BERT, встраивание размерностью 1024
  2. ProtXLNet: На основе архитектуры XLNet, встраивание размерностью 1024
  3. ProteinBERT: Специально разработанная мультимодальная архитектура, встраивание размерностью 512

Стратегии генерации встраиваний

  • Глобальные встраивания: Генерируются путем среднего объединения локальных встраиваний (семейство ProtBERT) или прямого создания (ProteinBERT)
  • Локальные встраивания: Представления per-residue, соответствующие каждому остатку аминокислоты

Анализ биологической схожести

Использование BioPython и матрицы оценок PAM-250 для расчета традиционной схожести выравнивания:

  • Оценка выравнивания: Оценка выравнивания последовательности на основе матрицы замещения
  • Оценка сходства: Доля идентичных остатков в оптимальном выравнивании
  • Расстояние встраивания: Квадратное евклидово расстояние и косинусная схожесть

Экспериментальная установка

Наборы данных

  • Подмножество SwissProt: Из базы данных UniProt, примерно 570 000 белковых последовательностей
  • Характеристики данных: Тщательно отобраны, содержат экспериментально проверенные аннотации и высококачественную информацию о функции и структуре
  • Стратегия выборки: Для анализа корреляции случайная выборка 1% белков, создающая 6,4×10^6 пар белков

Метрики оценки

  1. IsoScore: Мера изотропии, диапазон 0,1, где 0 указывает на высокую анизотропию, 1 — на полную изотропию
  2. Количество эффективных измерений: Количество фактически используемых измерений, рассчитанное на основе IsoScore
  3. Коэффициент корреляции: Коэффициент корреляции Пирсона, измеряющий линейную связь между различными мерами расстояния

Детали реализации

  • Использование предварительно обученных весов Hugging Face (семейство ProtBERT)
  • Веса ProteinBERT из официального репозитория GitHub
  • Применение стандартной стратегии среднего объединения для генерации глобальных представлений

Результаты экспериментов

Основные результаты

Анализ изотропии глобальных встраиваний

МодельРазмерность встраиванияIsoScoreЭффективно используемые измерения
ProtBERT10240.0016583
ProtBERT-BFD10240.0039686
ProtXLNet10240.0015023
ProteinBERT5120.231228120

Ключевые выводы:

  • Модели традиционной архитектуры (ProtBERT, ProtXLNet) высоко анизотропны, используя только 2-6 эффективных измерений
  • ProteinBERT значительно более изотропен (IsoScore=0.23), используя 120 эффективных измерений
  • Для сравнения, IsoScore для BERT и GPT на естественном языке составляют 0.11 и 0.18 соответственно

Корреляция между расстояниями встраивания и биологической схожестью

Матрица корреляции ProtBERT:

ПоказательКосинусная схожестьКвадратное евклидово расстояниеОценка выравниванияОценка сходства
Косинусная схожесть1.0000.7910.014-0.011
Квадратное евклидово расстояние-1.000-0.103-0.146
Оценка выравнивания--1.0000.847
Оценка сходства---1.000

Важные наблюдения:

  • Сильная корреляция между метриками встраивания (0.791)
  • Сильная корреляция между традиционными биологическими мерами (0.847)
  • Слабая кросс-доменная корреляция, даже отрицательные значения

Изотропия локальных встраиваний

Для локальных встраиваний размерностью 1024 каждая аминокислота в среднем использует только около 14 эффективных измерений, демонстрируя аналогичные модели анизотропии с глобальными встраиваниями.

Обнаружение нелинейных отношений

Анализ диаграмм рассеяния выявил:

  • Область низкой схожести: Большая дисперсия расстояний встраивания, низкая предсказательная способность
  • Область высокой схожести: Сходимость расстояний встраивания, евклидово расстояние стремится к низким значениям, косинусная схожесть близка к 1.0
  • Это асимметричное поведение указывает на то, что встраивания более надежны при высокой биологической схожести, но ненадежны при низкой схожести

Связанные работы

Исследования изотропии в обработке естественного языка

  • Ethayarajh (2019) впервые обнаружил высокую анизотропию моделей, таких как BERT
  • Rogers и соавторы рекомендовали увеличение изотропии для улучшения производительности BERT
  • Rajaee & Pilehvar (2021) обнаружили, что постобработка для увеличения изотропии может повредить производительность
  • Rudman и соавторы предложили метод IsoScore для решения недостатков существующих мер

Развитие белковых языковых моделей

  • Серия ProtTrans (Elnaggar и др.): Прямое применение архитектур NLP к белкам
  • ProteinBERT (Brandes и др.): Специально разработанная мультимодальная архитектура
  • Существующие исследования в основном сосредоточены на производительности нижестоящих задач, лишены анализа геометрических свойств пространства представления

Заключение и обсуждение

Основные выводы

  1. Высокая анизотропия: Унимодальные белковые языковые модели на основе последовательности демонстрируют экстремальную анизотропию с значительной избыточностью измерений
  2. Преимущества мультимодальности: Мультимодальное обучение, интегрирующее информацию последовательности и генной онтологии, значительно повышает изотропию
  3. Ограничения биологической релевантности: Слабая корреляция между расстояниями встраивания и традиционными мерами биологической схожести, особенно в области низкой схожести
  4. Универсальность избыточности измерений: Серьезная избыточность измерений существует как в глобальных, так и в локальных представлениях

Ограничения

  1. Ограничения набора данных: Использование только набора данных SwissProt может не полностью представлять разнообразие белков
  2. Ограниченный диапазон моделей: Ограниченное количество оцениваемых моделей, не охватывающее последние крупномасштабные белковые языковые модели
  3. Отсутствие биологической проверки: Отсутствует прямой анализ связи со структурой и функцией белков
  4. Отсутствие динамического анализа: Не проанализированы изменения изотропии в процессе обучения

Будущие направления

  1. Обучение с геометрической оптимизацией: Разработка методов обучения, явно оптимизирующих геометрическое богатство и изотропию
  2. Обучение с биологическим контролем: Контрастивное предварительное обучение на основе биологических априорных знаний
  3. Регуляризация изотропии: Включение регуляризации, способствующей изотропии, в процесс обучения
  4. Встраивания с функциональными ограничениями: Функциональные ограничения встраивания на основе онтологии или структурных данных

Глубокая оценка

Преимущества

  1. Пионерское исследование: Первый систематический анализ геометрических свойств белковых языковых моделей, заполняющий важный пробел в исследованиях
  2. Научность методов: Применение нескольких дополняющих друг друга методов измерения изотропии обеспечивает надежность результатов
  3. Высокая практическая ценность: Обеспечивает теоретическую основу для сжатия моделей и снижения размерности
  4. Мультимодальные инсайты: Демонстрирует важность мультимодального обучения в улучшении качества представления
  5. Комплексный анализ: Всесторонний анализ от глобального к локальному, от изотропии к биологической релевантности

Недостатки

  1. Отсутствие механизмов объяснения: Недостаточное объяснение того, почему мультимодальное обучение повышает изотропию
  2. Отсутствие проверки нижестоящих задач: Отсутствует проверка влияния улучшения изотропии на производительность конкретных биологических задач
  3. Ограниченное покрытие моделей: Не включены более новые белковые языковые модели
  4. Отсутствие решений оптимизации: Хотя выявлены проблемы, конкретные решения для улучшения не предложены

Влияние

  1. Теоретический вклад: Обеспечивает важную основу для теоретического понимания белковых языковых моделей
  2. Методологическая ценность: Устанавливает стандартные методы анализа пространства встраивания белков
  3. Инженерное руководство: Обеспечивает четкое направление для проектирования и оптимизации моделей
  4. Кросс-доменное значение: Методы могут быть распространены на анализ других биологических последовательностей

Применимые сценарии

  1. Проектирование моделей: Направление проектирования новых архитектур белковых языковых моделей
  2. Сжатие моделей: Теоретическая основа для сжатия и ускорения крупномасштабных белковых моделей
  3. Генеративные модели: Обеспечение лучшей основы репрезентативного обучения для дизайна и инженерии белков
  4. Мультимодальное слияние: Направление проектирования мультимодальных белковых моделей

Библиография

  1. Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations?
  2. Rudman, W. et al. (2022). IsoScore: Measuring the uniformity of embedding space utilization
  3. Elnaggar, A. et al. (2022). ProtTrans: Toward Understanding the Language of Life
  4. Brandes, N. et al. (2022). ProteinBERT: a universal deep-learning model of protein sequence and function

Данный отчет основан на полном прочтении и анализе документа PDF статьи, объективно представляя технические детали исследования, результаты экспериментов и научные вклады, предоставляя комплексную справку для соответствующих исследователей.