Large pretrained language models have transformed natural language processing, and their adaptation to protein sequences -- viewed as strings of amino acid characters -- has advanced protein analysis. However, the distinct properties of proteins, such as variable sequence lengths and lack of word-sentence analogs, necessitate a deeper understanding of protein language models (LMs). We investigate the isotropy of protein LM embedding spaces using average pairwise cosine similarity and the IsoScore method, revealing that models like ProtBERT and ProtXLNet are highly anisotropic, utilizing only 2--14 dimensions for global and local representations. In contrast, multi-modal training in ProteinBERT, which integrates sequence and gene ontology data, enhances isotropy, suggesting that diverse biological inputs improve representational efficiency. We also find that embedding distances weakly correlate with alignment-based similarity scores, particularly at low similarity.
- ID статьи: 2510.10655
- Название: A Look at the Isotropy of Pretrained Protein Language Models
- Авторы: Sheikh Azizul Hakim, Kowshic Roy, M Saifur Rahman
- Классификация: q-bio.OT (Количественная биология - Прочее)
- Конференция: ICML 2025 Workshop on Multi-modal Foundation Models and Large Language Models for Life Sciences
- Ссылка на статью: https://arxiv.org/abs/2510.10655
Крупные предварительно обученные языковые модели революционизировали область обработки естественного языка, а их адаптация к белковым последовательностям — рассмотрение белков как строк аминокислотных символов — способствовала развитию анализа белков. Однако уникальные свойства белков, такие как переменная длина последовательности и отсутствие аналогии слово-предложение, требуют более глубокого понимания белковых языковых моделей (LM). В данном исследовании с использованием средней попарной косинусной схожести и метода IsoScore исследуется изотропия пространства встраивания белковых LM, обнаруживая, что модели ProtBERT и ProtXLNet высоко анизотропны, при этом глобальные и локальные представления используют только 2-14 измерений. В противоположность этому, мультимодальное обучение ProteinBERT интегрирует данные последовательности и генной онтологии, повышая изотропию, что указывает на то, что разнообразные биологические входные данные улучшают эффективность представления. Исследование также обнаруживает слабую корреляцию между расстояниями встраивания и оценками сходства на основе выравнивания, особенно в случаях низкой сходства.
Данное исследование направлено на решение проблемы недостаточного понимания геометрических свойств пространства встраивания белковых языковых моделей. Конкретно включает:
- Отсутствие анализа изотропии: Хотя в обработке естественного языка существует обширная литература об изотропии пространства встраивания языковых моделей, в области белков такой анализ практически отсутствует
- Проблема эффективности пространства встраивания: Необходимо понять, эффективно ли высокомерные белковые встраивания используют все измерения
- Проверка биологической релевантности: Связь между метриками расстояния в пространстве встраивания и традиционными биологическими мерами сходства остается неясной
- Теоретическое значение: Глубокое понимание механизмов репрезентативного обучения белковых языковых моделей, обеспечивающее теоретическую основу для улучшения моделей
- Практическая ценность: Анализ изотропии может направлять снижение размерности и сжатие моделей, повышая вычислительную эффективность
- Применение генеративных моделей: Для генеративных задач, таких как дизайн белков и предсказание вариантов, критически важны разнообразные и информационно богатые скрытые пространства
- Проблема прямого переноса: Большинство существующих белковых языковых моделей прямо применяют архитектуры NLP, недостаточно учитывая уникальные свойства белковых последовательностей
- Ограничения унимодальности: Большинство моделей обучаются только на информации последовательности, лишены функциональных и структурных биологических априорных знаний
- Игнорирование геометрических свойств: Отсутствует систематический анализ геометрической структуры пространства встраивания
- Первый систематический анализ: Первый комплексный анализ изотропии пространства встраивания белковых языковых моделей
- Многомерный метод оценки: Применение двух дополняющих друг друга методов измерения изотропии: средней попарной косинусной схожести и IsoScore
- Проверка преимуществ мультимодального обучения: Демонстрация эффективности мультимодального обучения (последовательность + генная онтология) в повышении изотропии представления
- Анализ биологической релевантности: Глубокий анализ связи между расстояниями встраивания и традиционной схожестью выравнивания, выявляющий ограничения существующих методов
- Анализ локальных представлений: Расширенный анализ локальных встраиваний на уровне аминокислот, обнаруживающий аналогичные модели анизотропии
Основная задача данного исследования — анализ геометрических свойств пространства встраивания белковых языковых моделей, конкретно включающая:
- Входные данные: Наборы данных белковых последовательностей и предварительно обученные белковые языковые модели
- Выходные данные: Меры изотропии (IsoScore, средняя попарная косинусная схожесть), количество эффективных измерений, анализ корреляции между расстояниями встраивания и биологической схожестью
- Ограничения: Использование стандартных наборов данных белков и опубликованных предварительно обученных моделей для обеспечения воспроизводимости результатов
Косинусная схожесть определяется как нормализованное скалярное произведение двух векторов x и y:
cosine similarity=∣x∣∣y∣x⋅y
Изотропия оценивается путем вычисления средней косинусной схожести всех пар векторов в пространстве встраивания.
Применяется метод IsoScore, предложенный Rudman и соавторами, обладающий следующими характеристиками:
- Независимость от среднего: Не зависит от среднего значения данных
- Глобальная стабильность: Стабилен относительно подмножеств данных
- Инвариантность к вращению: Не зависит от вращения координатной системы
IsoScore вычисляется на основе матрицы ковариации главных компонент, формула расчета эффективной размерности:
effective dim(X)=i(X)×(n−1)+1
где i(X) — это IsoScore, n — количество исходных измерений.
- ProtBERT/ProtBERT-BFD: На основе архитектуры BERT, встраивание размерностью 1024
- ProtXLNet: На основе архитектуры XLNet, встраивание размерностью 1024
- ProteinBERT: Специально разработанная мультимодальная архитектура, встраивание размерностью 512
- Глобальные встраивания: Генерируются путем среднего объединения локальных встраиваний (семейство ProtBERT) или прямого создания (ProteinBERT)
- Локальные встраивания: Представления per-residue, соответствующие каждому остатку аминокислоты
Использование BioPython и матрицы оценок PAM-250 для расчета традиционной схожести выравнивания:
- Оценка выравнивания: Оценка выравнивания последовательности на основе матрицы замещения
- Оценка сходства: Доля идентичных остатков в оптимальном выравнивании
- Расстояние встраивания: Квадратное евклидово расстояние и косинусная схожесть
- Подмножество SwissProt: Из базы данных UniProt, примерно 570 000 белковых последовательностей
- Характеристики данных: Тщательно отобраны, содержат экспериментально проверенные аннотации и высококачественную информацию о функции и структуре
- Стратегия выборки: Для анализа корреляции случайная выборка 1% белков, создающая 6,4×10^6 пар белков
- IsoScore: Мера изотропии, диапазон 0,1, где 0 указывает на высокую анизотропию, 1 — на полную изотропию
- Количество эффективных измерений: Количество фактически используемых измерений, рассчитанное на основе IsoScore
- Коэффициент корреляции: Коэффициент корреляции Пирсона, измеряющий линейную связь между различными мерами расстояния
- Использование предварительно обученных весов Hugging Face (семейство ProtBERT)
- Веса ProteinBERT из официального репозитория GitHub
- Применение стандартной стратегии среднего объединения для генерации глобальных представлений
| Модель | Размерность встраивания | IsoScore | Эффективно используемые измерения |
|---|
| ProtBERT | 1024 | 0.001658 | 3 |
| ProtBERT-BFD | 1024 | 0.003968 | 6 |
| ProtXLNet | 1024 | 0.001502 | 3 |
| ProteinBERT | 512 | 0.231228 | 120 |
Ключевые выводы:
- Модели традиционной архитектуры (ProtBERT, ProtXLNet) высоко анизотропны, используя только 2-6 эффективных измерений
- ProteinBERT значительно более изотропен (IsoScore=0.23), используя 120 эффективных измерений
- Для сравнения, IsoScore для BERT и GPT на естественном языке составляют 0.11 и 0.18 соответственно
Матрица корреляции ProtBERT:
| Показатель | Косинусная схожесть | Квадратное евклидово расстояние | Оценка выравнивания | Оценка сходства |
|---|
| Косинусная схожесть | 1.000 | 0.791 | 0.014 | -0.011 |
| Квадратное евклидово расстояние | - | 1.000 | -0.103 | -0.146 |
| Оценка выравнивания | - | - | 1.000 | 0.847 |
| Оценка сходства | - | - | - | 1.000 |
Важные наблюдения:
- Сильная корреляция между метриками встраивания (0.791)
- Сильная корреляция между традиционными биологическими мерами (0.847)
- Слабая кросс-доменная корреляция, даже отрицательные значения
Для локальных встраиваний размерностью 1024 каждая аминокислота в среднем использует только около 14 эффективных измерений, демонстрируя аналогичные модели анизотропии с глобальными встраиваниями.
Анализ диаграмм рассеяния выявил:
- Область низкой схожести: Большая дисперсия расстояний встраивания, низкая предсказательная способность
- Область высокой схожести: Сходимость расстояний встраивания, евклидово расстояние стремится к низким значениям, косинусная схожесть близка к 1.0
- Это асимметричное поведение указывает на то, что встраивания более надежны при высокой биологической схожести, но ненадежны при низкой схожести
- Ethayarajh (2019) впервые обнаружил высокую анизотропию моделей, таких как BERT
- Rogers и соавторы рекомендовали увеличение изотропии для улучшения производительности BERT
- Rajaee & Pilehvar (2021) обнаружили, что постобработка для увеличения изотропии может повредить производительность
- Rudman и соавторы предложили метод IsoScore для решения недостатков существующих мер
- Серия ProtTrans (Elnaggar и др.): Прямое применение архитектур NLP к белкам
- ProteinBERT (Brandes и др.): Специально разработанная мультимодальная архитектура
- Существующие исследования в основном сосредоточены на производительности нижестоящих задач, лишены анализа геометрических свойств пространства представления
- Высокая анизотропия: Унимодальные белковые языковые модели на основе последовательности демонстрируют экстремальную анизотропию с значительной избыточностью измерений
- Преимущества мультимодальности: Мультимодальное обучение, интегрирующее информацию последовательности и генной онтологии, значительно повышает изотропию
- Ограничения биологической релевантности: Слабая корреляция между расстояниями встраивания и традиционными мерами биологической схожести, особенно в области низкой схожести
- Универсальность избыточности измерений: Серьезная избыточность измерений существует как в глобальных, так и в локальных представлениях
- Ограничения набора данных: Использование только набора данных SwissProt может не полностью представлять разнообразие белков
- Ограниченный диапазон моделей: Ограниченное количество оцениваемых моделей, не охватывающее последние крупномасштабные белковые языковые модели
- Отсутствие биологической проверки: Отсутствует прямой анализ связи со структурой и функцией белков
- Отсутствие динамического анализа: Не проанализированы изменения изотропии в процессе обучения
- Обучение с геометрической оптимизацией: Разработка методов обучения, явно оптимизирующих геометрическое богатство и изотропию
- Обучение с биологическим контролем: Контрастивное предварительное обучение на основе биологических априорных знаний
- Регуляризация изотропии: Включение регуляризации, способствующей изотропии, в процесс обучения
- Встраивания с функциональными ограничениями: Функциональные ограничения встраивания на основе онтологии или структурных данных
- Пионерское исследование: Первый систематический анализ геометрических свойств белковых языковых моделей, заполняющий важный пробел в исследованиях
- Научность методов: Применение нескольких дополняющих друг друга методов измерения изотропии обеспечивает надежность результатов
- Высокая практическая ценность: Обеспечивает теоретическую основу для сжатия моделей и снижения размерности
- Мультимодальные инсайты: Демонстрирует важность мультимодального обучения в улучшении качества представления
- Комплексный анализ: Всесторонний анализ от глобального к локальному, от изотропии к биологической релевантности
- Отсутствие механизмов объяснения: Недостаточное объяснение того, почему мультимодальное обучение повышает изотропию
- Отсутствие проверки нижестоящих задач: Отсутствует проверка влияния улучшения изотропии на производительность конкретных биологических задач
- Ограниченное покрытие моделей: Не включены более новые белковые языковые модели
- Отсутствие решений оптимизации: Хотя выявлены проблемы, конкретные решения для улучшения не предложены
- Теоретический вклад: Обеспечивает важную основу для теоретического понимания белковых языковых моделей
- Методологическая ценность: Устанавливает стандартные методы анализа пространства встраивания белков
- Инженерное руководство: Обеспечивает четкое направление для проектирования и оптимизации моделей
- Кросс-доменное значение: Методы могут быть распространены на анализ других биологических последовательностей
- Проектирование моделей: Направление проектирования новых архитектур белковых языковых моделей
- Сжатие моделей: Теоретическая основа для сжатия и ускорения крупномасштабных белковых моделей
- Генеративные модели: Обеспечение лучшей основы репрезентативного обучения для дизайна и инженерии белков
- Мультимодальное слияние: Направление проектирования мультимодальных белковых моделей
- Ethayarajh, K. (2019). How Contextual are Contextualized Word Representations?
- Rudman, W. et al. (2022). IsoScore: Measuring the uniformity of embedding space utilization
- Elnaggar, A. et al. (2022). ProtTrans: Toward Understanding the Language of Life
- Brandes, N. et al. (2022). ProteinBERT: a universal deep-learning model of protein sequence and function
Данный отчет основан на полном прочтении и анализе документа PDF статьи, объективно представляя технические детали исследования, результаты экспериментов и научные вклады, предоставляя комплексную справку для соответствующих исследователей.