Контекстное обучение
Материал из MachineLearning.
| | Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 19:00, 25 июня 2026 (MSD) |
Контекстное обучение (In-Context Learning / ICL) — парадигма работы больших языковых моделей (LLM), при которой адаптация к новой задаче происходит исключительно за счет модификации входного промпта (контекста) без изменения весовых коэффициентов нейросети. Феномен ICL является эмерджентным свойством, проявляющимся при масштабировании емкости моделей и объемов обучающих выборок.
Содержание |
Формальная математическая постановка
Пусть задана предобученная языковая модель с неизменяемыми параметрами . В рамках авторегрессионного моделирования текста задача контекстного обучения формулируется как задача условного предсказания целевого токена
на основе префикса, содержащего
демонстрационных пар «вход-выход» (примеров) и нового целевого запроса
:
Здесь подпоследовательность представляет собой обучающий контекст (обучающую выборку задачи), а распределение вероятностей вычисляется без применения градиентного спуска или иных методов явной оптимизации функционала ошибки на этапе инференса.
Различие между контекстным обучением и классическим дообучением
Специфика ICL наиболее отчетливо проявляется в сравнении с классическим дообучением (Fine-tuning) и настройкой промптов (Prompt Tuning):
- Вычислительный граф и обновление параметров: При классическом fine-tuning граф вычислений включает как прямой, так и обратный проход (backpropagation). Параметры модели модифицируются:
. При ICL граф вычислений ограничен исключительно прямым проходом (forward pass). Перенос знаний и адаптация к задаче реализуются динамически через изменение латентных представлений (активаций) внутри механизма внимания.
- Ресурсная емкость: Fine-tuning требует существенных вычислительных затрат на хранение градиентов и состояний оптимизатора, но минимизирует длину контекста при инференсе. ICL не требует затрат на обучение, однако накладывает вычислительную нагрузку порядка
(для стандартной архитектуры Transformer) из-за квадратичной зависимости стоимости вычисления внимания от длины контекста, увеличивающейся за счет демонстрационных примеров.
Теоретические механизмы (Физика процесса)
Механистическое объяснение природы ICL в современных работах ведется по двум комплементарным направлениям: механистическая интерпретируемость и оптимизационный анализ.
Индукционные головки (Induction Heads)
С точки зрения анализа микроархитектуры трансформеров, ключевым биологическим субстратом ICL выступают так называемые индукционные головки (induction heads) [1]. Это специализированные паттерны внимания в глубоких слоях сети, реализующие двухэтапный алгоритм копирования префиксов:
- Головка ищет в контексте токены, аналогичные текущему токену
.
- Она направляет внимание на токен
, следовавший непосредственно за
в прошлых упоминаниях, и увеличивает вероятность его генерации в текущей позиции.
Эмпирически показано, что появление индукционных головок во время предобучения строго совпадает по времени с резким скачком способности модели к контекстному обучению (фазовый переход).
Оптимизационный взгляд: имплицитный градиентный спуск
Альтернативный теоретический подход постулирует, что механизм сквозного внимания (Self-Attention) во время прямого прохода математически эквивалентен выполнению шагов линейного градиентного спуска над имплицитными весами, закодированными в активациях [1][1].
Если представить слой внимания без функции активации Softmax (Linear Attention), то вычисление проекций можно переписать как операцию обновления мета-параметров. Пусть матрицы проекций кодируют демонстрационные примеры. Тогда вычисление внимания для нового запроса эквивалентно применению оператора, минимизирующего среднеквадратичную ошибку (MSE) на контексте:
Таким образом, трансформер выступает в роли мета-оптимизатора, где активации слоев переносят «мета-градиенты», адаптирующие имплицитную модель под текущую задачу без физического изменения глобальных весов .
Эмпирические свойства и аномалии
Несмотря на высокую эффективность, ICL характеризуется рядом контринтуитивных аномалий, указывающих на фундаментальные отличия от классического обучения по выборке:
- Феномен «Rethinking the Role of Demonstrations»: В классической работе Мин и соавторов было обнаружено, что замена истинных меток
в демонстрационном контексте на случайные или инвертированные слабо влияет на итоговое качество предсказания модели на многих задачах [1]. Основной вклад демонстраций заключается в задании формата ввода, демонстрации распределения входных признаков
и очерчивании пространства допустимых ответов, а не в фиксации точного семантического отображения
.
- Чувствительность к порядку примеров (Recency Bias): Перестановка демонстрационных пар местами способна изменить метрику качества (например, accuracy) от уровня случайного угадывания до уровня State-of-the-Art [1]. Модели склонны отдавать приоритет примерам, расположенным ближе к целевому запросу
.

