Контекстное обучение

Материал из MachineLearning.

Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 19:00, 25 июня 2026 (MSD)

Контекстное обучение (In-Context Learning / ICL) — парадигма работы больших языковых моделей (LLM), при которой адаптация к новой задаче происходит исключительно за счет модификации входного промпта (контекста) без изменения весовых коэффициентов нейросети. Феномен ICL является эмерджентным свойством, проявляющимся при масштабировании емкости моделей и объемов обучающих выборок.

Содержание

1 Формальная математическая постановка
2 Различие между контекстным обучением и классическим дообучением
3 Теоретические механизмы (Физика процесса)
- 3.1 Индукционные головки (Induction Heads)
- 3.2 Оптимизационный взгляд: имплицитный градиентный спуск
4 Эмпирические свойства и аномалии
5 Литература

Формальная математическая постановка

Пусть задана предобученная языковая модель с неизменяемыми параметрами $\theta$ . В рамках авторегрессионного моделирования текста задача контекстного обучения формулируется как задача условного предсказания целевого токена $y_t$ на основе префикса, содержащего $k$ демонстрационных пар «вход-выход» (примеров) и нового целевого запроса $x_t$ :

$P(y_t \mid x_1, y_1, x_2, y_2, \dots, x_k, y_k, x_t; \theta)$

Здесь подпоследовательность $D_k = (x_1, y_1, \dots, x_k, y_k)$ представляет собой обучающий контекст (обучающую выборку задачи), а распределение вероятностей вычисляется без применения градиентного спуска или иных методов явной оптимизации функционала ошибки на этапе инференса.

Различие между контекстным обучением и классическим дообучением

Специфика ICL наиболее отчетливо проявляется в сравнении с классическим дообучением (Fine-tuning) и настройкой промптов (Prompt Tuning):

Вычислительный граф и обновление параметров: При классическом fine-tuning граф вычислений включает как прямой, так и обратный проход (backpropagation). Параметры модели модифицируются: $\theta_{new} = \theta_{old} - \eta \nabla_\theta \mathcal{L}$ . При ICL граф вычислений ограничен исключительно прямым проходом (forward pass). Перенос знаний и адаптация к задаче реализуются динамически через изменение латентных представлений (активаций) внутри механизма внимания.
Ресурсная емкость: Fine-tuning требует существенных вычислительных затрат на хранение градиентов и состояний оптимизатора, но минимизирует длину контекста при инференсе. ICL не требует затрат на обучение, однако накладывает вычислительную нагрузку порядка $\mathcal{O}(N^2)$ (для стандартной архитектуры Transformer) из-за квадратичной зависимости стоимости вычисления внимания от длины контекста, увеличивающейся за счет демонстрационных примеров.

Теоретические механизмы (Физика процесса)

Механистическое объяснение природы ICL в современных работах ведется по двум комплементарным направлениям: механистическая интерпретируемость и оптимизационный анализ.

Индукционные головки (Induction Heads)

С точки зрения анализа микроархитектуры трансформеров, ключевым биологическим субстратом ICL выступают так называемые индукционные головки (induction heads) ^[1]. Это специализированные паттерны внимания в глубоких слоях сети, реализующие двухэтапный алгоритм копирования префиксов:

Головка ищет в контексте токены, аналогичные текущему токену $A$ .
Она направляет внимание на токен $B$ , следовавший непосредственно за $A$ в прошлых упоминаниях, и увеличивает вероятность его генерации в текущей позиции.

Эмпирически показано, что появление индукционных головок во время предобучения строго совпадает по времени с резким скачком способности модели к контекстному обучению (фазовый переход).

Оптимизационный взгляд: имплицитный градиентный спуск

Альтернативный теоретический подход постулирует, что механизм сквозного внимания (Self-Attention) во время прямого прохода математически эквивалентен выполнению шагов линейного градиентного спуска над имплицитными весами, закодированными в активациях ^[1]^[1]. Если представить слой внимания без функции активации Softmax (Linear Attention), то вычисление проекций можно переписать как операцию обновления мета-параметров. Пусть матрицы проекций $W_K, W_V$ кодируют демонстрационные примеры. Тогда вычисление внимания для нового запроса эквивалентно применению оператора, минимизирующего среднеквадратичную ошибку (MSE) на контексте:

$\Delta W = \sum_{i=1}^k (W_V x_i - W_K x_i) x_i^T$

Таким образом, трансформер выступает в роли мета-оптимизатора, где активации слоев переносят «мета-градиенты», адаптирующие имплицитную модель под текущую задачу без физического изменения глобальных весов $\theta$ .

Эмпирические свойства и аномалии

Несмотря на высокую эффективность, ICL характеризуется рядом контринтуитивных аномалий, указывающих на фундаментальные отличия от классического обучения по выборке:

Феномен «Rethinking the Role of Demonstrations»: В классической работе Мин и соавторов было обнаружено, что замена истинных меток $y_i$ в демонстрационном контексте на случайные или инвертированные слабо влияет на итоговое качество предсказания модели на многих задачах ^[1]. Основной вклад демонстраций заключается в задании формата ввода, демонстрации распределения входных признаков $x$ и очерчивании пространства допустимых ответов, а не в фиксации точного семантического отображения $X \to Y$ .
Чувствительность к порядку примеров (Recency Bias): Перестановка демонстрационных пар местами способна изменить метрику качества (например, accuracy) от уровня случайного угадывания до уровня State-of-the-Art ^[1]. Модели склонны отдавать приоритет примерам, расположенным ближе к целевому запросу $x_t$ .