Фундаментальная модель
Материал из MachineLearning.
| | Статья написана с использованием LLM ChatGPT 5.5 и проверена участником Liliia Davletova |
Фундаментальная модель
Фундаментальная модель (Foundation Model) — класс моделей машинного обучения, предварительно обученных на очень больших и разнообразных наборах данных, способных служить универсальной основой для решения широкого спектра прикладных задач посредством дообучения, обучения с инструкциями, контекстного обучения (in-context learning), RAG и других методов адаптации.
Термин был предложен исследователями Stanford Center for Research on Foundation Models в 2021 году в работе On the Opportunities and Risks of Foundation Models, ставшей одной из наиболее цитируемых обзорных работ по современной архитектуре систем искусственного интеллекта.
Определение
В классическом определении фундаментальная модель обладает двумя ключевыми свойствами:
- обучается на широкомасштабных данных общего назначения (broad data at scale);
- может быть адаптирована для множества различных последующих задач (downstream tasks) без обучения новой модели "с нуля".
Таким образом, фундаментальная модель представляет собой не законченное прикладное решение, а универсальную основу, из которой строятся специализированные модели.
История
До появления фундаментальных моделей большинство систем машинного обучения создавались под конкретную задачу:
В 2018–2020 годах стало очевидно, что масштабное предварительное обучение на неразмеченных данных позволяет получать универсальные представления объектов.
В области обработки естественного языка важную роль сыграли модели
Позже аналогичная парадигма распространилась на изображения (CLIP, DINO, SAM), мультимодальные данные (Flamingo, PaLI, GPT-4V) и биологические последовательности.
Основная идея
Фундаментальная модель обучается не решению одной конкретной задачи, а моделированию структуры большого массива данных.
В зависимости от модальности используются различные цели обучения:
- самоконтролируемое обучение;
- контрастивное обучение;
- маскирование токенов;
- авторегрессионная языковая модель;
- диффузионная модель.
После такого предварительного обучения модель можно адаптировать к новой задаче значительно дешевле, чем обучать новую модель.
Схематически процесс выглядит следующим образом:
Большой корпус данных
↓
Предварительное обучение
↓
Фундаментальная модель
↓
┌────────┼─────────┐
↓ ↓ ↓
Дообучение Prompting RAG
↓ ↓ ↓
Прикладные системы
Отличия от классического transfer learning
Хотя фундаментальные модели основаны на идеях перенос обучения, между ними существуют принципиальные различия.
| Классический перенос обучения |
АрхитектурыНаиболее распространёнными архитектурами фундаментальных моделей являются
Практически все современные большие языковые модели основаны на архитектуре Transformer. Методы адаптацииПосле предварительного обучения фундаментальная модель может использоваться различными способами. Полное дообучениеВсе параметры модели обновляются на новой задаче. Преимущества:
Недостаток — высокая вычислительная стоимость. Parameter-Efficient Fine-TuningВ современных системах широко используются методы Они позволяют обучать лишь небольшую часть параметров модели. In-context learningНекоторые фундаментальные модели способны решать новую задачу исключительно по нескольким примерам во входном запросе без изменения весов модели. Это свойство стало одной из отличительных особенностей современных больших языковых моделей. МасштабированиеОдной из причин успеха фундаментальных моделей являются так называемые законы масштабирования (Scaling Laws). Экспериментально было показано, что увеличение
ведёт к предсказуемому улучшению качества модели в широком диапазоне задач. Данное наблюдение легло в основу разработки современных больших языковых моделей. Эмерджентные свойстваПри увеличении размера модели начинают проявляться способности, отсутствовавшие у более компактных моделей:
Такие свойства получили название эмерджентных (Emergent Abilities). Несмотря на большое количество эмпирических наблюдений, механизмы их возникновения остаются предметом активных исследований. Примеры фундаментальных моделейЯзыкКомпьютерное зрениеГенерация изображенийМультимодальные моделиПреимуществаОсновные достоинства фундаментальных моделей:
ОграниченияНесмотря на впечатляющие результаты, фундаментальные модели имеют ряд существенных ограничений. Высокая стоимостьПредварительное обучение крупнейших моделей требует тысяч графических процессоров и миллионов долларов вычислительных затрат. ГаллюцинацииБольшие языковые модели способны генерировать правдоподобную, но ложную информацию. = СмещенияМодель наследует статистические закономерности обучающих данных, включая различные виды социальных и культурных смещений. ИнтерпретируемостьПричины принятия конкретного решения моделью часто остаются неизвестными. Экологические издержкиОбучение крупнейших моделей сопровождается значительным энергопотреблением и углеродным следом. Эти проблемы активно обсуждаются в современной научной литературе. Современные направления исследованийНаиболее активно развиваются следующие направления:
См. также
ПримечанияЛитература
|
|---|

