Заглавная страница

Материал из MachineLearning.

Перейти к: навигация, поиск
MachineLearning.ru

Профессиональный информационно-аналитический ресурс, посвященный

машинному обучению, распознаванию образов и интеллектуальному анализу данных.

Сейчас ресурс содержит 1175 статей на русском языке.


Poligon.MachineLearning.ru Полигон алгоритмов классификации

Классификация Распознавание образов
Регрессионный анализ Анализ и понимание изображений
Прогнозирование Обработка и анализ текстов
Прикладная статистика Прикладные системы анализа данных
Обработка сигналов Все направления

Концепция Инструктаж Все статьи Ненаписанные статьи Полезные ссылки Частые вопросы Справка
Цели Ресурса
  • Сконцентрировать информацию о достижениях ведущих российских научных школ в области машинного обучения, распознавания образов, анализа данных.
  • Способствовать обмену опытом, накоплению и распространению научных знаний в этой области.
  • Предоставить площадку для виртуальных научных семинаров и обсуждений.
  • Предоставить доступ к Полигону алгоритмов классификации — распределенной системе тестирования алгоритмов классификации на реальных прикладных задачах.
Основные принципы

Ресурс строится по принципам Википедии — свободной энциклопедии.

Содержимое Ресурса создаётся всеми его пользователями и является общественным достоянием. Каждый пользователь ресурса может создать или модифицировать статью или раздел (категорию), в любое время, в любом месте, располагая только доступом в Интернет.

Главное отличие от Википедии — профессиональная направленность тематики. Допускается (и поощряется) пополнение Ресурса специальными, полемическими и учебными материалами, информацией о незавершённых исследованиях, исходными кодами алгоритмов и программ. По этим причинам Ресурс не может являться частью Википедии. В то же время, не исключается возможность обмена материалами с Википедией и другими сетевыми энциклопедиями.

Новые статьи

Список всех статей

Новое в разделе «Публикации»
Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 18:10, 25 июня 2026 (MSD)


Статья будет дополнена изображениями, после возобновления качественной работы сайта


Van Gansbeke W., Vandenhende S., Georgoulis S., Proesmans M., Van Gool L. SCAN: Learning to Classify Images without Labels // ECCV. — 2020.

@inproceedings{vangansbeke2020scan,
  title={Scan: Learning to classify images without labels},
  author={Van Gansbeke, Wouter and Vandenhende, Simon and Georgoulis, Stamatios and Proesmans, Marc and Van Gool, Luc},
  booktitle={European Conference on Computer Vision},
  pages={268--285},
  year={2020},
  organization={Springer}
}

Аннотация

Статья описывает алгоритм SCAN (Semantic Clustering by Adopting Nearest neighbors), предлагающий двухэтапный подход к задаче необучаемой классификации изображений. Метод изолирует процесс извлечения признаков от этапа кластеризации, что позволяет избежать группировки данных на основе низкоуровневых визуальных эвристик (цвет, текстура) в пользу семантически значимых признаков.

Введение и мотивация

Классические подходы к сквозному (end-to-end) обучению кластеризации часто сталкиваются с проблемой вырождения признаков, когда сверточные нейронные сети группируют объекты на основе низкоуровневых признаков (таких как цветовые гистограммы, текстуры или общие фоны), а не их реального семантического содержания. Кроме того, одновременная оптимизация репрезентаций и распределения по кластерам порождает нестабильность обучения и склонность к тривиальным решениям. Авторы SCAN констатируют, что разделение этих двух процессов позволяет использовать сильные стороны современных методов контрастивного самообучения (self-supervised learning) для формирования робастных семантических пространств, в которых геометрическая близость векторов соответствует категориальной близости объектов.

Архитектура и метод SCAN

Алгоритм SCAN реализует последовательный трехстадийный конвейер:

  1. Предварительное обучение эмбеддингов признаков посредством решения вспомогательной контрастивной задачи (pretext task).
  2. Семантическая кластеризация путем максимизации согласия предсказаний для близких соседей в признаковом пространстве.
  3. Саморазметка (self-labeling) модели на основе высокоуверенных предсказаний для уточнения решающих границ кластеров.

Pretext Task (Обучение признаков)

На первом этапе исходные изображения пропускаются через кодировщик признаков (архитектура ResNet-50), обучаемый без разметки с помощью алгоритмов контрастивного самообучения, таких как SimCLR[1] или MoCo[1]. Целевая функция нацелена на максимизацию сходства между различными случайными аугментациями одного и того же изображения (позитивные пары) и минимизацию сходства с другими изображениями батча (негативные пары). В результате формируется репрезентативное пространство, инвариантное к пространственным и цветовым искажениям, где взаимное расположение векторов определяется высокоуровневой семантикой.

SCAN (Semantic Clustering by Adopting Nearest neighbors)

Для каждого изображения x_i из обучающей выборки \mathcal{D} фиксируется его вектор признаков. На основе косинусного расстояния в признаковом пространстве для каждого объекта вычисляется множество из K его ближайших соседей, обозначаемое как \mathcal{N}_{x_i}.

Поверх замороженного кодировщика инициализируется классификационная голова, параметризованная весами \theta. Данная подсеть преобразует изображение x в дискретное распределение вероятностей по кластерам: \Phi_{\theta}(x) \in [0, 1]^C, где C — заданное число целевых классов. Идея SCAN заключается в том, что изображение и его ближайшие соседи должны иметь схожие вероятностные распределения по кластерам. Функция потерь кластеризации формулируется как максимизация скалярного произведения векторов предсказаний для пар близких объектов:

\mathcal{L}_{SCAN} = - \frac{1}{|\mathcal{D}|} \sum_{x \in \mathcal{D}} \sum_{k \in \mathcal{N}_x} \log \langle \Phi_{\theta}(x), \Phi_{\theta}(k) \rangle

Для предотвращения вырожденного решения, при котором модель присваивает все объекты выборки одному и тому же кластеру, вводится регуляризационный член, максимизирующий энтропию усредненного по мини-батчу распределения предсказаний:

\mathcal{L}_{entropy} = \sum_{c=1}^C p_c \log p_c

Где p_c определяется как средняя вероятность отнесения объектов текущего мини-батча \mathcal{B} к кластеру c:

p_c = \frac{1}{|\mathcal{B}|} \sum_{x \in \mathcal{B}} \Phi_{\theta}(x)_c

Итоговый функционал потерь на этапе кластеризации представляет собой линейную комбинацию:

\mathcal{L}_{total} = \mathcal{L}_{SCAN} + \lambda \mathcal{L}_{entropy}

где \lambda — гиперпараметр, регулирующий вклад энтропийного штрафа (в оригинальной работе \lambda = 1).

Self-Labeling (Саморазметка)

Этап семантической кластеризации позволяет сгруппировать основную массу данных, однако на границах кластеров могут оставаться неоднозначности, вызванные локальным шумом в графе ближайших соседей. Для очистки границ применяется шаг саморазметки.

Объекты, для которых уверенность предсказания превосходит жестко заданный порог \tau, размечаются псевдометками (one-hot векторы y_i). Далее вся сеть дообучается на подмножестве уверенных примеров с использованием стандартной функции кросс-энтропии:

\mathcal{L}_{self} = - \frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C y_{ic} \log \Phi_{\theta}(x_i)_c

Эксперименты и результаты

Эффективность алгоритма SCAN была подтверждена экспериментами на стандартных наборах данных для компьютерного зрения: CIFAR-10, CIFAR-100 (с использованием 20 суперклассов) и STL-10. Качество кластеризации измерялось с помощью метрик Accuracy (ACC), Normalized Mutual Information (NMI) и Adjusted Rand Index (ARI).

На датасете CIFAR-10 метод SCAN достиг точности (ACC) 88.3%, на STL-10 — 76.7% (80.9% с последующей саморазметкой), превзойдя существовавшие на тот момент end-to-end подходы, такие как IIC[1] (показавший 61.7% на CIFAR-10).

Примечания


Литература

Все публикации

   
Последние новости

Список всех новостей

Основные категории
Последние правки

Список всех последних правок

Работа над созданием Ресурса MachineLearning.ru ведется при поддержке РФФИ (проекты 07-07-00372, 10-07-00673) и компании Forecsys


Личные инструменты