Заглавная страница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (оформление)
 
(54 промежуточные версии не показаны)
Строка 1: Строка 1:
{|border=0 width=100%
{|border=0 width=100%
-
|rowspan=7 style="width:60%; text-align:center;" | <span style="font-size:162%;"> MachineLearning.Ru </span>
+
|rowspan=5 style="width:60%; text-align:center; padding-top:2ex;" | <span style="font-size:162%;"> MachineLearning.ru </span>
-
<br/>Профессиональный информационно-аналитический ресурс,
+
-
посвященный [[:Категория:Машинное обучение|машинному обучению]] и
+
Профессиональный информационно-аналитический ресурс, посвященный
-
[[:Категория:Интеллектуальный анализ данных|интеллектуальному анализу данных]].
+
-
Сейчас ресурс содержит '''[[Special:Statistics|{{NUMBEROFARTICLES}}]]'''
+
[[Машинное обучение|машинному&nbsp;обучению]],
 +
[[:Категория:Распознавание образов|распознаванию&nbsp;образов]]
 +
и&nbsp;[[Интеллектуальный анализ данных|интеллектуальному&nbsp;анализу&nbsp;данных]].
 +
 
 +
Сейчас ресурс содержит '''[[Special:Statistics|{{NUMBEROFARTICLES}}]]'''
{{plural:{{NUMBEROFARTICLES}}|статью|статьи|статей}} на русском языке.
{{plural:{{NUMBEROFARTICLES}}|статью|статьи|статей}} на русском языке.
-
|width=16% | &nbsp;
+
 
-
|width=20% | &nbsp;
+
<br/><span style="font-size:125%;"> [http://poligon.machinelearning.ru Poligon.MachineLearning.ru] </span> — [[Полигон алгоритмов классификации]]
 +
 
 +
|width=16% style="font-size:90%;" | [[:Категория:Классификация|Классификация]]
 +
|width=20% style="font-size:90%;" | [[:Категория:Распознавание образов|Распознавание&nbsp;образов]]
|-
|-
-
|style="font-size:90%;" | [[:Категория:Классификация|Классификация]]
+
|style="font-size:90%;" | [[:Категория:Регрессионный анализ|Регрессионный&nbsp;анализ]]
-
|style="font-size:90%;" | [[:Категория:Обработка и анализ текстов|{{S|Обработка и анализ текстов}}]]
+
|style="font-size:90%;" | [[:Категория:Анализ и понимание изображений|Анализ&nbsp;и&nbsp;понимание&nbsp;изображений]]
|-
|-
|style="font-size:90%;" | [[:Категория:Прогнозирование|Прогнозирование]]
|style="font-size:90%;" | [[:Категория:Прогнозирование|Прогнозирование]]
-
|style="font-size:90%;" | [[:Категория:Анализ и понимание изображений|{{S|Анализ и понимание изображений}}]]
+
|style="font-size:90%;" | [[:Категория:Обработка и анализ текстов|Обработка&nbsp;и&nbsp;анализ&nbsp;текстов]]
|-
|-
-
|style="font-size:90%;" | [[:Категория:Регрессионный анализ|{{S|Регрессионный анализ}}]]
+
|style="font-size:90%;" | [[:Категория:Прикладная статистика|Прикладная&nbsp;статистика]]
-
|style="font-size:90%;" | [[:Категория:Извлечение знаний из баз данных|{{S|Извлечение знаний из баз данных}}]]
+
|style="font-size:90%;" | [[:Категория:Прикладные системы анализа данных|Прикладные&nbsp;системы&nbsp;анализа&nbsp;данных]]
|-
|-
-
|style="font-size:90%;" | [[:Категория:Прикладная статистика|{{S|Прикладная статистика}}]]
+
|style="font-size:90%;" | [[:Категория:Обработка сигналов|Обработка&nbsp;сигналов]]
-
|style="font-size:90%;" | [[:Категория:Прикладные задачи анализа данных|{{S|Прикладные задачи анализа данных}}]]
+
|style="font-size:90%;" | '''[[:Категория:Научные направления|Все&nbsp;направления]]'''
-
|-
+
-
|style="font-size:90%;" | [[:Категория:Распознавание образов|{{S|Распознавание образов}}]]
+
-
|style="font-size:90%;" | [[:Категория:Прикладные системы анализа данных|{{S|Прикладные системы анализа данных}}]]
+
-
|-
+
-
|style="font-size:90%;" | [[:Категория:Обработка сигналов|{{S|Обработка сигналов}}]]
+
-
|style="font-size:90%;" | '''[[:Категория:Научные направления|{{S|Все направления}}]]'''
+
|}
|}
----
----
{|border=0 width=100%
{|border=0 width=100%
-
|<span style="text-align:left;"> [[MachineLearning:Концепция ресурса|'''{{S|Концепция}}''']] </span>
+
|style="text-align:left;" | [[MachineLearning:Концепция ресурса|'''Концепция''']]
-
|<span style="text-align:left;"> [[MachineLearning:Инструктаж|'''{{S|Инструктаж}}''']] </span>
+
|style="text-align:center;" | [[MachineLearning:Инструктаж|'''Инструктаж''']]
-
|<span style="text-align:left;"> [[:Категория:Статьи|'''{{S|Все статьи}}''']] </span>
+
|style="text-align:center;" | [[:Категория:Статьи|'''Все&nbsp;статьи''']]
-
|<span style="text-align:right;"> [[Служебная:Wantedpages|'''{{S|Ненаписанные статьи}}''']] </span>
+
|style="text-align:center;" | [[Служебная:Wantedpages|'''Ненаписанные&nbsp;статьи''']]
-
|<span style="text-align:right;"> [[Полезные ссылки|'''{{S|Полезные ссылки}}''']] </span>
+
|style="text-align:center;" | [[Полезные ссылки|'''Полезные&nbsp;ссылки''']]
-
|<span style="text-align:right;"> [[MachineLearning:ЧаВО|'''{{S|Частые вопросы}}''']] </span>
+
|style="text-align:center;" | [[MachineLearning:ЧаВО|'''Частые&nbsp;вопросы''']]
-
|<span style="text-align:right;"> [[MachineLearning:Справка|'''Справка''']] </span>
+
|style="text-align:right;" | [[MachineLearning:Справка|'''Справка''']]
|}
|}
-
 
+
<!--- The announcement is outdated. -->
 +
<span style="clear:both; display:block;">
 +
<div align="center" style="background-color: #E84; font-weight:bold; font-size: 100%; border: 1px solid #AAAAAA; -moz-border-radius-topright: 0.5em; -moz-border-radius-topleft:0.5em;">Временная приостановка свободной регистрации на ресурсе</div>
 +
<div align="left" style="border: 1px solid #8898BF; border-top: 0px solid white; padding: 5px 5px 0 5px; margin-bottom: 3ex;">
 +
{|style="margin: auto; text-align: left;"
 +
|
 +
|-
 +
|Уважаемые коллеги!
 +
В связи с высокой активностью спамеров, временно приостановлена свободная регистрация на ресурсе MachineLearning.ru. Ведется поиск &laquo;интеллектуального&raquo; решения данной проблемы.
 +
В настоящее время для создания новой учетной записи необходимо обратиться к одному из [[MachineLearning:Администраторы|Администраторов]] ресурса с просьбой перейти по ссылке [http://www.machinelearning.ru/wiki/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:Userlogin&type=signup&returnto=%D0%97%D0%B0%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D1%8F_%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B0 Регистрация нового участника] и ввести в форму данные нового участника.
 +
|}
 +
</div>
 +
</span>
 +
<!--- The announcement is outdated.-->
{|style="width:100%"
{|style="width:100%"
|style="width:50%" valign="top"|
|style="width:50%" valign="top"|
{{Раздел заглавной страницы | x=0 | y=0 | Заголовок =Цели Ресурса | Содержание=
{{Раздел заглавной страницы | x=0 | y=0 | Заголовок =Цели Ресурса | Содержание=
-
* Сконцентрировать информацию {{S|о достижениях}} ведущих российских научных школ {{S|в области}} машинного обучения {{S|и интеллектуального}} анализа данных.
+
* Сконцентрировать информацию о&nbsp;достижениях ведущих российских [[:Категория:Научные школы|научных школ]] в&nbsp;области машинного обучения, распознавания образов, анализа данных.
-
* Способствовать обмену опытом, накоплению {{S|и распространению}} научных знаний {{S|в этой}} области.
+
* Способствовать обмену опытом, накоплению и&nbsp;распространению научных знаний в&nbsp;этой области.
-
* Предоставить площадку для виртуальных научных семинаров {{S|и обсуждений}}.
+
* Предоставить площадку для [[:Категория:Виртуальные семинары|виртуальных научных семинаров]] и&nbsp;[[:Категория:Открытые проблемы и полемика|обсуждений]].
-
* Предоставить доступ {{S|к распределенной}} системе тестирования алгоритмов классификации {{S|и прогнозирования}}.
+
* Предоставить доступ к&nbsp;[[Полигон алгоритмов классификации|Полигону алгоритмов классификации]] — распределенной системе тестирования алгоритмов классификации на реальных прикладных задачах.
}}
}}
<!---------------------------------------------------------->
<!---------------------------------------------------------->
Строка 52: Строка 64:
Ресурс строится по принципам [http://ru.wikipedia.org/wiki/ Википедии — свободной энциклопедии].
Ресурс строится по принципам [http://ru.wikipedia.org/wiki/ Википедии — свободной энциклопедии].
-
Содержимое Ресурса создаётся всеми его пользователями {{S|и является}} общественным достоянием.
+
Содержимое Ресурса создаётся всеми его пользователями и&nbsp;является общественным достоянием.
-
Каждый пользователь ресурса может создать или модифицировать статью или раздел (категорию), {{S|в любое}} время, {{S|в любом}} месте, располагая только доступом {{S|в Интернет}}.
+
Каждый пользователь ресурса может создать или модифицировать [[MachineLearning:Инструктаж#Как редактировать статьи|статью]] или [[MachineLearning:Категоризация|раздел (категорию)]], в&nbsp;любое время, в&nbsp;любом месте, располагая только доступом в&nbsp;Интернет.
-
Главное отличие {{S|от Википедии}} — профессиональная направленность тематики.
+
Главное отличие от&nbsp;Википедии —&nbsp;профессиональная направленность тематики.
-
 
+
Допускается (и&nbsp;поощряется) пополнение Ресурса [[:Категория:Научные направления|специальными]], [[:Категория:Открытые проблемы и полемика|полемическими]] и&nbsp;[[:Категория:Учебные материалы|учебными]] материалами, информацией о&nbsp;[[:Категория:Виртуальные семинары|незавершённых исследованиях]], [[:Категория:Библиотеки алгоритмов|исходными кодами]] алгоритмов и&nbsp;программ.
-
Допускается (и поощряется) пополнение Ресурса специальными, исследовательскими, полемическими {{S|и учебными}} материалами.
+
По&nbsp;этим причинам Ресурс не&nbsp;может являться частью Википедии.
-
{{S|По этой}} причине Ресурс {{S|не может}} являться частью Википедии.
+
В&nbsp;то&nbsp;же время, не&nbsp;исключается возможность обмена материалами с&nbsp;Википедией и&nbsp;другими сетевыми энциклопедиями.
-
{{S|В то же время}}, не исключается возможность обмена материалами {{S|с Википедией}} {{S|и другими}} сетевыми энциклопедиями.
+
}}
}}
<!---------------------------------------------------------->
<!---------------------------------------------------------->
Строка 73: Строка 84:
<!---------------------------------------------------------->
<!---------------------------------------------------------->
{{Раздел заглавной страницы | x=0 | y=3 | Заголовок=Новые статьи | Содержание=
{{Раздел заглавной страницы | x=0 | y=3 | Заголовок=Новые статьи | Содержание=
-
<DynamicArticleList>
+
{{#dpl:
-
<!-- title=Новые статьи -->
+
|namespace=
-
type=new
+
|adduser=true
-
count=11
+
|addeditdate=true
-
</DynamicArticleList>
+
|mode=userformat
 +
|ordermethod=firstedit
 +
|order=descending
 +
|format=,\n* [[%TITLE%]] <small>([[Участник:%USER%|%USER%]]) – [%DATE%]</small>,,
 +
|count=7
 +
}}
 +
 
'''[[Special:Allpages/|Список всех статей]]'''
'''[[Special:Allpages/|Список всех статей]]'''
}}
}}
Строка 88: Строка 105:
|order=descending
|order=descending
|format=,\n* ²{%PAGE%}²,,
|format=,\n* ²{%PAGE%}²,,
-
|count=10
+
|count=7
}}
}}
'''[[:Категория:Публикации|Все публикации]]'''
'''[[:Категория:Публикации|Все публикации]]'''
Строка 96: Строка 113:
<!---------------------------------------------------------->
<!---------------------------------------------------------->
{{Раздел заглавной страницы 2 | x=1 | y=0 | Заголовок =Последние новости |Содержание=
{{Раздел заглавной страницы 2 | x=1 | y=0 | Заголовок =Последние новости |Содержание=
-
* C '''15 по 20 сентября 2008 года''' в Нижнем Новгороде будет проведена международная конференция [[РОАИ|РОАИ-9-2008]]. Подробная информация — на [http://agora.guru.ru/pria-2008 сайте конференции].
+
{{Новости}}
-
* C '''9 по 14 июня 2008 года''' в г. Алуште согласно планам [[:Категория:Мероприятия|научных мероприятий]] академий наук России, Украины и Беларуси будет проведена Международная конференция «[[Интеллектуализация обработки информации (конференция)|Интеллектуализация обработки информации]]». В рамках конференции планируется презентация и обсуждение Ресурса.
+
-
* '''20 мая 2008 года''' — Количество страниц в базе данных ресурса достигло '''500''' (из них '''97''' статей). Создано пространство имён [[Special:Allpages/Публикации:|«Публикация»]], {{S|в тестовом}} режиме заведено '''4''' публикации.
+
-
[[Новости|'''Все новости''']]
+
}}
}}
<!-- {{Раздел заглавной страницы | x=1 | y=1 | Заголовок =Научные направления |Содержание=
<!-- {{Раздел заглавной страницы | x=1 | y=1 | Заголовок =Научные направления |Содержание=
Строка 129: Строка 143:
|}
|}
{|style ="width:100%; border: 1px solid #AAAAAA; text-align:center; padding: 7px 7px 7px 7px;"
{|style ="width:100%; border: 1px solid #AAAAAA; text-align:center; padding: 7px 7px 7px 7px;"
-
| Работа над созданием Ресурса MachineLearning.Ru ведется при поддержке [[Российский фонд фундаментальных исследований|РФФИ]] (проект № 07-07-00372) и [[Компания Forecsys|компании Forecsys]]
+
| Работа над созданием Ресурса '''MachineLearning.ru''' ведется при поддержке [[Компания Forecsys|компании Forecsys]]
|}
|}
__NOTOC__
__NOTOC__
__NOEDITSECTION__
__NOEDITSECTION__

Текущая версия

MachineLearning.ru

Профессиональный информационно-аналитический ресурс, посвященный

машинному обучению, распознаванию образов и интеллектуальному анализу данных.

Сейчас ресурс содержит 1174 статьи на русском языке.


Poligon.MachineLearning.ru Полигон алгоритмов классификации

Классификация Распознавание образов
Регрессионный анализ Анализ и понимание изображений
Прогнозирование Обработка и анализ текстов
Прикладная статистика Прикладные системы анализа данных
Обработка сигналов Все направления

Концепция Инструктаж Все статьи Ненаписанные статьи Полезные ссылки Частые вопросы Справка

Временная приостановка свободной регистрации на ресурсе
Уважаемые коллеги!

В связи с высокой активностью спамеров, временно приостановлена свободная регистрация на ресурсе MachineLearning.ru. Ведется поиск «интеллектуального» решения данной проблемы. В настоящее время для создания новой учетной записи необходимо обратиться к одному из Администраторов ресурса с просьбой перейти по ссылке Регистрация нового участника и ввести в форму данные нового участника.

Цели Ресурса
  • Сконцентрировать информацию о достижениях ведущих российских научных школ в области машинного обучения, распознавания образов, анализа данных.
  • Способствовать обмену опытом, накоплению и распространению научных знаний в этой области.
  • Предоставить площадку для виртуальных научных семинаров и обсуждений.
  • Предоставить доступ к Полигону алгоритмов классификации — распределенной системе тестирования алгоритмов классификации на реальных прикладных задачах.
Основные принципы

Ресурс строится по принципам Википедии — свободной энциклопедии.

Содержимое Ресурса создаётся всеми его пользователями и является общественным достоянием. Каждый пользователь ресурса может создать или модифицировать статью или раздел (категорию), в любое время, в любом месте, располагая только доступом в Интернет.

Главное отличие от Википедии — профессиональная направленность тематики. Допускается (и поощряется) пополнение Ресурса специальными, полемическими и учебными материалами, информацией о незавершённых исследованиях, исходными кодами алгоритмов и программ. По этим причинам Ресурс не может являться частью Википедии. В то же время, не исключается возможность обмена материалами с Википедией и другими сетевыми энциклопедиями.

Новые статьи
Новое в разделе «Публикации»
Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 18:10, 25 июня 2026 (MSD)


Статья будет дополнена изображениями, после возобновления качественной работы сайта


Van Gansbeke W., Vandenhende S., Georgoulis S., Proesmans M., Van Gool L. SCAN: Learning to Classify Images without Labels // ECCV. — 2020.

@inproceedings{vangansbeke2020scan,
  title={Scan: Learning to classify images without labels},
  author={Van Gansbeke, Wouter and Vandenhende, Simon and Georgoulis, Stamatios and Proesmans, Marc and Van Gool, Luc},
  booktitle={European Conference on Computer Vision},
  pages={268--285},
  year={2020},
  organization={Springer}
}

Аннотация

Статья описывает алгоритм SCAN (Semantic Clustering by Adopting Nearest neighbors), предлагающий двухэтапный подход к задаче необучаемой классификации изображений. Метод изолирует процесс извлечения признаков от этапа кластеризации, что позволяет избежать группировки данных на основе низкоуровневых визуальных эвристик (цвет, текстура) в пользу семантически значимых признаков.

Введение и мотивация

Классические подходы к сквозному (end-to-end) обучению кластеризации часто сталкиваются с проблемой вырождения признаков, когда сверточные нейронные сети группируют объекты на основе низкоуровневых признаков (таких как цветовые гистограммы, текстуры или общие фоны), а не их реального семантического содержания. Кроме того, одновременная оптимизация репрезентаций и распределения по кластерам порождает нестабильность обучения и склонность к тривиальным решениям. Авторы SCAN констатируют, что разделение этих двух процессов позволяет использовать сильные стороны современных методов контрастивного самообучения (self-supervised learning) для формирования робастных семантических пространств, в которых геометрическая близость векторов соответствует категориальной близости объектов.

Архитектура и метод SCAN

Алгоритм SCAN реализует последовательный трехстадийный конвейер:

  1. Предварительное обучение эмбеддингов признаков посредством решения вспомогательной контрастивной задачи (pretext task).
  2. Семантическая кластеризация путем максимизации согласия предсказаний для близких соседей в признаковом пространстве.
  3. Саморазметка (self-labeling) модели на основе высокоуверенных предсказаний для уточнения решающих границ кластеров.

Pretext Task (Обучение признаков)

На первом этапе исходные изображения пропускаются через кодировщик признаков (архитектура ResNet-50), обучаемый без разметки с помощью алгоритмов контрастивного самообучения, таких как SimCLR[1] или MoCo[1]. Целевая функция нацелена на максимизацию сходства между различными случайными аугментациями одного и того же изображения (позитивные пары) и минимизацию сходства с другими изображениями батча (негативные пары). В результате формируется репрезентативное пространство, инвариантное к пространственным и цветовым искажениям, где взаимное расположение векторов определяется высокоуровневой семантикой.

SCAN (Semantic Clustering by Adopting Nearest neighbors)

Для каждого изображения x_i из обучающей выборки \mathcal{D} фиксируется его вектор признаков. На основе косинусного расстояния в признаковом пространстве для каждого объекта вычисляется множество из K его ближайших соседей, обозначаемое как \mathcal{N}_{x_i}.

Поверх замороженного кодировщика инициализируется классификационная голова, параметризованная весами \theta. Данная подсеть преобразует изображение x в дискретное распределение вероятностей по кластерам: \Phi_{\theta}(x) \in [0, 1]^C, где C — заданное число целевых классов. Идея SCAN заключается в том, что изображение и его ближайшие соседи должны иметь схожие вероятностные распределения по кластерам. Функция потерь кластеризации формулируется как максимизация скалярного произведения векторов предсказаний для пар близких объектов:

\mathcal{L}_{SCAN} = - \frac{1}{|\mathcal{D}|} \sum_{x \in \mathcal{D}} \sum_{k \in \mathcal{N}_x} \log \langle \Phi_{\theta}(x), \Phi_{\theta}(k) \rangle

Для предотвращения вырожденного решения, при котором модель присваивает все объекты выборки одному и тому же кластеру, вводится регуляризационный член, максимизирующий энтропию усредненного по мини-батчу распределения предсказаний:

\mathcal{L}_{entropy} = \sum_{c=1}^C p_c \log p_c

Где p_c определяется как средняя вероятность отнесения объектов текущего мини-батча \mathcal{B} к кластеру c:

p_c = \frac{1}{|\mathcal{B}|} \sum_{x \in \mathcal{B}} \Phi_{\theta}(x)_c

Итоговый функционал потерь на этапе кластеризации представляет собой линейную комбинацию:

\mathcal{L}_{total} = \mathcal{L}_{SCAN} + \lambda \mathcal{L}_{entropy}

где \lambda — гиперпараметр, регулирующий вклад энтропийного штрафа (в оригинальной работе \lambda = 1).

Self-Labeling (Саморазметка)

Этап семантической кластеризации позволяет сгруппировать основную массу данных, однако на границах кластеров могут оставаться неоднозначности, вызванные локальным шумом в графе ближайших соседей. Для очистки границ применяется шаг саморазметки.

Объекты, для которых уверенность предсказания превосходит жестко заданный порог \tau, размечаются псевдометками (one-hot векторы y_i). Далее вся сеть дообучается на подмножестве уверенных примеров с использованием стандартной функции кросс-энтропии:

\mathcal{L}_{self} = - \frac{1}{N} \sum_{i=1}^N \sum_{c=1}^C y_{ic} \log \Phi_{\theta}(x_i)_c

Эксперименты и результаты

Эффективность алгоритма SCAN была подтверждена экспериментами на стандартных наборах данных для компьютерного зрения: CIFAR-10, CIFAR-100 (с использованием 20 суперклассов) и STL-10. Качество кластеризации измерялось с помощью метрик Accuracy (ACC), Normalized Mutual Information (NMI) и Adjusted Rand Index (ARI).

На датасете CIFAR-10 метод SCAN достиг точности (ACC) 88.3%, на STL-10 — 76.7% (80.9% с последующей саморазметкой), превзойдя существовавшие на тот момент end-to-end подходы, такие как IIC[1] (показавший 61.7% на CIFAR-10).

Примечания


Литература

Все публикации

   
Последние новости

Список всех новостей

Основные категории
Последние правки

Список всех последних правок

Работа над созданием Ресурса MachineLearning.ru ведется при поддержке компании Forecsys


Личные инструменты