Итак , что такое функция активации?

МЕНЮ


Главная страница
Поиск
Регистрация на сайте
Помощь проекту
Архив новостей

ТЕМЫ


Новости ИИРазработка ИИВнедрение ИИРабота разума и сознаниеМодель мозгаРобототехника, БПЛАТрансгуманизмОбработка текстаТеория эволюцииДополненная реальностьЖелезоКиберугрозыНаучный мирИТ индустрияРазработка ПОТеория информацииМатематикаЦифровая экономика

Авторизация



RSS


RSS новости


Итак , что такое функция активации? Функция активации - это так скажем рычаг , который определяет насколько сильно нейрон должен 'сработать' . Если бы функций активаций не было бы в нейросети - она бы могла решать только простые , линейные задачки .

Вообщем , сегодня мы приготовили типа тир-лист функций активаций от простых до более тяжких :

1. Сигмоида (Sigmoid) :

Сигмоида является стандартной функией применяемой для задач бинарной классификации , выглядит как плавная S-образная кривая с диапозоном значений от 0 до 1 .

Плюсы :

- Использовалась в первых нейросетях.

Минусы :

- Проблема исчезающих градиентов.

2. ReLU (Rectified Linear Unit) :

ReLU является выпрямленной линейной функцией .

математически:

(Если x > 0 , то ReLU(x) = x, иначе 0)

Плюсы:

Простота и скорость вычислений.

Эффективна в глубоких сетях — избегает проблемы затухания градиентов.

Создаёт разреженность — "отключает" отрицательные нейроны.

Минусы:

"Умирающие нейроны" — если нейрон всегда выдаёт 0, то он перестаёт обучаться (градиент = 0).

Не подходит для выходного слоя (так как не преобразует выход в вероятность).

GeLU :

GELU — это функция активации, которая комбинирует идеи ReLU и стохастического регуляризатора (например, dropout). В отличие от ReLU, которая просто "обнуляет" отрицательные значения, GELU плавно затухает для отрицательных входов, учитывая их вклад с вероятностной точки зрения.

Плюсы GELU

1. Плавная и дифференцируемая

Нет резких скачков как у ReLU , градиенты распространяются лучше.

2. Лучшая производительность в трансформерах

В моделях типа BERT, GPT, ViT работает лучше, чем ReLU.

3. Решает проблему "мёртвых нейронов"

В отличие от ReLU, нейроны редко полностью "отключаются".

Минусы GELU

1. Вычислительно сложнее ReLU

2. Не всегда лучше в классических сетях - Для простых сетей пойдет и ReLU.

Softmax :

Softmax — это функция активации, которая преобразует вектор произвольных чисел (логитов) в вероятностное распределение.

Плюсы Softmax :

Интерпретируемость — выходы можно считать вероятностями классов.

Усиление максимума — самый большой логит становится ещё более доминирующим.

Дифференцируемость — удобно для обратного распространения ошибки.

Минусы Softmax :

Не подходит для мультилейбла

Softmax предполагает, что объект принадлежит только одному классу.

Если классы не исключают друг друга (например, "собака" и "пушистый"), используют сигмоиду для каждого выхода.

Чувствительность к большим значениям

В целом использование функий активации уже является нормой и даже обыденностью , но остается открытым вопрос , какую функцию активации для чего юзать ? Ответ есть :

- Если нужно быстро и просто ? ReLU.

- Если важна точность и плавность ? GeLU.

- Если на выходе вероятности ? Softmax/Сигмоида.


Источник: vk.com

Комментарии: