Какая главная функция искусственного нейрона. Основы искусственных нейронных сетей. Многослойный персептрон. Структура. Принцип работы

Структура искусственного нейрона

Искусственный нейрон является структурной единицей искусственной нейронной сети и представляет собой аналог биологического нейрона.

С математической точки зрения искусственный нейрон — это сумматор всех входящих сигналов, применяющий к полученной взвешенной сумме некоторую простую, в общем случае, нелинейную функцию, непрерывную на всей области определения. Обычно, данная функция монотонно возрастает. Полученный результат посылается на единственный выход.

Искусственные нейроны (в дальнейшем нейроны) объединяются между собой определенным образом, образуя искусственную нейронную сеть. Каждый нейрон характеризуется своим текущим состоянием по аналогии с нервными клетками головного мозга, которые могут быть возбуждены или заторможены. Он обладает группой синапсов – однонаправленных входных связей, соединенных с выходами других нейронов, а также имеет аксон – выходную связь данного нейрона, с которой сигнал поступает на синапсы следующих нейронов.

Каждый синапс характеризуется величиной синаптической связи или ее весом w i , который является эквивалентом электрической проводимости биологических нейронов.

Текущее состояние нейрона определяется, как взвешенная сумма его входов:

(1) ,

где w 0 — коэффициент смещения нейрона (вес единичного входа)

Выход нейрона есть функция его состояния:

y = f(s)

Нелинейная функция f называется активационной и может иметь различный вид, как показано на рисунке ниже. Одной из наиболее распространенных является нелинейная функция с насыщением, так называемая логистическая функция или сигмоид (т.е. функция S -образного вида):

(2) ,

При уменьшении α сигмоид становится более пологим, в пределе при α=0 вырождаясь в горизонтальную линию на уровне 0.5, при увеличении α сигмоид приближается по внешнему виду к функции единичного скачка с порогом T в точке x =0. Из выражения для сигмоида очевидно, что выходное значение нейрона лежит в диапазоне . Следует отметить, что сигмоидная функция дифференцируема на всей оси абсцисс, что используется в некоторых . Кроме того, она обладает свойством усиливать слабые сигналы лучше, чем большие, и предотвращает насыщение от больших сигналов, так как они соответствуют областям аргументов, где сигмоид имеет пологий наклон.

а) функция единичного скачка; б) линейный порог (гистерезис);
в) сигмоид — гиперболический тангенс; г) сигмоид — формула

Нейрон представляет собой единицу обработки информации в нейронной сети. На рисунке ниже приведена модель нейрона, лежащего в основе искусственных нейронных сетей.

В этой модели нейрона можно выделить три основных элемента:

Модель нейрон имитирует в первом приближении свойства биологического нейрона. На вход искусственного нейрона поступает некоторое множество сигналов, каждый из которых является выходом другого нейрона. Каждый вход умножается на соответствующий вес, пропорциональный синаптической силе, и все произведения суммируются, определяя уровень активации нейрона.

Хотя сетевые парадигмы весьма разнообразны, в основе почти всех их лежит эта модель нейрона. Здесь множество входных сигналов, обозначенных поступает на искусственный нейрон. Эти входные сигналы, в совокупности обозначаемые вектором , соответствуют сигналам, приходящим в синапсы биологического нейрона. Каждый сигнал умножается на соответствующий вес и поступает на суммирующий блок, обозначенный . Каждый вес соответствует «силе» одной биологической синаптической связи. Множество весов в совокупности обозначается вектором . Суммирующий блок, соответствующий телу биологического элемента, складывает взвешенные входы алгебраически, создавая выход . Далее поступает на вход функции активации, определяя окончательный сигнал возбуждения или торможения нейрона на выходе. Этот сигнал поступает на синапсы следующих нейронов и т. д.

Рассмотренная простая модель нейрона игнорирует многие свойства своего биологического двойника. Например, она не принимает во внимание задержки во времени, которые воздействуют на динамику системы. Входные сигналы сразу же порождают выходной сигнал. И, что более важно, данная модель нейрона не учитывает воздействий функции частотной модуляции или синхронизирующей функции биологического нейрона, которые ряд исследователей считают решающими.

Несмотря на эти ограничения, сети, построенные на основе этой модели нейрона, обнаруживают свойства, сильно напоминающие биологическую систему. Только время и исследования смогут ответить на вопрос, являются ли подобные совпадения случайными или следствием того, что именно в этой модели нейрона верно схвачены важнейшие черты биологического прототипа.

Рис. 2.2. Структура искусственного нейрона

Нейрон состоит из элементов трех типов: умножителей (синапсов), сумматора и нелинейного преобразователя . Синапсы осуществляют связь между нейронами, умножают входной сигнал на число, характеризующее силу связи (вес синапса). Сумматор выполняет сложение сигналов, поступающих по синаптическим связям от других нейронов, и внешних входных сигналов. Нелинейный преобразователь реализует нелинейную функцию одного аргумента — выхода сумматора. Эта функция называется функцией активации или передаточной функцией нейрона. Нейрон в целом реализует скалярную функцию векторного аргумента.

Математическая модель нейрона:

, (2.1)

где s - результат суммирования (sum); w i - вес (weight) синапса, ; - компонент входного вектора (входной сигнал), ; b — значение смещения (bias); n - число входов нейрона; у - выходной сигнал нейрона; f — нелинейное преобразование (функция активации).

В общем случае входной сигнал, весовые коэффициенты и смещение могут принимать действительные значения, а во многих практических задачах – лишь некоторые фиксированные значения. Выход y определяется видом функции активации и может быть как действительным, так и целым.

Синаптические связи с положительными весами называют возбуждающими , с отрицательными весами — тормозящими . Описанный вычислительный элемент можно считать упрощенной математической моделью биологических нейронов. Чтобы подчеркнуть различие нейронов биологических и искусственных, вторые иногда называют нейроноподобными элементами или формальными нейронами .

На входной сигнал s нелинейный преобразователь отвечает выходным сигналом f (s ), который представляет собой выход y нейрона. Примеры активационных функций представлены в табл. 2.1, а графики наиболее распространенных активационных функций – на рис. 2.2.

Таблица 2.1

Функции активации нейронов

Название		Область значений

Линейная
Полулинейная
Логистическая (сигмоидальная)
Гиперболический тангенс (сигмоидальная)
Экспоненциальная
Синусоидальная
Сигмоидальная (рациональная)
Шаговая (линейная с насыщением)
Пороговая
Модульная	логистическая функция или *сигмоид* (функция S -образного вида)(рис. 2.3): . (2.3) При уменьшении a сигмоид становится более пологим, в пределе при a = 0 вырождаясь в горизонтальную линию на уровне 0,5, при увеличении а сигмоид приближается к виду функции единичного скачка с порогом T . Из выражения для сигмоида очевидно, что выходное значение нейрона лежит в диапазоне (0, 1). Одно из ценных свойств сигмоидальной функции — простое выражение для ее производной, применение которой будет рассмотрено в дальнейшем: . (2.4) Рис. 2.3. Графики активационных функций: а – функция единичного скачка; б – линейный порог (гистерезис); в – сигмоид (логистическая функция), формула (3); г – сигмоид (гиперболический тангенс) Следует отметить, что сигмоидальная функция дифференцируема на всей оси абсцисс, что используется в некоторых алгоритмах обучения. Кроме того, она обладает свойством усиливать слабые сигналы лучше, чем большие, и предотвращает насыщение от больших сигналов, так как они соответствуют областям аргументов, где сигмоид имеет пологий наклон.

Биологический нейрон состоит из тела диаметром от 3 до 100 мкм, содержащего ядро (с большим количеством ядерных пор) и другие органеллы (в том числе сильно развитый шероховатый ЭПР с активными рибосомами , аппарат Гольджи), и отростков. Выделяют два вида отростков. Аксон - обычно длинный отросток, приспособленный для проведения возбуждения от тела нейрона. Дендриты - как правило, короткие и сильно разветвлённые отростки, служащие главным местом образования влияющих на нейрон возбуждающих и тормозных синапсов (разные нейроны имеют различное соотношение длины аксона и дендритов). Нейрон может иметь несколько дендритов и обычно только один аксон. Один нейрон может иметь связи с 20 тысячами других нейронов. Кора головного мозга человека содержит 10-20 миллиардов нейронов.

История развития [ | ]

f (x) = { 0 if x ≤ 0 1 if x ≥ 1 x else {\displaystyle f(x)={\begin{cases}0&{\text{if }}x\leq 0\\1&{\text{if }}x\geq 1\\x&{\text{else}}\end{cases}}}

При этом возможен сдвиг функции по обеим осям (как изображено на рисунке).

Недостатками шаговой и полулинейной активационных функций относительно линейной можно назвать то, что они не являются дифференцируемыми на всей числовой оси, а значит не могут быть использованы при обучении по некоторым алгоритмам.

Пороговая функция активации

Пороговая передаточная функция [ | ]

Гиперболический тангенс [ | ]

y = exp ⁡ (− (S − R) 2 2 σ 2) {\displaystyle y=\exp(-{\frac {(S-R)^{2}}{2\sigma ^{2}}})} .

Здесь S = | | X − C | | {\displaystyle S=||\mathbf {X} -\mathbf {C} ||} - расстояние между центром C {\displaystyle \mathbf {C} } и вектором входных сигналов X {\displaystyle \mathbf {X} } . Скалярный параметр σ {\displaystyle \sigma } определяет скорость спадания функции при удалении вектора от центра и называется шириной окна , параметр R {\displaystyle R} определяет сдвиг активационной функции по оси абсцисс. Сети с нейронами, использующими такие функции, называются. В качестве расстояния между векторами могут быть использованы различные метрики , обычно используется евклидово расстояние:

S = ∑ j = 1 N (x j − c j) 2 {\displaystyle S={\sqrt {\sum _{j=1}^{N}{(x_{j}-c_{j})^{2}}}}} .

Здесь x j {\displaystyle x_{j}} - j {\displaystyle j} -я компонента вектора, поданного на вход нейрона, а c j {\displaystyle c_{j}} - j {\displaystyle j} -я компонента вектора, определяющего положение центра передаточной функции. Соответственно, сети с такими нейронами называются и .

Стохастический нейрон [ | ]

Выше описана модель детерминистического искусственного нейрона, то есть состояние на выходе нейрона однозначно определено результатом работы сумматора входных сигналов. Рассматривают также стохастические нейроны, где переключение нейрона происходит с вероятностью, зависящей от индуцированного локального поля, то есть передаточная функция определена как:

f (u) = { 1 с вероятностью P (u) 0 с вероятностью 1 − P (u) {\displaystyle f(u)={\begin{cases}1&{\text{с вероятностью}}P(u)\\0&{\text{с вероятностью}}1-P(u)\end{cases}}} ,

где распределение вероятности обычно имеет вид сигмоида:

σ (u) = A (T) 1 + exp ⁡ (− u / T) {\displaystyle \sigma (u)={\frac {A(T)}{1+\exp(-u/T)}}} ,

a нормировочная константа A (T) {\displaystyle A(T)} вводится для условия нормализации распределения вероятности ∫ 0 1 σ (u) d u = 1 {\displaystyle \int _{0}^{1}\sigma (u)du=1} . Таким образом, нейрон активируется с вероятностью P (u) {\displaystyle P(u)} . Параметр T {\displaystyle T} - аналог температуры (но не температуры нейрона) и определяет беспорядок в нейронной сети. Если T {\displaystyle T} устремить к 0, стохастический нейрон перейдет в обычный нейрон с передаточной функцией Хевисайда (пороговой функцией).

нейрона . Каждый вход умножается на соответствующий вес , аналогичный синаптической силе, и все произведения суммируются, определяя уровень активации нейрона .

Рис. 1.2.

На рис. 1.2 представлена модель, реализующая эту идею. Множество входных сигналов, обозначенных , поступает на искусственный нейрон . Эти входные сигналы, в совокупности обозначаемые вектором , соответствуют сигналам, приходящим в синапсы биологического нейрона . Каждый сигнал умножается на соответствующий вес , и поступает на суммирующий блок, обозначенный Каждый вес соответствует "силе" одной биологической синаптической связи. (Множество весов в совокупности обозначается вектором ) Суммирующий блок, соответствующий телу биологического элемента, складывает взвешенные входы алгебраически, создавая выход , который мы будем называть В векторных обозначениях это может быть компактно записано следующим образом:

где - константа, пороговой функцией

где - некоторая постоянная пороговая величина, или же функция , более точно моделирующая нелинейную передаточную характеристику биологического нейрона и предоставляющей нейронной сети большие возможности.

Рис. 1.3.

На рис. 1.2 блок, обозначенный , принимает сигнал и выдает сигнал Если блок сужает диапазон изменения величины так, что при любых значениях значения принадлежат некоторому конечному интервалу, то называется "сжимающей" функцией . В качестве "сжимающей" функции часто используется логистическая или "сигмоидальная" (S-образная) функция , показанная на рис. 1.3 . Эта функция математически выражается как Таким образом,

По аналогии с электронными системами активационную функцию можно считать нелинейной усилительной характеристикой искусственного нейрона . Коэффициент усиления вычисляется как отношение приращения величины к вызвавшему его небольшому приращению величины Он выражается наклоном кривой при определенном уровне возбуждения и изменяется от малых значений при больших отрицательных возбуждениях (кривая почти горизонтальна) до максимального значения при нулевом возбуждении и снова уменьшается, когда возбуждение становится большим положительным. С. Гроссберг (1973) обнаружил, что подобная нелинейная характеристика решает поставленную им дилемму шумового насыщения. Каким образом одна и та же сеть может обрабатывать как слабые, так и сильные сигналы? Слабые сигналы нуждаются в большом сетевом усилении, чтобы дать пригодный к использованию выходной сигнал. Однако усилительные каскады с большими коэффициентами усиления могут привести к насыщению выхода шумами усилителей (случайными флуктуациями), которые присутствуют в любой физически реализованной сети. Сильные входные сигналы, в свою очередь , также будут приводить к насыщению усилительных каскадов, исключая возможность полезного использования выхода. Центральная область логистической функции, имеющая большой коэффициент усиления, решает проблему обработки слабых сигналов, в то время как области с падающим усилением на положительном и отрицательном концах подходят для больших возбуждений. Таким образом, нейрон функционирует с большим усилением в широком диапазоне уровня входного сигнала

Другой широко используемой