Моделирование условных рефлексов, обучение и самообучение машин

В основе взаимодействия между органами внутри живого организма, обеспечивающего его слаженную работу при изменяющихся условиях, а также поведения организма в окружающей среде лежат рефлексы. Моделирование рефлексов – одна из задач бионики.
Рефлексами называются реакции живого организма, возникающие в виде ответа на раздражения чувствительных нервных окончаний (рецепторов). Эти реакции происходят при участии центральной нервной системы, включая ее высший отдел – кору головного мозга. Путь, по которому осуществляется рефлекс, называется рефлекторной дугой.

Рис 1 Схема двухнейронной рефлекторной дуги спинномозгового рефлекса

Рис 1 Схема двухнейронной рефлекторной дуги спинномозгового рефлекса

Па рис. 1 показана схема простейшей двусторонней дуги спинномозгового рефлекса. Она включает в себя рецептор 1, чувствительный (центростремительный, афферентный) нейрон 2, проводящий импульс раздражения от рецептора к спинномозговому нервному узлу – ганглию 3, двигательный (центробежный, эфферентный) нейрон 4, заканчивающийся разветвленными окончаниями 5 в двигательной мышце. Целостность рефлекторной дуги – необходимое условие осуществления рефлекса.

Рефлексы подразделяются на безусловные и условные.

Первым соответствуют врожденные свойства нервной системы, поэтому безусловные рефлексы возникают каждый раз при достаточно сильном раздражении соответствующего рецептора. В основе безусловных рефлексов лежит жесткая, фиксированная, не изменяющаяся в нормальных условиях связь между рецептором и эффектором, осуществляющая строго определенную реакцию на определенные раздражения.

Техническим функциональным аналогом безусловного рефлекса является любой автомат с жесткой программой, например автомат, отпускающий стакан воды или выбрасывающий тетрадку при опускании в него монеты.

Однако одни безусловные рефлексы, включая сложнейшую их форму – инстинкты, не могут осуществлять достаточную приспособляемость живого организма к непрерывно изменяющимся условиям внешней среды. Причина этого заключается в том, что безусловные рефлексы вызываются относительно небольшим количеством раздражителей из числа огромного количества внешних факторов, влияющих на организм.

Сложная задача приспособления организма к изменяющимся условиям существования достигается благодаря формированию на протяжении индивидуальной жизни организма условных рефлексов, глубоко изученных И. П. Павловым. Условные рефлексы возникают при совпадении во времени безразличных для организма раздражителей, вызывающих безусловный рефлекс. Физиологическая основа формирования условных рефлексов заключается в возникновении новых связей – образовании (замыкании) новых рефлекторных дуг в наиболее дифференцированных отделах центральной нервной системы.

У высокоорганизованных живых организмов рефлекторные дуги условных рефлексов замыкаются в процессе выработки временных связей в коре головного мозга. Именно этот механизм образования разнообразных условных рефлексов и является физиологической основой формирования поведения живого организма в среде, его обучения и самообучения.

В различных странах построено значительное количество технических устройств, оформленных зачастую для занимательности в виде животных и как бы моделирующих способность приобретать и накапливать «жизненный опыт», способность «обучаться». К таким моделям относятся: «клоп», «моль», предложенные Н. Винером, «мышь в лабиринте» К. Шеннона, целое поколение «черепах», построенное в Англии, СССР, США и других странах, «белка» Э. Беркли, «лисица» А. Дюкрока и др.

Черепаха Уолтера

Рассмотрим более подробно схему и конструкцию «черепахи», машины, разработанной английским физиологом Г. Уолтером и названной им «Машина спекулятрикс» (думающая машина). Эта остроумная научная игрушка представляет собой подвижное устройство на колесиках, заключенное в корпус, напоминающий по форме утюг. Черепаха снабжена аккумуляторной батареей, двумя электродвигателями и двумя приспособлениями, играющими роль «чувствительных органов» – рецепторов. Один из рецепторов – фотоэлемент, реагирующий на источник света, а другой – специально сконструированный контакт, замыкающийся при встрече черепахи с препятствием или при движении ее по крутому скату. В передней части черепахи расположена контрольная лампочка, сигнализирующая включенное состояние и в то же время служащая как бы фарой.

Находясь в темноте, черепаха в поисках источника света движется по сложной траектории, обследуя в час несколько десятков квадратных метров поверхности. При встрече с препятствием она обходит тяжелые предметы и сталкивает со своего пути легкие. Она избегает движения по крутым уклонам и подъемам, стремясь выбирать для движения горизонтальную поверхность. При появлении в пределах «видимости» черепахи источника света она движется на него, однако если он слишком ярок, то «ослепленная» черепаха отворачивается и начинает поиски другого, умеренно яркого источника. При встрече с зеркалом черепаха как бы узнает себя и движется перед зеркалом по сложной траектории, то подходя к зеркалу, то удаляясь от него.

Если выпустить одновременно несколько черепах, то при лобовом сближении они отворачиваются друг от друга, заходят сзади или сбоку и тогда реагируют одна на другую, как на обычное препятствие. При появлении постороннего источника света все черепахи направляются к нему толпой, расталкивая друг друга. Если осветить «клетку» (гараж) черепахи, то она заходит туда, причем, если батарея нуждается в зарядке, черепаха подключается к источнику зарядного тока и остается неподвижной до окончания заряда, после чего отключается, «гасит» за собой свет в клетке и вновь уходит па поиски.

Приведенное описание поведения черепахи может вызвать предположение об исключительной сложности ее схемы. Однако схема ее оказывается весьма простой (рис. 2), хотя простота эта была достигнута в результате долгих и настойчивых поисков наиболее целесообразного решения задачи

Рис 2 Принципиальная схема .«черепахи»

Рис 2 Принципиальная схема .«черепахи»

В черепахе имеются две лампы (триод Л1 и триод Л2), электродвигатели ЭД поступательного движения и ЭД2 вращательного движения. Электродвигатели питаются от аккумуляторной батареи 6 в либо непосредственно, что соответствует их нормальной мощности и скорости, либо через контрольную лампочку (фару) КЛ, что соответствует вдвое меньшей скорости. Фотоэлемент ФЭ укреплен на рулевой оси ведущего переднего колеса так, что он всегда направлен в сторону движения черепахи в данный момент.

Контакт К, расположенный в лобовой части черепахи, состоит из металлических кольца и стержня, смонтированных в кожухе с резиновой амортизацией так, что замыкание кольца со стержнем всегда происходит как при встрече черепахи с препятствием, так и при ее сильно наклонном положении.

В анодные цепи ламп Л1 и Л2 включены двухпозиционные реле P1 и Р2, срабатывающие при достаточной величине анодного тока. Сетка лампы Л1 соединена с катодом через сопротивление порядка нескольких мегаом, а на катод подано положительное относительно земли напряжение 6 В. Таким образом, при отсутствии освещенности фотоэлемента потенциал сетки относительно катода равен нулю, а при наиболее яркой освещенности он достигает максимального отрицательного значения порядка 4 В.

Реле P1 удерживает якорь притянутым всегда, кроме случая яркого освещения фотоэлемента, когда вследствие большого отрицательного напряжения на сетке анодный ток снижается до малой величины. Лампа Л1 и обмотка реле P1 образуют потенциометр, с которого подается напряжение на экранирующую сетку лампы Л2.

При уменьшении анодного тока лампы Л1 уменьшается падение напряжения на обмотке реле P1 и увеличивается напряжение на экранирующей сетке лампы Л2. Когда фотоэлемент не освещен, это экранирующее напряжение настолько мало, что анодный ток лампы Л2 недостаточен для срабатывания реле Р2. При умеренном и сильном свете оно срабатывает и замыкает контакт 1.

Теперь можно проследить поведение черепахи в зависимости от различных внешних воздействий. В темноте якорь реле P1 притянут и на электродвигатель ЭД1 подается напряжение 6 В через контакт 1 этого реле и контрольную лампочку КЛ. Якорь реле Р2 отпущен, и электродвигатель ЭД2 получает полное напряжение 6 В. Следовательно, черепаха будет совершать одновременно поступательное движение с половинной скоростью и вращательное движение (поиск «приманки»- источника света) с полной скоростью. В результате сложения этих двух движений она будет двигаться по такой же траектории, как точка на ободе катящегося колеса – по циклоиде. При этом, если на фотоэлемент упадет свет от источника умеренной интенсивности, увеличится отрицательное смещение на сетке лампы Л1 уменьшится ее анодный ток, увеличится напряжение на экранирующей сетке лампы Л2 и сработает реле Р2, причем реле P1 будет продолжать удерживать свой якорь. Питание электродвигателя ЭД2 прервется, и поиск прекратится, а на электродвигатель ЭД1 будет подано полное напряжение 6 В, благодаря чему черепаха на полной скорости пойдет в направлении источника света. При этом лампочка КЛ погаснет, так как она будет шунтирована контактом 1 реле Р2.

При очень ярком (ослепляющем) свете реле P1 отпускает, а реле Р2 продолжает удерживать якорь. Следовательно, через контакт 2 реле P1 и лампочку КЛ будет подано напряжение на электродвигатель ЭД2, и черепаха начнет «отворачиваться» от источника света, продолжая двигаться, так как электродвигатель ЭД1 получает питание через контакт 1 реле Р2.

Если черепаха «видит» свое отражение в зеркале, т. е. если фотоэлемент воспримет отраженный зеркалом свет фары КЛ, то черепаха прекратит поиск и направится по прямой линии к зеркалу, как к обычному источнику света. Но так как фара при этом погаснет, а следовательно, исчезнет и отраженный свет, то черепаха начнет двигаться по циклоиде, вновь зажжет фару и будет продолжать двигаться по циклоиде, пока не «увидит» свое отражение в зеркале.

При встрече двух черепах каждая из них начинает двигаться на свет фары другой, но так как при этом фары сразу же погаснут, то дальше черепахи начнут поиск, как в темноте, т. е. разойдутся. При постороннем источнике света каждая из черепах будет стремиться к нему с потушенной фарой, а при взаимных столкновениях они будут вести себя так же, как и при столкновении с обычными препятствиями.

При столкновении с препятствием или же при сильном наклоне поверхности происходит замыкание контактом К цепи обратной связи между анодом лампы Л2 и сеткой лампы Л1. Благодаря этому образуется простейшая схема мультивибратора, состоящая из ламп Л1 и Л2, конденсаторов С1 и С2, сопротивлений R1 и Я2 и обмоток реле P1 и Р2. При работе мультивибратора реле P1 и Р2 будут попеременно притягивать и отпускать свои якоря. Элементы мультивибратора несимметричны и подобраны так, что время, в течение которого притянут якорь реле Р1, вдвое меньше времени притяжения якоря реле Р2.

Преодоление или обход препятствия происходит следующим образом. В течение короткого промежутка времени (срабатывание реле P1 и отпускание реле Р2) происходит интенсивное вращение черепахи и слабое толкание, а затем в течение вдвое более длительного промежутка времени (срабатывание реле Р2 и отпускание реле P1) -медленное вращение и интенсивное толкание и т. д.

Периодичность этого процесса зависит от параметров цепи обратной связи, в которую наряду с сопротивлением R1 входит параллельно включенный фотоэлемент ФЭ. Таким образом, при освещении фотоэлемента общее активное сопротивление цепи обратной связи, а значит, и постоянная времени уменьшаются, и обход препятствия при «манящем свете» происходит быстрее.

Включение света в специальной клетке привлекает черепаху так же, как и обычный источник света, но когда она попадает в клетку, происходит включение на заряд батареи, причем электродвигатели отключаются специальным реле, не показанным на схеме. В конце заряда вследствие уменьшения зарядного тока реле отпускает, включаются электродвигатели, в клетке автоматически гаснет свет и черепаха вновь выходит на поиски «приманки».

Описанная схема моделирует ряд безусловных рефлексов, механизм которых обусловлен неизменной конструкцией и схемой черепахи.

Дальнейшее усложнение ее схемы позволило моделировать процессы формирования условных рефлексов. При этом в качестве безусловного раздражителя использовался свет, воспринимавшийся фотоэлементом, а в качестве условного сопутствующего раздражителя – звук, воспринимавшийся микрофоном.

Такая модель ведет себя следующим образом. Она всегда приходит в движение под действием света и движется при одновременном воздействии света и звука, но никак не реагирует на один только звук. Однако если повторить, скажем, десять опытов, одновременно «показывая» черепахе свет и издавая звук, то после этого черепаха будет приходить в движение уже и при одном звуке. Но если затем в течение определенного времени или определенного количества опытов не подкреплять звуком свет, то образовавшаяся временная связь исчезнет, «условный» рефлекс угаснет, подобно тому как если только показывать собаке свет, не подкрепляя этот условный раздражитель пищей, то ранее выработанный по И. П. Павлову условный рефлекс на свет у нее угаснет и реакция в виде отделения слюны при показе света прекратится.

Не рассматривая подробно принципиальную схему этой модели, ограничимся описанием упрощенной скелетной схемы (рис. 3), по которой можно составить общее представление о принципе моделирования условного рефлекса.

Рис 3 Скелетная схема моделирования условного рефлекса.

Рис 3 Скелетная схема моделирования условного рефлекса.

Рецепторами модели служат фотоэлемент ФЭ и микрофон М, напряжения от которых подводятся к усилителям У1 и У2 На выходе усилителей включены реле P1 и реле Р2. так, что при срабатывании любого из них замыкается цепь питания электродвигателя ЭД. При освещении фотоэлемента в результате усиления фототоков усилителем У1 срабатывает реле Р1 и черепаха начинает двигаться. Однако при появлении звука черепаха остается неподвижной, так как усилитель У2 нормально не работает, вследствие того что на сетки его ламп подано запирающее отрицательное смещение.

При одновременном воздействии света и звука черепаха тоже приходит в движение благодаря срабатыванию реле Р1. Однако при этом токи от фотоэлемента и микрофона поступают также в схему совпадения СС, которая в результате каждого случая совпадения света и звука выдает импульс тока в накопительное устройство НУ памяти, например, постепенно заряжающийся конденсатор. Когда в результате, скажем, десятикратного повторения совладении света и звука напряжение на конденсаторе достигнет определенной величины, оно отопрет лампу усилителя У2, после чего черепаху можно считать «натренированной»: реле Р2 будет срабатывать при воздействии одного только звука, и черепаха будет приходить в движение.

В схему можно ввести дополнительное реле, которое через большое сопротивление каждый раз при наличии только звука будет несколько разряжать конденсатор. Таким образом, после нескольких случаев движения черепахи от звука (условного раздражителя) без подкрепления светом (безусловным раздражителем) образовавшаяся временная связь разрушится и черепаха перестанет реагировать на один только звук.

Конечно, механизмы образования условных рефлексов в живых организмах неизмеримо более сложны и гибки, но инженеры могут разработать и предложить физиологам более сложные и более совершенные схемы, из которых можно выбрать схемы, наиболее соответствующие реальным процессам в живом организме.

Описанная черепаха, как и другие ранее создававшиеся устройства, моделирует рефлексы, заранее предопределенные конструктором. Однако более совершенный автомат должен характеризоваться известной «свободой обучения», т. е. он должен обладать возможностью выбора той или иной нужной связи из некоторого множества связей, допускаемых его схемой.

Модель подобного автомата, разработанная в Институте психиатрии АМН СССР, представлена матрицей (рис. 4), состоящей из так называемых «центральных» нервных клеток. Каждая такая клетка имеет три входа и один выход, на котором возникает сигнал возбуждения, если произошло несколько одновременных возбуждений всех трех входов.

Рис 4 Блок-схема обучающейся матрицы из центральных нейронов

Рис 4 Блок-схема обучающейся матрицы из центральных нейронов

Входы Р1 Р2, …. Рп имитируют рецепторные нейроны, возбуждаемые под влиянием внешних раздражителей. Сигналы на входах Э1 Э2, …, Эn соответствуют возбуждению эффекторных нейронов. Наконец, на вход П подается сигнал подкрепления, фиксирующий в схеме случайные связи, если они оказываются «полезными» для функционирования системы. В лабораторном макете подобного устройства критерий полезности определяется оператором.

Процесс обучения автомата происходит следующим образом. На рецепторные входы матрицы подаются сигналы раздражения, и в то же самое время блок случайных действий, имитирующий срабатывание эффекторных нейронов, поочередно подает через замкнутые контакты К1, К2, …, Кm сигналы возбуждения на шины Э1, Э2, …, Эm. Наконец, в некоторые моменты времени подаются сигналы подкрепления, поступающие на все центральные клетки матрицы. Очевидно, что в каждый данный момент времени возбуждение поступит на все три входа лишь какой-то одной из клеток В результате нескольких подобных случайных возбуждений одной и той же центральной клетки происходит понижение порога ее срабатывания, обеспечивающее ее возбуждение при поступлении только одного сигнала раздражения. Это и соответствует выработке условного рефлекса, механизм которого оказывается локализованным в данной клетке.

Дальнейшее обучение позволяет выработать (на те же или другие раздражения) другие условные рефлексы, механизмы которых будут локализованы в других центральных клетках. После окончания обучения схемы блок случайных действий отключается от нее путем размыкания контактов К1, К2, …, Кm, но образовавшиеся условные рефлексы продолжают определять действие автомата. Схема центральных клеток может быть построена таким образом, что возникшее в ней возбуждение на выходе сохраняется лишь при условии периодического подкрепления соответствующих входных возбуждений.

Более сложная задача состоит в моделировании рефлексов, когда прежде всего должен быть выработан условный рефлекс на некоторое раздражение Р1, подкрепляемое сигналом П, затем на раздражение Рk, подкрепляемое раздражением Рi, затем на раздражение Рl, подкрепляемое раздражением Рk, и т. д. В подобной сиcтеме необходимо реализовать процессы различения раздражений во времени, что позволяет создавать автоматы, моделирующие ряд логически-последовательных операций, направленных к достижению некоторой полезной цели.

Разработка принципиальных схем центральных нервных клеток и отдельных узлов такого автомата, а также постройка самого автомата, реагирующего на четыре внешних раздражителя, были осуществлены студенческим конструкторским бюро кибернетики Московского энергетического института.

Автомат представляет собой устройство, построенное на 100 электронных лампах, полупроводниковых диодах и электромеханических реле. Автомат демонстрировался в действии на ВДНХ.

Дальнейшие разработки и совершенствование могут привести к созданию кибернетических машин такого типа, которые будут подобно живому организму в процессе работы вырабатывать для себя программу действий в виде цепи условных рефлексов, осуществляющей наилучший способ достижения ‘поставленной перед ними конечной цели. Такие самоорганизующиеся системы могут оказаться особенно полезными для управления некоторыми малоизученными производственными процессами, устройствами для космических исследований и т. п.

Другие статьи по этой теме:

Извините, комментирование закрыто.