Таким образом, рефлекс образуется только в том случае, если происходит h раз подряд событие G Λ F и при этом ни разу не происходит событие G Λ¯ F.
Это, вероятно, не совсем точно согласуется с данными физиологических экспериментов. А.А. Ляпунов (1958) присваивал другое содержание операторам R и S. Величина r после каждого эксперимента пересчитывается по закону:
r1 = r + η + δ,
где: η – некоторая случайная величина с математическим ожиданием, равным 0; δ – приращение, которое может быть положительным или отрицательным в зависимости от того, применяется оператор R или S.
Каким образом в действительности реализуется закон накопления возбуждения, еще неясно. Для выяснения этого вопроса необходимо поставить серию физиологических экспериментов с целью выявления закона распределения вероятностей числа необходимых повторений события GΛF, чтобы рефлекс выработался. Из этого простого примера понятно, что точное алгоритмическое описание процесса может вызвать необходимость ставить новые эксперименты и точно указать, какие именно эксперименты следует проводить для точного представления всего процесса в целом. Возможность полного алгоритмического описания процесса указывает на его изученность (конечно, здесь имеются в виду лишь информационные связи, а не энергетические).
Описание модели условного рефлекса было бы не полным, если не привести пример имитационного моделирования самого нейрона. На рис. 1.2 приведена такая модель и ее электрическая схема.
Электронные нейроны, изображенные на рис. 1.2, объединенные в схему рис. 1.1 и составят имитационную модель классического обусловливания.
Важным принципом оперантного обусловливания является то, что реакции, за которыми следует вознаграждение или позитивное подкрепление, имеют тенденцию к усилению, тогда как реакции, которые не вознаграждаются, идут на убыль.
| ||
Рис. 1.2. Схематическое изображение нейрона (слева), его модели (в середине) и электрической схемы искусственного нейрона (справа): | ||
1 – тело клетки; 2 – дендриты; 3 – аксон; 4 – коллатерали; 5 – концевое разветвление аксона. | Р n , Р i , Р2, P 1 – входы нейрона; Sn , Si , S 2 , S 1 – синапсические контакты; Р – выходной сигнал; К – пороговое значение сигнала; | R 1 – R 5 , Rm – сопротивления; C 1 – C 3 , Cm – конденсаторы; T 1 – T 3 – транзисторы; D – диод; R 6 – резистор, задающий порог пропускания |
Одним из основных сторонником планов с малым n следует назвать Скиннера, который наблюдал эволюцию поведения у одного испытуемого. Скиннер продемонстрировал этот принцип опытами на крысах, определяя, усиливается ли реакция, состоящая в нажатии на рычаг, после вознаграждения. Изобретенное Скиннером приспособление было названо «ящиком Скиннера». Первоначальное поведение крысы, помещенной в «ящик Скиннера», является по сути естественным поисковым поведением: она обнюхивает углы, перемещается от одной стенки к другой, изучает их, умывает мордочку. Лишь небольшая часть этих реакций имеет что-то общее с реакцией нажатия на рычаг, но опытный исследователь может идентифицировать реакции, предшествующие нажатию на рычаг, и подкрепить их. Процесс избирательно подкрепляемого последовательного приближения к основной реакции (нажатие на рычаг) называется целенаправленным формированием. Животное постепенно подходит все ближе к рычагу, затем ставит свою лапку рядом с рычагом, касается его и, наконец, надавливает на него.
Собрано много данных, относящихся к конкретным условиям, которые облегчают оперантное обусловливание. Например, если вознаграждение следует сразу же за необходимой реакцией, тогда обусловливание происходит быстрее, чем в том случае, когда вознаграждение происходит с задержкой.
Другие исследователи изучили то влияние, которое оказывает на поведение вторичное подкрепление (стимулы, которые связаны с первичным вознаграждением). Основной вывод на основании этих исследований таков: вторичное подкрепление обладает сильным свойством вознаграждения. Вспомните о тех свойствах вознаграждения, которыми обладает во многих обществах вторичное подкрепление в виде денег. В этом исследовании Прайор, Хаага и О'Рейлли (1969) использовали в качестве обусловленного подкрепления свист, как хорошо различимый сигнал.
Рис. 1.3. Кумулятивная диаграмма занятия 16, во время которого подопытное животное (дельфин) продемонстрировало 8 различных типов реакций, причем 4 из них наблюдались впервые (прыжок в воздух, вращение, боковой удар хвостом и удар обратной стороной хвоста) [9]
Результаты экспериментов с операционным обусловливанием представляются графически в виде диаграммы кумулятивной (накопленной) частоты (рис. 1.3). На таком графике реакции подопытного животного аккумулируются и изображаются на оси ординат, а на оси абсцисс отмечается время. Поскольку реакции складываются, кривая реакции всегда идет вверх; случаи отсутствия реакции показываются линией, параллельной оси абсцисс.