курсовые,контрольные,дипломы,рефераты
ИНСТИТУТ ВЫЧИСЛИТЕЛЬНОГО МОДЕЛИРОВАНИЯ СО РАН
КРАСНОЯРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
На правах рукописи
МИРКЕС ЕВГЕНИЙ МОИСЕЕВИЧ
Функциональные Модели универсального нейрокомпьютера
05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей
Диссертация на соискание ученой степени
доктора технических наук
Консультант: д.ф.-м.н.,
профессор А.Н. Горбань
Красноярск 2001
Оглавление
Общая
характеристика работы.. 8
Введение к
диссертации.. 14
1. Функциональные компоненты... 22
1.1. Краткий обзор
нейрокомпьютеров.. 22
1.2. Выделение компонентов.. 24
1.3. Запросы компонентов нейрокомпьютера.. 27
1.3.1. Запросы
к задачнику. 28
1.3.2. Запрос
к предобработчику. 28
1.3.3. Запрос
к исполнителю.. 29
1.3.4. Запросы
к учителю.. 29
1.3.5. Запрос
к контрастеру. 29
1.3.6. Запрос
к оценке. 29
1.3.7. Запрос
к интерпретатору ответа. 29
1.3.8. Запросы
к сети. 29
1.4. Запросы общие для всех
компонентов.. 30
1.4.1. Стандарт
типов данных. 30
1.4.2. Переменные
типа цвет и операции с цветами. 33
1.4.2.1. Значение
переменной типа цвет (Color) 33
1.4.2.2. Операции
с переменными типа цвет (Color) 34
1.4.3. Предопределенные
константы.. 35
1.4.4. Использование
памяти. 37
1.4.5. Обработка
ошибок. 38
1.4.5.1. Процедура
обработки ошибок. 38
1.4.5.2. Установить
обработчик ошибок (OnError) 38
1.4.5.3. Дать
номер ошибки (GetError) 39
1.4.6. Запросы,
однотипные для всех компонентов. 40
1.4.6.1. Запрос
на установление текущего компонента. 41
Сделать текущей (xxSetCurrent) 41
1.4.6.2. Запросы,
работающие со структурой компонента. 41
Добавление нового экземпляра (xxAdd) 41
Удаление экземпляра компонента (xxDelete) 42
Запись компонента (xxWrite) 42
Вернуть имена структурных единиц (xxGetStructNames) 43
Вернуть тип структурной единицы (xxGetType) 44
1.4.6.3. Запросы
на изменение параметров. 45
Получить параметры (xxGetData) 45
Получить имена параметров (xxGetName) 45
Установить параметры (xxSetData) 46
1.4.6.4. Инициация
редактора компоненты.. 47
Редактировать компонента (xxEdit) 47
2. Задачник и обучающее множество.. 48
2.1. Структуры данных
задачника.. 48
2.2. Поля задачника.. 49
2.3. Состав данных задачника.. 49
2.3.1. Цвет
примера и обучающая выборка. 50
2.3.2. Входные
данные. 50
2.3.3. Комментарии. 50
2.3.4. Предобработанные
данные. 51
2.3.5. Правильные
ответы.. 51
2.3.6. Полученные
ответы.. 51
2.3.7. Оценки. 51
2.3.8. Вес
примера. 51
2.3.9. Достоверность
ответа. 51
2.3.10. Уверенность
в ответе. 52
2.4. Запросы к компоненту
задачник.. 53
2.4.1. Чтение
и запись задачника. 54
2.4.1.1. Прочитать
задачник (tbAdd) 54
2.4.1.2. Записать
задачник (tbWrite) 54
2.4.1.3. Закрыть
задачник (tbDelete) 55
2.4.2. Начало
и конец сеанса. 55
2.4.2.1. Начало
сеанса (InitSession) 55
2.4.2.2. Конец
сеанса (EndSession) 56
2.4.3. Перемещение
по примерам.. 56
2.4.3.1. В
начало (Home) 56
2.4.3.2. В конец
(End) 57
2.4.3.3. Следующий
(Next) 57
2.4.3.4. Предыдущий
(Prev) 58
2.4.3.5. Конец
(Last) 59
2.4.3.6. Начало
(First) 60
2.4.3.7. Пример
номер (Example) 60
2.4.4. Определение,
получение и изменение данных. 61
2.4.4.1. Дать
пример (Get) 61
2.4.4.2. Обновить
данные (Put) 62
2.4.4.3. Сбросить
предобработку (RemovePrepare) 62
2.4.5. Окраска
примеров. 63
2.4.5.1. Дать
цвет примера (GetColor) 63
2.4.5.2. Покрасить
пример (PaintCurrent) 63
2.4.6. Ошибки
компонента задачника. 64
3. Предобработчик.. 66
3.1. Нейрон.. 67
3.2. Различимость входных
данных.. 67
3.3. Классификация компонентов
входных данных.. 69
3.4. Кодирование бинарных
признаков.. 70
3.5. Кодирование
неупорядоченных качественных признаков.. 71
3.6. Кодирование упорядоченных
качественных признаков.. 71
3.7. Числовые признаки.. 71
3.8. Простейшая предобработка
числовых признаков.. 72
3.9. Оценка способности сети
решить задачу.. 72
3.9.1. Оценка
константы Липшица сети. 74
3.9.2. Способ
вычисления константы Липшица. 74
3.9.3. Синапс. 75
3.9.4. Умножитель. 75
3.9.5. Точка
ветвления. 75
3.9.6. Сумматор. 75
3.9.7. Нелинейный
Паде преобразователь. 76
3.9.8. Нелинейный
сигмоидный преобразователь. 76
3.9.9. Адаптивный
сумматор. 76
3.9.10. Константа
Липшица сигмоидной сети. 77
3.10. Предобработка,
облегчающая обучение. 78
3.11. Другие способы
предобработки числовых признаков.. 79
3.11.1. Модулярная
предобработка. 80
3.11.2. Функциональная
предобработка. 80
3.11.3. Позиционная
предобработка. 82
3.12. Составной
предобработчик.. 82
3.13. Запросы к компоненту
предобработчик.. 83
3.13.1. Запрос
на предобработку. 84
3.13.1.1. Предобработать
вектор сигналов (Prepare) 84
3.13.2. Остальные
запросы.. 85
3.13.3. Ошибки
компонента предобработчик. 85
4. Описание нейронных сетей.. 87
4.1. Конструирование нейронных
сетей.. 87
4.1.1. Элементы
нейронной сети. 88
4.1.2. Составные
элементы.. 89
4.1.3. Функционирование
сети. 90
4.1.4. Методы
построения двойственных сетей. 91
4.1.5. Элементы
самодвойственных сетей. 94
4.1.5.1. Синапс. 95
4.1.5.2. Умножитель. 95
4.1.5.3. Точка
ветвления. 96
4.1.5.4. Сумматор. 96
4.1.5.5. Нелинейный
Паде преобразователь. 97
4.1.5.6. Нелинейный
сигмоидный преобразователь. 97
4.1.5.7. Произвольный
непрерывный нелинейный преобразователь. 98
4.1.5.8. Пороговый
преобразователь. 98
4.1.6. Правила
остановки работы сети. 99
4.1.7. Архитектуры
сетей. 99
4.1.8. Модификация
синаптической карты (обучение) 102
4.1.9. Контрастирование
и нормализация сети. 102
4.2. Примеры сетей и
алгоритмов их обучения.. 103
4.2.1. Сети
Хопфилда. 103
4.2.2. Сеть
Кохонена. 105
4.2.3. Персептрон
Розенблатта. 108
4.3. Язык описания нейронных
сетей.. 110
4.3.1. Структура
компонента. 110
4.3.2. Сигналы
и параметры.. 111
4.3.3. Обучаемые
и не обучаемые параметры и сигналы.. 111
4.3.4. Дополнительные
переменные. 112
4.3.5. Приведение
и преобразование типов. 112
4.3.6. Операции. 118
4.3.7. Язык
описания нейронных сетей. 120
4.3.7.1. Ключевые
слова языка. 121
4.3.7.2. Передача
аргументов функциям.. 124
4.3.7.3. Имена
структурных единиц. 124
4.3.7.4. Способ
описания синтаксических конструкций. 124
4.3.7.5. Описание
общих синтаксических конструкций. 127
4.3.7.6. Комментарии. 133
4.3.7.7. Область
действия переменных. 133
4.3.7.8. Основные
операторы.. 134
4.3.7.9. Описание
распределения сигналов. 135
4.3.7.10. Функции
управления памятью.. 136
4.3.7.11. БНФ
языка описания сетей. 138
4.3.7.12. Описание
языка описания сетей. 141
Описание и область действия переменных. 141
Методы Forw и Back для блоков. 141
Описание элементов. 141
Пример описания элементов. 143
Описание блоков. 155
Пример описания блоков. 157
4.3.7.13. Сокращение
описания сети. 164
Раздел описания сигналов и параметров. 164
Раздел описания связей. 165
Частично сокращенное описание. 168
Пример сокращенного описания блоков. 168
4.4. Запросы к компоненту сеть. 170
4.4.1. Запросы
к компоненту сеть. 171
4.4.2. Запросы
на функционирование. 172
4.4.2.1. Выполнить
прямое Функционирование (Forw) 172
4.4.2.2. Выполнить
обратное Функционирование (Back) 172
4.4.3. Запросы
на изменение параметров. 173
4.4.3.1. Провести
обучение (Modify) 173
4.4.3.2. Изменить
маску обучаемости (ModifyMask) 174
4.4.3.3. Обнулить
градиент (NullGradient) 175
4.4.3.4. Случайное
направление спуска (RandomDirection) 175
4.4.4. Запросы,
работающие со структурой сети. 176
4.4.4.1. Вернуть
параметры сети (nwGetData) 176
4.4.4.2. Установить
параметры сети (nwSetData) 177
4.4.4.3. Нормализовать
сеть (NormalizeNet) 178
4.4.5. Остальные запросы.. 178
4.4.6. Ошибки
компонента сеть. 179
5. Оценка и интерпретатор ответа.. 180
5.1. Интерпретатор ответа.. 180
5.2. Уровень уверенности.. 182
5.3. Построение оценки по
интерпретатору.. 183
5.4. Оценка обучающего
множества. Вес примера.. 188
5.5. Глобальные и локальные
оценки.. 190
5.6. Составные интерпретатор
ответа и оценка.. 195
5.7. Запросы к компоненту интерпретатор
ответа.. 195
5.7.1. Запрос
на интерпретацию.. 196
5.7.1.1. Интерпретировать
массив сигналов (Interpretate) 196
5.7.2. Остальные
запросы.. 197
5.7.3. Ошибки
компонента интерпретатор ответа. 198
5.8. Запосы к компоненту
оценка.. 198
5.8.1. Запрос
на оценивание. 199
5.8.1.1. Оценить
массив сигналов (Estimate) 199
5.8.2. Остальные
запросы.. 200
5.8.2.1. Установить
параметры (SetEstIntParameters) 200
5.8.3. Ошибки
компонента оценка. 201
6. Исполнитель.. 202
6.1. Описание компонента
исполнитель. 202
6.2. Запросы к компоненту
исполнитель. 203
6.2.1. Позадачная
обработка (TaskWork) 204
6.2.2. Обработка
обучающего множества (TaskSetWork) 206
6.2.3. Ошибки
компонента исполнитель. 209
7. Учитель.. 210
7.1. Что можно обучать методом
двойственности.. 210
7.2. Задача обучения сети.. 212
7.3. Описание алгоритмов
обучения.. 213
7.3.1. Краткий
обзор макрокоманд учителя. 213
7.3.2. Неградиентные
методы обучения. 215
7.3.2.1. Метод случайной стрельбы.. 216
7.3.2.2. Метод
покоординатного спуска. 217
7.3.2.3. Подбор
оптимального шага. 217
7.3.2.4. Метод
случайного поиска. 218
7.3.2.5. Метод
Нелдера-Мида. 219
7.3.3. Градиентные
методы обучения. 220
7.3.3.1. Метод
наискорейшего спуска. 220
7.3.3.2. kParTan. 222
7.3.3.3. Квазиньютоновские
методы.. 222
7.4. Запросы к компоненту
учитель. 222
7.4.1. Обучение
сети. 222
7.4.1.1. Обучить
сеть (InstructNet) 223
7.4.1.2. Провести
N шагов обучения (NInstructSteps) 223
7.4.1.3. Прервать
обучение (CloseInstruction) 224
7.4.2. Чтение/запись
учителя. 224
7.4.2.1. Прочитать
учителя (inAdd) 224
7.4.2.2. Удаление
учителя (inDelete) 225
7.4.2.3. Запись
компонента (inWrite) 225
7.4.3. Инициация
редактора учителя. 226
7.4.3.1. Редактировать
компонент (inEdit) 226
7.4.4. Работа
с параметрами учителя. 227
7.4.4.1. Получить
параметры (inGetData) 227
7.4.4.2. Получить
имена параметров (inGetName) 227
7.4.4.3. Установить
параметры (inSetData) 228
7.4.5. Обработка
ошибок. 228
8. Контрастер. 229
8.1. Задачи для контрастера.. 229
8.1.1. Упрощение
архитектуры нейронной сети. 229
8.1.2. Уменьшение
числа входных сигналов. 231
8.1.3. Сведение
параметров нейронной сети к выделенным значениям.. 231
8.1.4. Снижение
требований к точности входных сигналов. 232
8.1.5. Получение
явных знаний из данных. 232
8.1.5.1. Построение
логически прозрачных сетей. 233
8.1.5.2. Получение
явных знаний. 234
8.2. Множества повышенной
надежности.. 237
8.2.1. Формальная
постановка задачи. 237
8.2.2. Классификация
дублей. 238
8.2.3. Прямой
дубль первого рода. 238
8.2.4. Косвенный
дубль первого рода. 239
8.2.5. Прямой
дубль второго рода. 240
8.2.6. Косвенный
дубль второго рода. 241
8.2.7. Косвенный
супердубль. 241
8.3. Процедура
контрастирования.. 242
8.3.1. Контрастирование
на основе показателей значимости. 242
8.3.2. Контрастирование
без ухудшения. 243
8.3.3. Гибридная
процедура контрастирования. 244
8.3.4. Контрастирование
при обучении. 245
8.4. Определение показателей
значимости.. 245
8.4.1. Определение
показателей значимости через градиент.. 245
8.4.2. Усреднение
по обучающему множеству. 246
8.4.3. Накопление
показателей значимости. 247
8.5. Запросы к компоненту
контрастер. 248
8.5.1. Контрастирование
сети. 248
8.5.1.1. Контрастировать
сеть(ContrastNet) 248
8.5.1.2. Прервать
контрастирование (CloseContrast) 248
8.5.1.3. Контрастировать
пример (ContrastExample) 249
8.5.2. Чтение/запись
контрастера. 250
8.5.2.1. Прочитать
контрастера (cnAdd) 250
8.5.2.2. Удаление
контрастера (cnDelete) 250
8.5.2.3. Запись
контрастера (cnWrite) 251
8.5.3. Инициация
редактора контрастера. 251
8.5.3.1. Редактировать
контрастера (cnEdit) 251
8.5.4. Работа
с параметрами контрастера. 252
8.5.4.1. Получить
параметры (cnGetData) 252
8.5.4.2. Получить
имена параметров (cnGetName) 252
8.5.4.3. Установить
параметры (cnSetData) 253
8.5.5. Обработка
ошибок. 253
9. Нейронные сети ассоциативной
памяти, функционирующие в дискретном времени.. 255
9.1. Описание задачи.. 255
9.2. Формальная постановка задачи.. 256
9.3. Сети Хопфилда.. 256
9.4. Функционирование сети. 257
9.5. Ортогональные сети.. 261
9.6. Тензорные сети.. 265
9.7. Сети для инвариантной
обработки изображений.. 268
9.8. Численный эксперимент. 269
9.9. Доказательство теоремы.. 271
10. Заключение.. 277
11. Приложение 1. Логически прозрачная сеть для
прогнозирования шизофрении.. 278
12. Приложение 2. Краткое описание
возможностей программы NEUROPRO 285
12.1. Общие сведения.. 285
12.2. Требования к
аппаратуре. 285
12.3. Основные возможности программы.. 285
12.4. Форматы файлов.. 286
12.5. Нейросетевая парадигма.. 286
12.6. Подача и снятие
сигналов.. 286
12.7. Точность решения
задачи.. 287
12.8. Обучение нейронной
сети.. 288
12.9. Упрощение нейронной
сети.. 288
12.10. Вербализация нейронной
сети.. 289
13. Приложение 3. Акты о внедрении.. 290
ЛИТЕРАТУРА.. 291
Введение
Актуальность
темы. В
80-е годы развитие информатики и средств вычислительной техники во многом
определялось программой «Пятое поколение компьютеров». Основной целью данной
программы было развитие систем искусственного интеллекта на базе алгоритмических
языков. В 1992 году на смену программе «Пятое поколение компьютеров» пришла
программа «Вычисления в Реальном мире». Основная цель новой программы –
обеспечить возможность вычислительным системам взаимодействовать с реальным
миром без посредства человека. Довольно большая часть программы – 30-40% –
отведена исследованию естественных нейронных сетей и разработки искусственных
нейронных сетей и нейросетевых систем.
Искусственные нейронные сети являются
вычислительными устройствами, основанными на использовании большого числа очень
простых нейронов. Все навыки искусственных нейронных сетей рассредоточены в
синаптических связях. Канадский физиолог Д.Хебб в 1949 году описал такой
синапс, как основу возможных механизмов памяти и поведения. Таким образом
искусственные нейронные сети были предложены фактически сразу, после
возникновения кибернетики. Уже сейчас искусственные нейронные сети применяются
для решения очень многих задач обработки изображений, управления роботами и
непрерывными производствами, для понимания и синтеза речи, для диагностики заболеваний
людей и технических неполадок в машинах и приборах, для предсказания курсов валют
и результатов скачек.
Нейрокибернетика объединяет многие науки и
технологии, связанные с изучением устройства нейронных систем и применением
полученных знаний в технике и медицине. Та часть работ по нейрокибернетике,
которая связана с разработкой устройств переработки информации на основе
принципов работы естественных нейронных систем получила название нейроинформатика.
Несмотря на то, что термин нейроинформатика возник в
середине 80-х годов, сравнение электронного и биологического мозга ведется постоянно
на протяжении всей истории существования вычислительной техники. Знаменитая
книга Н.Винера "Кибернетика", ознаменовавшая рождение этой науки в
1948 г., имеет подзаголовок "Управление в живых системах, технике и обществе".
В середине 80-х размеры элементарных деталей
вычислительных устройств стали сравнимы по размерам с нейронами человеческого
мозга. Однако, не смотря на то, что быстродействие электронных элементов в миллионы
раз выше, с задачами ориентации и принятие решений в естественной среде биологические
системы справляются намного эффективнее. Возникла гипотеза, что мозг выигрывает
это соревнование за счет специфических механизмов обработки информации. Это
послужило основой для активизации фундаментальных и прикладных исследований в
области механизмов переработки информации в биологических системах и породило
нейроинформатику.
Основная задача нейроинформатики – разработка
методов создания (синтеза) нейронных схем, решающих те или иные задачи. Нейрон
в искусственных нейронных сетях является достаточно простым устройством. Например,
нечто вроде усилителя с большим числом входов и одним выходом. Различие между
подходами и методами - в деталях представлений о работе нейрона, и, конечно, в
представлениях о работе связей.
Основное отличие нейрокомпьютеров от обычных
компьютеров состоит в том, что в обычных компьютерах есть такие четко
выделенные элементы как память и универсальный процессор. В нейрокомпьютере вся
память рассредоточена в весах связей между простыми процессорами – нейронами.
Таким образом основная нагрузка при решении нейрокомпьютером задачи ложится на
структуру связей, задающую архитектуру нейронной сети.
Значительную роль в общем подъеме интереса к нейропроблемам
сыграла теория, предложенная Джоном Хопфилдом в 1982 г. Другой важный класс
нейронных систем введен в рассмотрение финном Тейво Кохоненом. Еще один класс
нейроподобных моделей представляют сети с обратным распространением ошибки.
Метод имеет длительную историю. В развитии его современных модификаций ведущую
роль сыграли французский исследователь ле Кун и профессор А.Н.Горбань из Красноярска.
Средства для решения задач нейроинформатики обычно
называют нейрокомпьютерами. Нейрокомпьютеры могут быть аппаратными, программными
имитаторами или программно-аппаратными комплексами. В данный момент любой
нейрокомпьютер не претендует на звание универсального компьютера, а создается
для решения определенного круга задач. В мире имеется несколько десятков специализированных
фирм, выпускающих продукцию в области нейроинформатики и, кроме того, многие
гиганты индустрии (IBM, Siemence, Mitsubishi и др.) ведут исследования и разработки
в этой области.
Сейчас можно уже говорить о традиционных задачах
нейроинформатики. К таковым относятся задачи распознавания образов, речи,
радарных сигналов, медицинской диагностики и другие трудно формализуемые задачи.
Постоянно появляются все новые области приложений. Одним из наиболее значимых
можно назвать задачу первичной обработки данных в физике элементарных частиц.
Суть этого приложения состоит в том, что с датчиков поступает огромный поток
данных о различных частицах. Необходимо с высокой скоростью отобрать данные об
интересующих исследователя частицах и отсеять остальные. Большой интерес к
нейрокомпьютерам проявляют также военные ведомства многих стран. Однако
основной областью применения нейронных сетей и основанных на их использовании
устройств будут по всей видимости системы управления роботов. По мнению одного
из ведущих исследователей в области нейроинформатики Р. Хехт-нильсена основной
продукцией промышленных фирм через 10 лет будут "нейровычислительные
роботы".
Цели
работы.
На основе анализа различных нейросетевых парадигм построить модель
универсального нейрокомпьютера. Универсальный нейрокомпьютер должен иметь
структуру, позволяющую реализовать большинство нейросетевых парадигм.
Разработать метод описания конструирования нейронных
сетей и язык записи архитектур нейронных сетей. Метод должен позволять описывать
любые нейронные сети, функционирующие в дискретном времени. Описание должно
позволять автоматически выделять фрагменты сети, которые могут функционировать
параллельно.
Разработать тип оценок, позволяющих интерпретатору
ответа оценивать уровень уверенности сети в ответе.
Разработать методы получения явных алгоритмов
решения задачи с помощью нейронных сетей.
Разработать метод определения минимального набора
входных данных, устойчивого к искажениям во входных данных.
Разработать сеть ассоциативной памяти максимальной информационной
емкости.
Научная
новизна и практическая ценность. В данной работе разработана функциональная модель
универсального нейрокомпьютера. Определены принципы выделения функциональных
компонентов. Проведена декомпозиция нейрокомпьютера на функциональные
компоненты в соответствии с предложенными принципами. Показана универсальность
разработанной модели – возможность реализации в рамках данной модели всех основных
видов нейронных сетей. Предложенная модель позволяет проводить аргументированное
сравнение различных реализаций отдельных компонентов нейрокомпьютера, отслеживать
взаимосвязи между компонентами. Для каждого компонента разработан полный
(исчерпывающий) список запросов. Это позволяет при разработке больших
программных комплексов разрабатывать каждый компонент независимо от других.
Более того, в пределах одной вычислительной платформы возможно использование
один раз запрограммированного компонента в различных программных комплексах
(например, при помощи динамически связываемых библиотек (DLL)). Четкое
определение функций каждого компонента позволяет разрабатывать для каждого
компонента наиболее эффективные реализации независимо от других компонентов.
Разработан принцип построения нового типа оценок,
названный эффективной функцией оценки. Эффективность предложенного типа оценок
состоит в том, что их использование позволяет ускорить обучение нейронной сети,
оценить уровень уверенности нейронной сети в полученном ответе, обучить с малой
надежностью сеть решению тех задач, которые сеть данной архитектуры не может
решить с высокой надежностью, учесть при обучении различие в достоверности
ответов в разных примерах.
Разработан метод получения явных знаний из данных с помощью логически
прозрачных нейронных сетей, получаемых из произвольных обученных сетей специальной
процедурой контрастирования (скелетонизации). Этот метод позволяет получить
явные зависимости выходных сигналов нейронной сети от входных. В случае решения
задач классификации в большинстве случаев удается получить схему логического
вывода.
Разработан метод построения минимально необходимых
наборов входных данных и построения на их основе наборов входных данных повышенной
надежности (устойчивости к искажениям во входных данных). Доказаны теоремы,
устанавливающие соотношения между такими наборами, построенными различными
способами.
Разработан метод конструирования нейронных сетей из
простейших элементов и более простых сетей. Предложен способ описания процесса
конструирования и язык для записи его результата. Сформулировано три метода
построения двойственных сетей и проведено их сравнение.
Получены оценки способности сети ассоциативной
памяти к точному воспроизведению эталонов. В работе рассмотрена сеть Хопфилда,
функционирующая в дискретном времени. Разработаны методы, позволяющие повысить
ее информационную емкость. С помощью этих методов построены три сети
ассоциативной памяти, имеющие большую информационную емкость и менее зависящие
от степени коррелированности эталонов. Предложен метод конструирования сетей
ассоциативной памяти со свойствами, необходимыми для решения конкретной задачи.
Доказана теорема об информационной емкости ортогональной тензорной сети.
Предложенная функциональная модель была частично
реализована в ряде программных продуктов, разработанных Красноярской группой Нейрокомп.
Так в программе Eye, разработанной автором в 1989 году, впервые были реализованы
и опробованы эффективные функции оценки. Данная программа широко использовалась
в учебном процессе и послужила одной из базовых программ при проведении Первой
Всесоюзной олимпиады по нейрокомпьютингу (Омск, 1991 год). В 1993 году автором
была разработана серия программ, под общим названием «Нейроучебник», которые до
сих пор используются в учебном процессе в ряде красноярских вузов. В программе
Sigmoid1 из этой серии впервые было реализовано контрастирование. На этой
программе была получена первая логически прозрачная нейронная сеть. В программе
Hopfield из той же серии впервые была реализована ортогональная сеть
ассоциативной памяти.
В 1993-1995 годах на ВЦ СО РАН в г. Красноярске под
руководством автора работал программистский семинар по разработке нейросетевых
приложений. Одним из результатов работы семинара явилось появление программы
MultyNeuron. Результаты использования программы в медицине опубликованы
различными исследователями более чем в 50 работах.
В 1996-2000 годах по проекту «Разработка и
программная реализация технологии производства явных знаний из данных с помощью
обучаемых нейронных сетей» № 05.04.1291 подпрограммы «Перспективные информационные
технологии» Федеральной целевой программы на 1996-2000 годы «Исследования и
разработки по приоритетным направлениям развития науки и техники гражданского
назначения» под руководством автора были разработаны три программы FAMaster
[186], NeuroPro [237] и GISNNA [180]. На базе этих программ защищено три
кандидатские диссертации. В приложении к диссертации приведены 26 актов о внедрении.
На защиту
выносятся.
1. Функциональная модель универсального
нейрокомпьютера. Принципы выделения функциональных компонентов. Декомпозиция
нейрокомпьютера на функциональные компоненты в соответствии с предложенными
принципами.
2. Принцип построения эффективных функций оценки,
позволяющих ускорить обучение нейронной сети, оценить уровень уверенности нейронной
сети в полученном ответе, обучить с малой надежностью сеть решению тех задач,
которые сеть данной архитектуры не может решить с высокой надежностью.
3. Метод получения явных знаний из данных с помощью
логически прозрачных нейронных сетей, получаемых из произвольных обученных
сетей специальной процедурой контрастирования.
4. Метод построения минимально необходимых наборов
входных данных и построения на их основе наборов входных данных повышенной
устойчивости к искажениям во входных данных. Теоремы о соотношениях между
различными видами таких наборов.
5. Метод описания процедуры конструирования
нейронных сетей из простейших элементов и более простых сетей. Язык описания
результатов конструирования.
6. Методы повышения информационной емкости сетей
ассоциативной памяти, функционирующих в дискретном времени. Метод конструирования
сетей ассоциативной памяти со свойствами, необходимыми для решения конкретной
задачи. Теорема об информационной емкости ортогональной тензорной сети.
Публикации.
По теме
диссертации опубликовано более 40 работ, в том числе одна монография без
соавторов, одна коллективная монография (сборник лекций) и одно учебное пособие.
Апробация
работы. Основные
положения и результаты работы докладывались на 1 Всероссийском рабочем семинаре
«Нейроинформатика и нейрокомпьютеры», Красноярск (1993); 2, 3, 4, 5, 6, 7, 8
Всероссийских рабочих семинарах «Нейроинформатика и ее приложения», Красноярск
(1994 – 2000); научно-технической конференции «Проблемы техники и технологий
XXI века», Красноярск (1994); межрегиональной конференции «Проблемы информатизации
региона» (1995); 1, 2 IEEE-RNNS Symposium, Rostov-on-Don (1992, 1995); IEEE
International Conference on Neural Networks, Houston, IEEE (1997); III
Международной конференции "Математика, компьютер, образование". -
Москва (1996); International Joint Conference on Neural Networks, Washington,
DC, USA, 1999; 10th International. Congress of chemical engineering, chemical
equipment design and automation, Praha (1990); Международном конгрессе «Индустриальная
и прикладная математика», Новосибирск (1998).
Кроме того, основные положения работы были
представлены на Всемирном конгрессе по нейронным сетям (WCNN'95) (1995).
Термин «Нейрокомпьютер» не имеет четкого определения, поэтому определим, что называется нейрокомпьютером в данной работе: нейрокомпьютер это устройство для решения какой либо задачи, в качестве основного решающего устройства использующее искусственную нейронную сеть. Для данной работы не важно в каком виде существует нейронная сеть и весь нейрокомпьютер – в виде программной эмуляции, специализированного устройства или любом другом. Речь пойдет об универсальном (решающем любые задачи) идеальном (не привязанном к какой либо реализации или элементной базе) нейрокомпьютере. Однако прежде чем переходить к содержательному обсуждению, необходимо описать ситуацию в нейроинформатике в целом.
В
нейроинформатике существует три направления, которые условно можно назвать
биологическим, модельным и инженерным (эта классификация впервые была введена
А.Н. Горбанем на лекциях по нейронным сетям, прочитанным в ЛЭТИ в 1991 году в
ходе подготовки к Первой Всесоюзной Олимпиаде по нейрокомпьютингу среди
студентов и школьников). Цель работ биологического направления – понять, как
устроена нервная система (например, [15, 16, 23, 29, 102, 106, 113, 116, 137,
145, 172, 173, 179, 182, 242, 244, 263, 268, 293, 348, 369, 370, 372, 373,
378]). Как правило, работы этого направления проходят следующие этапы. Сначала
выдвигается гипотеза о биологическом механизме решения, каким либо отделом
мозга определенной задачи. Далее строится компьютерная модель для проверки этой
гипотезы. В ходе построения модели используются либо уже известные нейронные
сети, либо предлагается новый вид сети.
В
работах модельного направления исследуются свойства искусственных нейронных
сетей. Как правило, исследователи берут ранее известную нейронную сеть и
исследуют ее возможности. В работах этого направления есть она особенность,
которая является одновременно и сильным и слабым местом одновременно –
фактический отказ от модернизации архитектуры нейронной сети. С точки зрения
исследователя модельного направления сеть с модернизированной архитектурой это совсем другая сеть.
Работы
инженерного направления посвящены использованию искусственных нейронных сетей
для решения практических задач. При этом степень сходства используемой
нейронной сети с биологическим аналогом не имеет значения. Инженерное
направление заимствовало из естественных нейронных сетей два основных принципа:
много
простых элементов решают сложную задачу;
обучение
вместо программирования.
Инженерное
направление в свою очередь делится на два поднаправления – теоретическое и
практическое. Исследователи теоретического направления занимаются разработкой
нейронных сетей для решения определенных задач и исследованием их возможностей.
Основное отличие теоретического поднаправления от модельного направления
состоит в том, что при необходимости архитектура нейронной сети, правила
обучения и другие компоненты нейрокомпьютера свободно модифицируются для решения
поставленной задачи. Содержание девятой главы может служить типичным примером
работы теоретического инженерного подхода. Другие примеры работ данного
направления можно найти , например, в [8, 37, 107, 176, 222, 224, 230, 231,
256, 349, 365, 367]. Работы практического направления, как правило, содержат
решение конкретной прикладной задачи. На нейросетевых и медицинских
конференциях в последние годы докладываются сотни работ этого направления. В
Красноярске на базе нейросетевого эмулятора MultyNeuron [193, 194, 287] разработано
свыше двух десятком различных медицинских экспертных систем [18, 49 – 52, 73, 93
– 96, 163, 164, 169, 201]. Число нейросетевых экспертных систем в различных
областях насчитывает несколько тысяч. Примерами таких работ могут служить
следующие работы [24, 121, 246, 249, 252, 253, 257 – 260, 272, 275, 284, 287,
292, 308, 310, 314, 315, 318, 331, 333 – 335, 337, 339, 342 – 344, 346, 350,
356, 359, 363, 366, 368, 377].
Несмотря
на то, что обычно большинство работ нельзя однозначно отнести к какому либо из
перечисленных выше направлений, использование предложенной классификации работ
позволяет яснее представить место работы в современной нейроинформатике. Автор
относит свою работу к теоретическому поднаправлению инженерного направления.
Методы
нейроинформатики успешно зарекомендовали себя в настолько широком круге
приложений, что стали темой многих публикаций в изданиях, не имеющих прямого
отношения к науке [99. 169]. Этот успех опирается на две предпосылки –
универсальность нейронных сетей [38, 39, 57, 64, 70, 286] и способность
вырабатывать нечто, напоминающее человеческую интуицию [101, 110, 254, 269,
270]. Безусловно, для большинства задач, решаемых методами нейроинформатики,
существуют традиционные методы решения (см. например [4, 5, 17, 19, 89, 103,
109, 111, 113, 117 – 119, 128, 129, 271, 319, 360]). Более того, существует ряд
работ, посвященных решению классических задач методами нейроинформатики (см. например,
[89, 129, 176, 222, 276, 277, 299, 320, 328, 349]). Однако, для применения
большинства традиционных методов необходимо, во-первых, знать о них, во-вторых,
знать их область их применения и ограничения. В то время, как успех
нейроинформатики основан на утверждении «нейронные сети могут все». Это
утверждение долгое время было лозунгом нейроинформатики, а сравнительно недавно
было строго доказано [38, 39, 57, 64, 70, 136, 266, 323]. Основные задачи и
преимущества нейроинформатики подробно рассмотрены в [59 – 62, 71, 74, 108,
146, 151, 152, 170, 174, 245, 248, 262, 279, 281, 288, 290, 317]
Многолетние
усилия многих исследовательских групп привели к тому, что к настоящему моменту
накоплено большое число различных правил обучения и архитектур нейронных сетей,
способов оценивать и интерпретировать их работу, приемов использования
нейронных сетей для решения прикладных задач. Каждое правило, архитектура,
система оценки и интерпретации составляют отдельный нейрокомпьютер. Причем
каждый нейрокомпьютер уникален и отделен от других. Такой тип многообразия
принято называть «зоопарком». Многообразие этого типа нетехнологично.
Существует другой тип многообразия – технопарк. Такое многообразие строится как
совокупность многих «машин» собранных из небольшого набора стандартных деталей.
Основная цель данной работы состоит в том, чтобы преобразовать существующий
зоопарк нейрокомпьютеров в технопарк.
В
качестве примера приведем выдержку из монографии (учебного пособия) одного из
наиболее известных Российских ученых–нейроинформатиков А.И. Галушкина [26].
«Основными качественными
характеристиками архитектур нейронных сетей являются:
1.
Типы входных сигналов (размерность, дискретность и т. д.).
2.
Тип операций, реализуемых в разомкнутой нейронной сети (дискретные или непрерывные).
3.
Топология связей (прямые,
перекрестные, латеральные, обратные и т.д.).
4.
Наличие или отсутствие желания
сымитировать в структуре конкретную биологическую систему (зрительный или слуховой анализатор, мозжечок, таламус и
т.д.).
5.
Наличие желания максимально повысить
скорость вычислительных операций на нейронной сети.
6.
Ограничения архитектуры, связанные с
удобством (простотой) или ограничениями принятого способа
технической реализации.
7.
Способ объединения в группы процессорных элементов.
8.
Способ функционирования во времени
(дискретный или непрерывный).
9.
Способ изменения весов связей
(случайный или упорядоченный).
10.
Способ соединения независимо
настроенных (или настраиваемых) нейронных сетей вместе.»
Очевидно,
что первый пункт приведенного списка относится в основном к методам
предобработки и не имеет отношения к архитектуре нейронных сетей. Шестой пункт
относится к способу реализации сети и лишь косвенно к архитектуре. Седьмой
пункт относится к практике имитации нейронных сетей на компьютерах различной
конфигурации. Нельзя считать, что полносвязная нейронная сеть прямого
распространения с одним и тем же числом нейронов будет иметь разную архитектуру
в зависимости от того, реализована она на обычном персональном компьютере или
на нейрокомпьютере Synaps 1. Очевидно, что архитектура нейронной сети будет в
обоих случаях одинакова. Изменится только программная реализация сети и
нейрокомпьютера в целом. Девятый пункт связывает в одно целое архитектуру сети
и метод обучения. В программах группы Нейрокомп, и других разработчиков
реализованы различные способы обучения нейронных сетей, как случайные, так и
градиентные.
К
сожалению, такая практика, соединения архитектуры нейронной сети и алгоритмов
обучения в единое целое, имеет место и в разработках многих западных фирм [25,
141, 142].
Для
перехода к разнообразию типа технопарк полезен такой подход: каждый нейрокомпьютер
из зоопарка должен быть представлен как реализованный на идеальном нейрокомпьютере,
имеющем заданную структуру. В пределах данной структуры возможен почти
произвольный выбор комплектующих – архитектур сетей, предобработчиков,
интерпретаторов ответа и других компонентов. Несомненно, структура этого
идеального нейрокомпьютера со временем будет эволюционировать. Однако преимущества
даже от первых шагов стандартизации несомненны. Подтверждением этому служит
опыт двенадцатилетней работы Красноярской группы НейроКомп по использованию нейронных
сетей в различных задачах: распознавания образов [65, 291, 295], медицинской
диагностики [18, 49 – 52, 73, 92, 94, 163 – 165, 168, 188 – 192, 195 – 214, 261,
300 – 302, 321, 322, 351 – 355, 361, 372], прогноза [303–305, 374] и др.[89–91,
156, 157, 166, 167, 175, 181, 238, 337].
Группа
НейроКомп в течение двенадцати лет отрабатывала принципы организации нейронных
вычислений. Различные варианты этих принципов были реализованы в серии
программ-нейроимитаторов. Возможность формирования большинства архитектур, алгоритмов
и способов использования нейронных сетей на основе небольшого числа стандартных
блоков существенно облегчает создание программного обеспечения, и его использования
при решении прикладных задач.
Особую
актуальность приобретает задача создания универсального нейрокомпьютера в связи
с тем, что в течении последних десяти лет десятки серьезных компаний заявили о
разработке аппаратных нейрокомпьютеров. При этом существует две крайности. С
одной стороны, аппаратно реализованные нейронные сети, способные решать только
одну конкретную задачу (например, [10 – 12, 21, 26, 105, 159, 221, 225]). С
другой стороны – универсальные нейрокомпьютеры типа «Synaps I»,
предложенный фирмой Сименс-Никсдорф. Автор имел возможность ознакомиться с
техническими характеристиками данного нейрокомпьютера и проектом программного
обеспечения для него. К сожалению, этот компьютер является нейрокомпьютером
только по названию, поскольку в действительности это обычный хороший
высокоскоростной параллельный компьютер. Вся реализация всех типов нейронных
сетей, заявленная фирмой Сименс-Никсдорф, содержится полностью в программном
обеспечении. Основная проблема, встающая на пути таких разработок – попытка
реализовать исходный мелкозернистый параллелизм нейронных сетей, состоящих из
простых элементов, на базе относительно малого числа сложных универсальных процессоров.
Вопросы параллелизма нейронных сетей рассмотрены во многих работах (см. например,
[152, 264]).
В
данной работе описана функциональная структура идеального универсального нейрокомпьютера
для реализации большинства нейронных сетей одного из крупных отделов
«зоопарка». Речь идет о сетях работающих в дискретном времени. Изначально
предполагалось, что на предложенном нейрокомпьютере можно будет реализовать
только сети связанные с методом обратного распространения ошибки - это мощная и
широко применяемая технология обучения нейронных сетей (см. например, [236,
312, 313, 355, 358]). К сожалению, она получила распространение в виде
алгоритма, а не в виде способа построения алгоритмов. Более общая теория
обучения нейронных сетей - принцип двойственности [9, 13, 14, 45, 55, 56, 65,
255. 256, 289, 295] – мало известна. На данный момент в литературе встречается
описание более чем двух десятков различных алгоритмов обучения нейронных сетей
по методу обратного распространения ошибки. Однако в ходе работы оказалось, что
предложенная структура нейрокомпьютера позволяет реализовать любые сети
функционирующие в дискретном времени.
На
данный момент нейрокомпьютеры существуют, в основном, в виде программных
имитаторов. Предложенный в данной работе подход – сборка нейрокомпьютера из небольшого
числа реализаций восьми компонентов – позволяет существенно упростить процесс
разработки таких имитаторов. Автором предложены два уровня стандарта нейрокомпьютера,
приведенные в первом приложении к данной работе. Первый уровень состоит в
разработанном едином языке описания функциональных компонентов нейрокомпьютера.
При этом не важно, кем и для каких компьютеров был разработан программный
имитатор. Возможность иметь внешнее, по отношению к программному имитатору,
описание всех основных компонентов нейрокомпьютера призвана облегчить
разработку и распространение архитектур нейронных сетей, правил интерпретации
ответов и их оценки, алгоритмов обучения, методов контрастирования (скелетонизации)
и т.д. При этом результат становится не зависящим от программы, при помощи
которой он был получен, и воспроизводимым другими исследователями. Кроме того,
единый подход к описанию структуры нейронной сети, предобработчика и других
компонентов нейрокомпьютера облегчает разработку аппаратной реализации
нейрокомпьютера или его отдельных компонентов.
Второй
уровень предлагаемого проекта стандарта предусматривает возможность
взаимозамены различных реализаций компонентов в пределах одной программы. Предполагается,
что возможно использование компонентов одного разработчика программ совместно с
компонентами, разработанными другими разработчиками. Этот стандарт по своему
применению существенно уже первого, поскольку возможности переноса разработок
между различными вычислительными платформами сильно ограничены.
Ранее
уже было предложено несколько вариантов языка описания нейронных сетей.
Примером таких языков может служить язык для описания нейронных сетей AXON
[311, 324 – 326], разработанный и поддерживаемый группой исследователей под
руководством Р. Хехт-Нильсона. Изначально, автор с коллегами из группы
НейроКомп пошли по тому же пути [46]. Однако он оказался бесперспективным.
Основным отличием способа описания нейрокомпьютера, предложенного в данной
работе, от языка AXON является полнота охвата всех компонентов
нейрокомпьютера. Язык AXON служит для описания только
нейронных сетей, тогда как приведенный в приложении стандарт охватывает все
компоненты нейрокомпьютера и средства интерфейса между ними.
Предложенная функциональная модель была
частично реализована в ряде программных продуктов, разработанных Красноярской
группой Нейрокомп. Так в программе Eye [83, 171], разработанной автором в 1989
году, впервые были реализованы и опробованы эффективные функции оценки. Данная
программа широко использовалась в учебном процессе и послужила одной из базовых
программ при проведении Первой Всесоюзной олимпиады по нейрокомпьютингу (Омск,
1990 год). В 1993 году автором была разработана серия программ, под общим
названием «Нейроучебник», которые до сих пор используются в учебном процессе в
ряде красноярских вузов. В программе Sigmoid1 из этой серии впервые было
реализовано контрастирование. На этой программе была получена первая логически
прозрачная нейронная сеть. В программе Hopfield из той же серии впервые была
реализована ортогональная сеть ассоциативной памяти.
В
1993-1995 годах на ВЦ СО РАН в г. Красноярске под руководством автора работал программистский
семинар по разработке нейросетевых приложений. Одним из результатов работы
семинара явилось появление программы MultyNeuron. Результаты использования
программы в медицине опубликованы различными исследователями более чем в 50 работах
[18, 49 – 52, 73, 93 – 95, 121, 163, 164, 168, 188 – 192, 195 – 201, 203 – 214,
287, 300 – 302, 321, 322, 351 – 355, 361, 371].
В 1996-2000 годах по проекту «Разработка и
программная реализация технологии производства явных знаний из данных с помощью
обучаемых нейронных сетей» № 05.04.1291 подпрограммы «Перспективные информационные
технологии» Федеральной целевой программы на 1996-2000 годы «Исследования и
разработки по приоритетным направлениям развития науки и техники гражданского
назначения» под руководством автора были разработаны три программы FAMaster,
NeuroPro и GISNNA. На базе этих программ защищено три кандидатские диссертации
[180, 186, 237]. В приложении к диссертации приведены 26 актов о внедрении.
Предложенная
в данной работе функциональная модель нейрокомпьютера является нетрадиционной.
Как правило, под моделью устройства понимают систему уравнений, описывающих ее
функционирование. В данном случае такой подход в целом к нейрокомпьютеру
затруднен многообразием нейрокомпьютеров. Реально в данной работе предложен двухэтапный
способ построения модели нейрокомпьютера. На первом этапе на базе
функциональной модели универсального нейрокомпьютера определяется состав
специализированного нейрокомпьютера для решения исследуемой задачи. На втором
этапе, когда состав и реализации компонентов нейрокомпьютера определены, автоматически
получается системы уравнений, описывающие функционирование и обучение этого
конкретного нейрокомпьютера.
Такой
подход может оказаться эффективным и при аппаратной реализации нейрокомпьютеров.
Как уже отмечалось выше, при попытке аппаратной реализации универсального
нейрокомпьютера происходит изготовление очередного универсального параллельного
вычислителя. Это связано с тем, что аппаратно реализовать нейронную сеть, не
наложив существенных ограничений на ее архитектуру, на данном этапе развития
вычислительной техники невозможно. Наиболее перспективным выглядит следующий
подход к аппаратной реализации нейрокомпьютера. Сначала на программном
имитаторе универсального нейрокомпьютера производится отбор необходимых
реализаций всех компонентов нейрокомпьютера. Далее на том же имитаторе
производится обучение и, при необходимости, контрастирование нейронных сетей.
После того, как получена нейросетевая модель задачи, наступает этап аппаратной
реализации. Поскольку реализуется решатель конкретной задачи, то требуется не
универсальная нейронная сеть, а сеть заданной архитектуры с уже известными
параметрами и весами связей. Заранее известен вид используемой предобработки и
способ интерпретации ответа. В большинстве случаев такие компоненты как учитель,
контрастер, оценка не требуются, поскольку они сыграли свою роль на этапе
подготовки нейрокомпьютера.
Несколько
слов о структуре диссертации. В первой главе выделяются основные компоненты
нейрокомпьютера по следующим признакам.
1. Относительная функциональная
обособленность: каждый компонент имеет четкий набор функций. Его взаимодействие
с другими компонентами может быть описано в виде небольшого числа запросов.
2. Возможность реализации
большинства используемых алгоритмов.
3. Возможность взаимозамены
различных реализаций любого компонента без изменения других компонентов.
Кроме
того, в последней части первой главы описаны запросы, исполняемые всеми
компонентами нейрокомпьютера.
Главы
со второй по восьмую посвящены описанию одного или нескольких тесно связанных
между собой компонентов нейрокомпьютера, каждая. В каждой главе детально
описаны функции компонента, которому она посвящена, взаимосвязь этого
компонента с другими компонентами. Кроме того, в большинстве глав содержатся
оригинальные разработки, такие как эффективные оценки, логическая прозрачность
и т.д. В последней части каждой главы приведено описание запросов к
описываемому в данной главе компоненту нейрокомпьютера. В предпоследней части
пятой главы приведена БНФ языка описания структуры нейронной сети, библиотек элементов
и подсетей.
В
девятой главе проиллюстрирован теоретический подход к решению задачи о построении
сети ассоциативной памяти с максимальной информационной емкостью. Доказана
теорема об информационной емкости тензорных сетей, приведены результаты численных
экспериментов.
Эта
глава посвящена выделению функциональных компонентов, составляющих универсальный
нейрокомпьютер [77, 88, 152, 297, 298]. Основные компоненты нейрокомпьютера
выделяются по следующим признакам:
1. Относительная функциональная
обособленность: каждый компонент имеет четкий набор функций. Его взаимодействие
с другими компонентами может быть описано в виде небольшого числа запросов.
2. Возможность реализации
большинства используемых алгоритмов.
3. Возможность взаимозамены
различных реализаций любого компонента без изменения других компонентов.
Однако,
прежде чем приступать к выделению компонент, опишем рассматриваемый набор нейронных
сетей и процесс их обучения.
Кроме
того, в данной главе описаны общие для всех компонентов типы данных. Дано
полное описание запросов, выполняемых всеми компонентами.
Разнообразие
нейрокомпьютеров можно классифицировать по разным признакам. Наиболее
естественной является классификация по типу используемой нейронной сети. С
точки зрения функционирования наиболее существенным является разделение на
сети, функционирующие в непрерывном времени, и сети, функционирующие в
дискретном времени. Наиболее известным представителем сетей, функционирующих в
непрерывном времени являются сети Хопфилда [316]. Семейство нейронных сетей,
функционирующих в дискретном времени, представлено шире – это сети Кохонена [130,
131], персептрон Розенблатта [147, 185], сети, обучаемые по методу
двойственности (обратного распространения ошибки) [34, 35, 40, 42, 43, 47, 48,
53, 54, 58, 65, 69, 93] и др. В данной работе рассматриваются только сети,
функционирующие в дискретном времени.
Другая
возможная классификация – по типам решаемых задач. Можно выделить три основных
типа задач.
1. Классификация без учителя
или поиск закономерностей в данных. Наиболее известным представителем этого
класса сетей является сеть Кохонена [130, 131], реализующая простейший вариант
решения этой задачи. Наиболее общий вариант решения этой задачи известен как
метод динамических ядер [229, 267].
2. Ассоциативная память.
Наиболее известный представитель – сети Хопфилда [316]. Эта задача также
позволяет строить обобщения. Наиболее общий вариант описан в [75, 77, 86].
3. Аппроксимация функций,
заданных в конечном числе точек. К сетям, решающим эту задачу, относятся
персептрон, и сети обратного распространения ошибки.
Отметим,
что для каждой из перечисленных задач существуют другие, более традиционные
методы решения (см. например, [1, 7, 17, 19, 22]).
Наиболее
распространенными являются сети третьего класса. Именно для таких сетей в
первую очередь и предназначена предлагаемая модель универсального
нейрокомпьютера. Однако нейрокомпьютеры для решения двух других типов задач так
же могут быть реализованы в рамках предложенной модели. При этом они используют
не все компоненты универсального нейрокомпьютера. Так при реализации сетей
ассоциативной памяти нет необходимости использовать компоненты оценка и
интерпретатор ответа, а для сетей, обучающихся без учителя, не нужен компонент
оценка, но необходим компонент учитель.
Среди
сетей, аппроксимирующих функции, необходимо выделить еще два типа сетей – с
дифференцируемой и пороговой характеристической функцией. Дифференцируемой
будем называть сеть, каждый элемент которой реализует непрерывно дифференцируемую
функцию. Вообще говоря, альтернативой дифференцируемой сети является
недифференцируемая, а не пороговая, но на практике, как правило, все
недифференцируемые сети являются пороговыми. Отметим, что для того, чтобы сеть
была пороговой, достаточно вставить в нее один пороговый элемент.
Основное
различие между дифференцируемыми и пороговыми сетями состоит в способе
обучения. Для дифференцируемых сетей есть конструктивная процедура обучения,
гарантирующая результат, если архитектура сети позволяет ей решит задачу (см.
разд. «Оценка способности сети решить задачу») – метод двойственного обучения
(обратного распространения ошибки). Следует заметить, что при использовании
обучения по методу двойственности так же возникают сложности, типа локальных
минимумов. Однако существует набор регулярных процедур, позволяющих с ними
бороться (см. например [93]). Для обучения пороговых сетей используют правило
Хебба или его модификации. Однако, для многослойных сетей с пороговыми
элементами правило Хебба не гарантирует обучения. (В случае однослойных сетей –
персептронов, доказана теорема о достижении результата в случае его
принципиальной достижимости). С другой стороны, в работе [147] доказано, что
многослойные сети с пороговыми нейронами можно заменить эквивалентными двухслойными
сетями с не обучаемыми весами первого слоя. В работе [154] предложен подход,
позволяющий свести обучение сетей с пороговыми нейронами к обучению дифференцируемых
сетей с последующей трансформацией в сеть с пороговыми нейронами.
Первым
основным компонентом нейрокомпьютера является нейронная сеть. Метод двойственности в обучении нейронных сетей
предполагает только одно условие на элементы – все элементы сети должны при прямом
функционировании иметь характеристические функции из класса (непрерывно
дифференцируемые на области определения , которой, как правило, является вся числовая ось). Нейронная
сеть является основным претендентом на аппаратную реализацию, поскольку
обладает мелкозернистым параллелизмом и состоит из очень простых элементов.
Для
обучения нейронной сети необходимо наличие задачника.
Чаще всего, обучение производится не по всему задачнику, а по некоторой его
части. Ту часть задачника, по которой в данный момент производится обучение,
будем называть обучающей выборкой. Для многих задач обучающая выборка имеет
большие размеры (от нескольких сот до нескольких десятков тысяч примеров). При
обучении с использованием скоростных методов обучения (их скорость на
три-четыре порядка превышает скорость обучения по классическому методу
обратного распространения ошибки) приходится быстро сменять примеры. Таким
образом, скорость обработки обучающей выборки может существенно влиять на
скорость обучения нейронной сети. К сожалению, большинство разработчиков аппаратных
средств не предусматривает средств для быстрой смены примеров. С другой стороны
аппаратная реализация задачника нецелесообразна, поскольку в качестве задачника
может выступать как база данных на универсальном компьютере, так и датчики,
регистрирующие параметры некоторой системы.
При
работе с обучающей выборкой удобно использовать привычный для пользователя
формат данных. Впрочем, дело даже не в удобствах. В главе «Предобработчик» показано,
что измеряемая величина далеко не всегда является подходящим сигналом для нейронной
сети. Таким образом, между обучающей выборкой и нейросетью возникает дополнительный
компонент нейрокомпьютера – предобработчик.
Из литературных источников следует, что разработка эффективных предобработчиков
для нейрокомпьютеров является новой, почти совсем не исследованной областью.
Большинство разработчиков программного обеспечения для нейрокомпьютеров склонно
возлагать функции предобработки входных данных на обучающую выборку или вообще
перекладывают ее на пользователя. Это решение технологически неверно. Дело в
том, что при постановке задачи для нейрокомпьютера трудно сразу угадать
правильный способ предобработки. Для его подбора проводится серия
экспериментов. В каждом из экспериментов используется одна и та же обучающая
выборка и разные способы предобработки входных данных. Таким образом, выделен
третий важный компонент нейрокомпьютера – предобработчик входных данных. В
отличии от задачника, при аппаратной реализации нейрокомпьютера компонент предобработчик
целесообразно также реализовывать аппаратно, поскольку вне зависимости от
источника входных данных предобработка не меняется.
Заметим,
что если привычный для человека способ представления входных данных непригоден
для нейронной сети, то и формат ответов нейронной сети часто малопригоден для
человека. Необходимо интерпретировать ответы нейронной сети. Интерпретация зависит
от вида ответа. Так, если ответом нейронной сети является действительное число,
то его, как правило, приходится масштабировать и сдвигать для попадания в нужный
диапазон ответов. Если сеть используется как классификатор, то выбор
интерпретаторов еще шире. Большое разнообразие интерпретаторов при
невозможности решить раз и навсегда вопрос о преимуществах одного из них над
другими приводит к необходимости выделения интерпретатора
ответа нейронной сети в отдельный компонент нейрокомпьютера.
С
интерпретатором ответа тесно связан еще один обязательный компонент нейрокомпьютера
– оценка. Невнимание к этому
компоненту вызвано практикой рассматривать метод обратного распространения
ошибки в виде алгоритма. Доминирование такой точки зрения привело к тому, что,
судя по публикациям, большинство исследователей даже не подозревает о том, что
«уклонение от правильного ответа», подаваемое на вход сети при обратном функционировании,
есть ни что иное, как производная функции оценки по выходному сигналу сети
(если функция оценки является суммой квадратов уклонений). Возможно (и иногда
очень полезно) конструировать другие оценки (см. главу «Оценка и интерпретатор
ответа»). Группой НейроКомп в ходе численных экспериментов было выяснено, что
для обучения сетей-классификаторов функция оценки вида суммы квадратов, пожалуй,
наиболее плоха. Использование альтернативных функций оценки позволяет в несколько
раз ускорить обучение нейронной сети.
Шестым
необходимым компонентом нейрокомпьютера является учитель. Этот компонент может иметь множество реализаций. Обзор наиболее
часто употребляемых и наиболее эффективных учителей приводится в главе «Учитель».
Принцип
относительной функциональной обособленности требует выделения еще одного
компонента, названного исполнителем
запросов учителя или просто исполнителем.
Назначение этого компонента не так очевидно, как всех предыдущих. Заметим, что
для всех учителей, обучающих сети по методу обратного распространения ошибки, и
при тестировании сети характерен следующий набор операций с каждым примером обучающей
выборки:
1. Тестирование решения примера
1.1. Взять пример у задачника.
1.2. Предъявить его сети для
решения.
1.3. Предъявить результат интерпретатору
ответа.
2. Оценивание решения примера
2.1. Взять пример у задачника.
2.2. Предъявить его сети для
решения.
2.3. Предъявить результат оценке.
3. Оценивание решения примера с
вычислением градиента.
3.1. Взять пример у задачника.
3.2. Предъявить его сети для
решения.
3.3. Предъявить результат оценке
с вычислением производных.
3.4. Предъявить результат работы
оценки сети для вычисления градиента.
4. Оценивание и тестирование
решения примера.
4.1. Взять пример у задачника.
4.2. Предъявить его сети для
решения.
4.3. Предъявить результат оценке.
4.4. Предъявить результат
интерпретатору ответа.
Все
четыре варианта работы с сетью, задачником, интерпретатором ответа и оценкой
легко объединить в один запрос, параметры которого позволяют указать
последовательность действий. Таким образом, исполнитель исполняет всего один запрос
– обработать пример. Однако выделение этого компонента позволяет исключить
необходимость в прямых связях таких компонентов, как контрастер и учитель, с
компонентами оценка и интерпретатор ответа, а их взаимодействие с компонентом
сеть свести исключительно к запросам связанным с модификацией обучаемых параметров
сети.
Последним
компонентом, которого необходимо выделить, является контрастер нейронной сети. Этот компонент является надстройкой над
учителем. Его назначение – сводить число связей сети до минимально необходимого
или до «разумного» минимума (степень разумности минимума определяется
пользователем). Кроме того, контрастер, как правило, позволяет свести множество
величин весов связей к 2-4, реже к 8 выделенным пользователем значениям.
Наиболее важным следствием применения процедуры контрастирования является
получение логически прозрачных сетей – сетей, работу которых легко описать и
понять на языке логики [80, 81].
Для
координации работы всех компонентов нейрокомпьютера вводится макрокомпонента Нейрокомпьютер. Основная задача этого
компонента – организация интерфейса с пользователем и координация действий всех
остальных компонентов.
В
литературе по нейроинформатике (см. например, [226, 227]) встречаются такие понятия
как «соревновательные нейроны» и «обучение без учителя». Для определения места
этих понятий, относящихся к сетям Кохонена [130, 131] рассмотрим более подробно
работу нейрокомпьютера, реализующего сеть Кохонена. Сеть Кохонена состоит из
изолированных нейронов (см. рис. 18 к главе 4). Работа нейрокомпьютера при
решении примера состоит из следующих этапов:
1. Из задачника выбирается
очередной пример
2. Выбранный пример
предобрабатывается.
3. Полученные в результате
предобработки данные подаются на вход сети. С выхода сети снимается вектор
действительных чисел (работает компонент сеть).
4. Полученный выходной вектор
интерпретируется максимальным интерпретатором (см. главу «Оценка и
интерпретатор ответа»).
5. При необходимости доучивания
вычисляется вектор поправок к выходным сигналам сети (работает компонент
оценка).
6. Вычисленный вектор поправок
подается на выход сети. На входах весов сети снимается вектор поправок к весам
сети (работает компонент сеть).
7. После того, как этапы 1 – 6
проведены для всех примеров задачника проводится обучение сети (работает компонент
учитель).
Таким
образом в сети Кохонена нет «соревновательных элементов». То, что понимаю под
этим термином – работа интерпретатора ответа. Название «обучение без учителя» –
некорректная метафора, поскольку при обучении сети Кохонена проводится минимизация
функции оценки (см. например, [93]), и производится она с использованием
компонента учитель.
В этом разделе приводится список основных запросов, которые
обеспечивают функционирование нейрокомпьютера. За редким исключением приводятся
только запросы, которые генерируются компонентами нейрокомпьютера (некоторые из
этих запросов могут поступать в нейрокомпьютер от пользователя). Здесь
рассматривается только форма запроса и его смысл. Полный список запросов
каждого компонента, детали их исполнения и форматы данных рассматриваются в
соответствующих главах.
Рис
1. Схема запросов в нейрокомпьютере |
На
рис. 1. приведена схема запросов в нейрокомпьютере. При построении схемы предполагается,
что на каждый запрос приходит ответ. Вид ответа описан при описании запросов.
Стрелки, изображающие запросы, идут от объекта, инициирующего запрос, к объекту
его исполняющему.
Запросы
к задачнику позволяют последовательно перебирать все примеры обучающей выборки,
обращаться непосредственно к любому примеру задачника и изменять обучающую
выборку. Обучающая выборка выделяется путем «раскрашивания» примеров задачника
в различные «цвета». Понятие цвета и способ работы с цветами описаны в разделе «Переменные
типа цвет и операции с цветами».
Запросы
последовательного перебора обучающей выборки:
«Инициировать
выдачу примеров цвета К». По этому запросу происходит инициация выдачи примеров
К-го цвета.
«Дать
очередной пример». По этому запросу задачник возвращает предобработанные данные
очередного примера и, при необходимости, правильные ответы, уровень
достоверности и другие данные этого примера.
«Следующий
пример». По этому запросу задачник переходит к следующему примеру обучающей
выборки. Если такого примера нет, то возвращается признак отсутствия очередного
примера.
Для
непосредственного доступа к примерам задачника служит запрос «Дать пример номер
N». Действия задачника в этом случае аналогичны выполнению запроса «Дать
очередной пример».
Для
изменения обучающей выборки служит запрос «Окрасить примеры в цвет К». Этот
запрос используется редко, поскольку изменение обучающей выборки, как правило,
осуществляется пользователем при редактировании задачника.
Предобработчик
сам никаких запросов не генерирует. Единственный запрос к предобработчику –
«Предобработать пример» может быть выдан только задачником.
«Обработать
очередной пример». Вид ответа зависит от параметров запроса.
«Начать
обучение сети». По этому запросу учитель начинает процесс обучения сети.
«Прервать
обучение сети». Этот запрос приводит к прекращению процесса обучения сети. Этот
запрос требуется в случае необходимости остановить обучение сети до того, как
будет удовлетворен критерий остановки обучения, предусмотренный в учителе.
«Провести
N шагов обучения» – как правило, выдается контрастером, необходим для
накопления показателей чувствительности.
«Отконтрастировать
сеть». Ответом является код завершения операции контрастирования.
Оценка
не генерирует никаких запросов. Она выполняет только один запрос – «Оценить
пример». Результатом выполнения запроса является оценка примера и, при необходимости,
вектор производных оценки по выходным сигналам сети.
Интерпретатор
ответа не генерирует никаких запросов. Он выполняет только один запрос –
«Интерпретировать ответ». Ответом является результат интерпретации.
Сеть
не генерирует никаких запросов. Набор исполняемых сетью запросов можно разбить
на три группы.
Запрос,
обеспечивающий тестирование.
«Провести
прямое функционирование». На вход сети подаются данные примера. На выходе сети
вычисляется ответ сети, подлежащий оцениванию или интерпретации.
Запросы,
обеспечивающие обучение сети.
«Обнулить
градиент». При исполнении этого запроса градиент оценки по обучаемым параметрам
сети кладется равным нулю. Этот запрос необходим, поскольку при вычислении
градиента по очередному примеру сеть добавляет
его к ранее вычисленному градиенту по сумме других примеров.
«Вычислить
градиент по примеру». Проводится обратное функционирование сети. Вычисленный
градиент добавляется к ранее
вычисленному градиенту по сумме других примеров.
«Изменить
карту с шагами Н1 и H2». Генерируется учителем во время обучения.
Запрос,
обеспечивающие контрастирование.
«Изменить
карту по образцу». Генерируется контрастером при контрастировании сети.
Таким образом, выделено семь основных компонентов нейрокомпьютера, определены их функции и основные исполняемые ими запросы.
В
этом разделе описаны запросы, выполняемых всеми компонентами, а также типы
данных, используемые при описании запросов.
При
описании запросов и структур данных необходимо использовать набор первичных
типов данных. Поскольку в разных языках программирования типы данных называются
по-разному, введем единый набор обозначений для них.
Таблица 1.
Типы данных для всех
компонентов нейрокомпьютера
Тип |
Длина (байт) |
Значения |
Описание |
Color |
2 |
|
Используется для задания цветов. Является совокупностью из 16 элементарных (битовых) флагов. См. раздел «Цвет и операции с цветами». |
Real |
4 |
от ±1.5 e- 45 до ±3.4 e 38 |
Действительное число. Величина из указанного диапазона.. В дальнейшем называется «действительное». |
RealArray |
4*N |
|
Массив действительных чисел. |
PRealArray |
4 |
|
Используется для передачи массивов между компонентами. Имеет значение адреса массива действительных чисел. |
Integer |
2 |
От -32768 До 32767 |
Целое число из указанного диапазона. В дальнейшем называется «целое». |
IntegerArray |
2*N |
|
Массив целых чисел. |
PIntegerArray |
4 |
|
Используется для передачи массивов между компонентами. Имеет значение адреса массива целых чисел. |
Таблица 1.
Типы данных для всех
компонентов нейрокомпьютера (Продолжение)
Тип |
Длина (байт) |
Значения |
Описание |
Long |
4 |
От -2147483648 До 2147483647 |
Целое число из указанного диапазона. В дальнейшем называется «длинное целое». |
LongArray |
4*N |
|
Массив длинных целых чисел. |
PlongArray |
4 |
|
Используется для передачи массивов между компонентами. Имеет значение адреса массива длинных целых чисел. |
Logic |
1 |
True, False |
Логическая величина. Далее называется «логическая». |
LogicArray |
N |
|
Массив логических переменных. |
PLogicArray |
4 |
|
Используется для передачи массивов между компонентами. Имеет значение адреса массива логических переменных. |
FuncType |
4 |
|
Адрес функции. Используется при необходимости передать функцию в качестве аргумента. |
String |
256 |
|
Строка символов. |
PString |
4 |
|
Адрес строки символов. Служит для передачи строк в запросах |
Pointer |
4 |
|
Не типизованный указатель (адрес). Этот тип
совместим с любым типизованным указателям. |
Числовые типы данных Integer, Long и Real
предназначены для хранения различных чисел. Переменные числовых типов
допускаются в языках описания всех компонентов нейрокомпьютера. При
необходимости записать в один массив числовые переменные различного типа
следует использовать функции приведения типов, описанные в разделе «Приведение
типов»
Строка. Символьный тип данных
предназначен для хранения комментариев, названий полей, имен сетей, оценок и
другой текстовой информации. Все строковые переменные занимают 256 байт и могут
включать в себя до 255 символов. Первый байт строки содержит длину строки. В переменных
типа строка возможен доступ к любому символу как к элементу массива. При этом
длина имеет индекс ноль, первый символ – 1 и т.д.
Указатель на строку. При передаче данных между
компонентами сети и процедурами в пределах одного компонента удобно вместо
строки передавать указатель на строку, поскольку указатель занимает всего четыре
байта. Для этой цели служит тип указатель на строку.
Логический тип используется для
хранения логических значений. Значение истина задается предопределенной
константой True, значение ложь – False.
|
Массивы. В данном стандарте
предусмотрены массивы четырех типов – логических, целочисленных, длинных целых
и действительных переменных. Длины массивов определяются при описании, но все
массивы переменных одного типа относятся к одному типу, в отличие от языков типа
Паскаль. Использование функций приведения и преобразования типов позволяют
получать из этих массивов структуры произвольной сложности. Элементы массивов
всегда нумеруются с единицы.
Вне зависимости от типа массива нулевой элемент массива имеет тип Long и содержит длину массива в элементах. На рис. 2 приведена схема распределения памяти всех типов массивов, каждый из которых содержит шесть элементов. Все массивы, как правило, используется только в пределах одного компонента. При передаче массивов между компонентами или между процедурами в пределах одного компонента используются указатели на массивы.
Адрес функции. Этот тип используется для
передачи функции в качестве аргумента. Переменная типа FuncType занимает четыре
байта и является адресом функции. В зависимости от реализации по этому адресу
может лежать либо начало машинного кода функции, либо начало текста функции. В
случае передачи текста функции первые восемь байт по переданному адресу
содержат слово «Function».
Использование цветов позволяет гибко разбивать множества на подмножества. В нейрокомпьютере возникает необходимость в разбиении на подмножества (раскрашивании) задачника. В этом разделе описывается стандарт работы с переменными типа цвет. Ближайшей аналогией переменных типа цвет является тип данных Set в языке Паскаль.
Переменная типа цвет представляет собой двухбайтовое беззнаковое целое. Однако основное использование предполагает работу не как с целым числом, а как с совокупностью однобитных флагов. При записи на диск используется символьное представление двоичной записи числа с ведущими нулями и разбиением на четверки символом «.» (точка), предваряемая заглавной буквой «B» латинского алфавита, или символьное представление шестнадцатеричной записи числа с ведущими нулями, предваряемая заглавной буквой «H» латинского алфавита. В табл. 2 приведена нумерация флагов (бит) переменной типа Color, их шестнадцатеричное, десятичное и двоичное значение. При использовании в учителе или других компонентах может возникнуть необходимость в присвоении некоторым из флагов или их комбинаций имен. На такое именование не накладывается никаких ограничений, хотя возможно будет выработан стандарт и на названия часто используемых цветов (масок, совокупностей флагов).
Таблица 2 Нумерация флагов (бит) переменной типа Color
|
В
табл. 3 приведены операции с переменными типа Color. Первые пять операций могут
использоваться только для сравнения переменных типа Color, а остальные четыре
операции – для вычисления выражений типа Color.
В
ряде запросов необходимо указать тип операции над цветом. Для передачи таких
параметров используется переменная типа Integer. В качестве значений
передается содержимое соответствующей ячейки столбца код табл. 3.
Таблица 3
Предопределенные константы
операций с переменными типа Цвет (Color)
Код |
Обозначение |
Выражение |
Тип результата |
Пояснение |
1 |
CEqual |
A = B |
Logic |
Полное совпадение. |
2 |
CIn |
A And B = A |
Logic |
A содержится в В. |
3 |
CInclude |
A And B = B |
Logic |
А содержит В. |
4 |
CExclude |
A And B = 0 |
Logic |
A и В взаимоисключающие. |
5 |
CIntersect |
A And B <> 0 |
Logic |
А и В пересекаются. |
6 |
COr |
A Or B |
Сolor |
Побитное включающее или. |
7 |
CAnd |
A And B |
Color |
Побитное и. |
8 |
CXor |
A Xor B |
Color |
Побитное исключающее или |
9 |
CNot |
Not A |
Color |
Побитное отрицание |
При
описании различных компонентов возникает необходимость в использовании
некоторого набора стандартизированных констант. Стандартность набора констант
особенно необходима при обмене данными между компонентами. Все константы,
приведенные в табл. 4, описываются в тех разделах, где они используются. В
табл. 4 для каждой константы указывается ее тип, значение и названия разделов,
в которых она описывается.
Таблица 4
Предопределенные константы
Идентификатор |
Тип |
Значение |
Раздел |
|
Шестнад. |
Десятичн. |
|||
BackInSignals |
Integer |
H0005 |
5 |
Запросы к компоненту сеть |
BackOutSignals |
Integer |
H0006 |
6 |
Запросы к компоненту сеть |
BackParameters |
Integer |
H0007 |
7 |
Запросы к компоненту сеть |
Binary |
Integer |
H0001 |
1 |
Запросы компонента интерпретатор ответа |
BinaryPrep |
Integer |
H0000 |
0 |
Запросы компонента предобработчик |
Таблица 4
Предопределенные константы
(Продолжение)
Идентификатор |
Тип |
Значение |
Раздел |
|
Шестнад. |
Десятичн. |
|||
BynaryCoded |
Integer |
H0003 |
3 |
Запросы компонента интерпретатор ответа |
CAnd |
Integer |
H0007 |
7 |
Операции с переменными типа цвет (Color) |
Cascad |
Integer |
H0002 |
2 |
Запросы к компоненту сеть |
Cequal |
Integer |
H0001 |
1 |
Операции с переменными типа цвет (Color) |
CExclude |
Integer |
H0004 |
4 |
Операции с переменными типа цвет (Color) |
CicleFor |
Integer |
H0003 |
3 |
Запросы к компоненту сеть |
CicleUntil |
Integer |
H0004 |
4 |
Запросы к компоненту сеть |
CIn |
Integer |
H0002 |
2 |
Операции с переменными типа цвет (Color) |
CInclude |
Integer |
H0003 |
3 |
Операции с переменными типа цвет (Color) |
CIntersect |
Integer |
H0005 |
5 |
Операции с переменными типа цвет (Color) |
CNot |
Integer |
H0009 |
9 |
Операции с переменными типа цвет (Color) |
COr |
Integer |
H0006 |
6 |
Операции с переменными типа цвет (Color) |
CXor |
Integer |
H0008 |
8 |
Операции с переменными типа цвет (Color) |
Element |
Integer |
H0000 |
0 |
Запросы к компоненту сеть |
Empty |
Integer |
H0000 |
0 |
Запросы компонента интерпретатор ответа |
EmptyPrep |
Integer |
H0003 |
3 |
Запросы компонента предобработчик |
False |
Logic |
H00 |
|
|
FuncPrep |
Integer |
H0005 |
5 |
Запросы компонента предобработчик |
InSignalMask |
Integer |
H0003 |
3 |
Запросы к компоненту сеть |
InSignals |
Integer |
H0000 |
0 |
Запросы к компоненту сеть |
Layer |
Integer |
H0001 |
1 |
Запросы к компоненту сеть |
Major |
Integer |
H0002 |
2 |
Запросы компонента интерпретатор ответа |
ModPrep |
Integer |
H0004 |
4 |
Запросы компонента предобработчик |
Таблица 4
Предопределенные константы
(Продолжение)
Идентификатор |
Тип |
Значение |
Раздел |
|
Шестнад. |
Десятичн. |
|||
Null |
Pointer |
H00000000 |
Нет |
|
Ordered |
Integer |
H0002 |
2 |
Запросы компонента предобработчик |
OutSignals |
Integer |
H0001 |
1 |
Запросы к компоненту сеть |
Parameters |
Integer |
H0002 |
2 |
Запросы к компоненту сеть |
ParamMask |
Integer |
H0004 |
4 |
Запросы к компоненту сеть |
PositPrep |
Integer |
H0006 |
6 |
Запросы компонента предобработчик |
tbAnswers |
Integer |
H0004 |
4 |
Язык описания задачника |
tbCalcAnswers |
Integer |
H0006 |
6 |
Язык описания задачника |
tbCalcReliability |
Integer |
H0007 |
7 |
Язык описания задачника |
tbColor |
Integer |
H0001 |
1 |
Язык описания задачника |
tbComment |
Integer |
H000A |
10 |
Язык описания задачника |
tbEstimation |
Integer |
H0009 |
9 |
Язык описания задачника |
tbInput |
Integer |
H0002 |
2 |
Язык описания задачника |
tbPrepared |
Integer |
H0003 |
3 |
Язык описания задачника |
tbReliability |
Integer |
H0005 |
5 |
Язык описания задачника |
tbWeight |
Integer |
H0008 |
8 |
Язык описания задачника |
True |
Logic |
HFF |
-1 |
|
UnknownLong |
Integer |
H0000 |
0 |
Неопределенные значения |
UnknownReal |
Real |
нет |
1E-40 |
Неопределенные
значения |
UnOrdered |
Integer |
H0001 |
1 |
Запросы компонента
предобработчик |
UserType |
Integer |
HFFFF |
-1 |
Структурная единица, определенная пользователем. |
Три предопределенные константы, приведенные в табл. 4, не описываются ни в одном разделе данной работы. Это константы общего пользования. Их значение:
True
– значение истина для присваивания переменным логического типа.
False – значение ложь для присваивания
переменным логического типа.
Null
– пустой указатель. Используется для сравнения или присваивания переменным всех
типов указателей.
Ряд
запросов, исполняемых различными компонентами, возвращают в качестве ответа
указатели на массивы. В этих случаях действуют следующие правила:
1. Если компонент получил
пустой указатель (Null), то он сам создает массив необходимой длины.
2. Если передан непустой
указатель, но существующей длины массива недостаточно, то компонент освобождает
память, занятую под переданный массив и создает новый массив необходимой длины.
3. Освобождение памяти после
использования массива лежит на вызывающем компоненте.
Если
одному из компонентов не хватает памяти для выполнения запроса, то этот
компонент может передать макрокомпоненту нейрокомпьютер запрос на
дополнительную память. В этом случае макрокомпонент нейрокомпьютер передает
всем компонентам запрос FreeMemory. При
исполнении данного запроса каждый компонент должен освободить всю память, не
являющуюся абсолютно необходимой для работы. Например, компонент задачник может
для быстроты обработки держать в памяти все обучающее множество. Однако
абсолютно необходимой является память, достаточная для хранения в памяти одного
примера.
Запрос
на освобождение памяти исполняется каждым компонентом и не включен в описания запросов
компонентов, приведенные в следующих главах.
Схема
обработки ошибок достаточно проста по своей идее - каждый новый обработчик
ошибок может обрабатывать только часть ошибок, а обработку остальных может передать
ранее установленному обработчику. Пользователь может организовать обработку
ошибок и не прибегая к установке обработчика ошибок - обработчик ошибок по
умолчанию почти во всех случаях устанавливает номер последней ошибки в
переменную Error, которая может быть считана с помощью запроса GetError и
обработана прямо в компоненте, выдавшем запрос.
Если
обработчик ошибок устанавливает номер последней ошибки в переменной Error, то
все запросы, поступившие после момента установки, завершаются неуспешно. Это состояние
сбрасывается при вызове запроса «дать номер ошибки».
Процедура обработки ошибок должна быть процедура с дальним
типом адресации. Формат описания процедуры обработки ошибок
Pascal:
Procedure ErrorFunc( ErrorNumber : Long ); Far;
C:
void far ErrorFunc(Long ErrorNumber)
I.
После обработки ошибок процедура может вызвать ранее установленный обработчик
ошибок. Адрес ранее установленного обработчика ошибок процедура обработки
ошибок получает в ходе следующей процедуры:
A.
Вызов процедуры с нулевым номером ошибки означает, что в следующем вызове
будет передан адрес старой процедуры обработки ошибок.
B.
Значение аргумента ErrorNumber при вызове, следующем непосредственно за
вызовом с нулевым номером ошибки, должно интерпретироваться как адрес старой
процедуры обработки ошибок.
Ниже
приведено описание запросов, связанных с обработкой ошибок и исполняемых
макрокомпонентом нейрокомпьютер.
Описание
запроса:
Pascal:
Function
OnError( NewError : ErrorFunc ) : Logic;
C:
Logic
OnError(ErrorFunc NewError)
Описание
аргументов:
NewError
- адрес новой процедуры обработки ошибок.
Назначение
– устанавливает новый обработчик ошибок.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Вызов NewError с аргументом
0 - настройка на установку цепочки обработки ошибок.
3. Вызов NewError с аргументом
ErrorManager (вместо длинного целого передается адрес старой процедуры
обработки ошибок).
4. ErrorManager := NewError
Описание
запроса:
Pascal:
Function GetError : Integer;
C:
Integer GetError()
Назначение
- возвращает номер последней необработанной ошибки и сбрасывает ее.
Описание
исполнения.
1. GetError := Error
2. Error :=
0
Списки ошибок, возникающих в различных компонентах,
даны в разделах «Ошибки компоненты ...», в соответствующих главах. Все номера
ошибок каждого компонента являются трехзначными числами и начинаются с номера
компонента, указанного в колонке «Ошибка» табл. 5.
Таблица 5 Префиксы компонентов
|
Ряд
запросов обрабатывается всеми компонентами, кроме компонента исполнитель, носящего
вспомогательный характер. Один из таких запросов – FreeMemory – был описан в разделе
«Управление памятью», а два запроса, связанных с обработкой ошибок – в разделе
«Обработка ошибок». В данном разделе приводятся описания остальных запросов,
имеющих одинаковый смысл для всех компонентов. В отличие от ранее описанных
запросов эти запросы опираются на структуру исполняющего компонента, поэтому к
имени запроса добавляется префикс, задающий компонента. Список префиксов
приведен в табл. 5. Единственным исключением из числа компонентов, исполняющих
перечисленные в данном разделе запросы, является компонент исполнитель.
Все
описываемые в данном разделе запросы можно разбить на четыре группы:
1.
Установление текущего компонента.
2. Запросы работы со структурой
компонента.
3. Запросы на получение или
изменение параметров структурной единицы.
4.
Запуск редактора компонента.
Все
имена запросов начинаются с символов «xx», которые необходимо
заменить на префикс из табл. 5 чтобы получить имя запроса для соответствующего
компонента. При указании ошибок используется символ «n», который нужно заменить на
соответствующий префикс ошибки из табл. 5.
Далее
данном разделе компонентом также называются экземпляры компонента, а не только
часть программы. Например, одна из загруженных нейронных сетей, а не только
программный компонент сеть.
К
этой группе запросов относится один запрос – xxSetCurrent – не исполняемый
компонентом задачник.
Описание
запроса:
Pascal:
Function xxSetCurrent( CompName : PString) : Logic;
C:
Logic xxSetCurrent(PString CompName)
Описание
аргумента:
CompName – указатель на строку символов, содержащую имя компонента,
которого надо сделать текущим.
Назначение
– ставит указанного в параметре CompName компонента из списка загруженных
компонентов на первое место в списке.
Описание
исполнения.
1. Если список компонентов пуст
или имя компонента, переданное в аргументе CompName, в этом списке не
найдено, то возникает ошибка n01 – неверное имя компонента,
управление передается обработчику ошибок, а обработка запроса прекращается.
2. Указанный в аргументе CompName
компонент переносится в начало списка.
К
этой группе относятся запросы, позволяющие выяснить структуру компонента,
прочитать ее или сохранить на диске.
Описание
запроса:
Pascal:
Function xxAdd( CompName :
PString ) : Logic;
C:
Logic xxAdd(PString CompName)
Описание
аргумента:
CompName
– указатель на строку символов, содержащую имя файла компонента или адрес описания
компонента.
Назначение
– добавляет новый экземпляр компонента в список компонентов.
Описание
исполнения.
1. Если в качестве аргумента
CompName дана строка, первые четыре символа которой составляют слово File, то
остальная часть строки содержит имя компонента и после пробела имя файла,
содержащего компонента. В противном случае считается, что аргумент CompName
содержит указатель на область памяти, содержащую описание компонента в формате
для записи на диск. Если описание не вмещается в одну область памяти, то
допускается включение в текст описания компонента ключевого слова Continue, за
которым следует четыре байта, содержащие адрес следующей области памяти.
2. Экземпляр компонента
считывается из файла или из памяти и добавляется первым в список компонентов (становится текущим).
3. Если считывание завершается
по ошибке, то возникает ошибка n02 – ошибка считывания
компонента, управление передается обработчику ошибок, а обработка запроса
прекращается.
Описание
запроса:
Pascal:
Function xxDelete( CompName :
PString) : Logic;
C:
Logic xxDelete(PString
CompName)
Описание аргумента:
CompName
– указатель на строку символов, содержащую полное имя компонента.
Назначение
– удаляет указанного в параметре CompName компонента из списка компонентов.
Описание
исполнения.
1. Если список компонентов пуст
или имя компонента, переданное в аргументе CompName, в этом списке не найдено,
то возникает ошибка n01 – неверное имя компонента, управление передается
обработчику ошибок, а обработка запроса прекращается.
Заметим,
что попытка удаления младшей структурной единицы приводит к удалению всего компонента
содержащего данную структурную единицу.
Описание
запроса:
Pascal:
Function xxWrite( CompName : PString; FileName : PString) : Logic;
C:
Logic xxWrite(PString
CompName, PString FileName)
Описание
аргументов:
CompName
– указатель на строку символов, содержащую имя компонента.
FileName
– имя файла или адрес памяти, куда надо записать компонента.
Назначение
– сохраняет в файле или в памяти компонента, указанного в аргументе CompName .
Описание
исполнения.
1. Если в качестве аргумента
CompName дан пустой указатель, или указатель на пустую строку, то исполняющим
запрос объектом является текущий компонент.
2. Если список компонентов пуст
или имя компонента, переданное в аргументе CompName, в этом списке не найдено,
то возникает ошибка n01 – неверное имя компонента, управление передается
обработчику ошибок, а обработка запроса прекращается.
3. Если в качестве аргумента
FileName дана строка, первые четыре символа которой составляют слово File, то остальная
часть строки содержит имя файла, для записи компонента. В противном случае
FileName должен содержать пустой указатель. В этом случае запрос вернет в нем
указатель на область памяти, куда будет помещено описание компонента в формате
для записи на диск. Если описание не вмещается в одну область памяти, то в
текст будет включено ключевое слово Continue, за которым следует четыре байта,
содержащие адрес следующей области памяти.
4. Если во время сохранения
компонентà возникнет ошибка, то генерируется ошибка n03 –
ошибка сохранения компонента, управление передается обработчику ошибок, а
обработка запроса прекращается.
Описание
запроса:
Pascal:
Function xxGetStructNames(CompName
: PString; Var Names : PRealArray) : Logic;
C:
Logic xxGetStructNames(PString CompName, RealArray* Names)
Описание
аргументов:
CompName
– указатель на строку символов, содержащую имя компонента или полное имя его
структурной единицы.
Names
– массив указателей на имена структурных единиц.
Назначение
– возвращает имена всех компонентов в списке компонентов или имена всех
структурных единиц структурной единицы, указанной в аргументе CompName .
Описание
исполнения.
1. Если в качестве аргумента
CompName дан пустой указатель, или указатель на пустую строку, то исполняющим
запрос объектом является соответствующий программный компонент. В качестве
ответа в указателе Names возвращается массив, каждый элемент которого является
указателем на не подлежащую изменению
символьную строку, содержащую имя компонента из списка. После адреса имени
последнего компонента следует пустой указатель. Выполнение запроса успешно
завершается.
2. Если имя компонента,
переданное в аргументе CompName, не найдено в списке компонентов, то возникает
ошибка n01 – неверное имя компонента, управление передается обработчику ошибок,
а обработка запроса прекращается.
3. Возвращается массив, каждый
элемент которого является указателем на не
подлежащую изменению символьную строку, содержащую псевдоним структурной
единицы, являющейся частью структурной единицы, указанной в аргументе CompName.
Имена структурных единиц перечисляются в порядке следования в разделе описания
состава структурной единицы, имя которой указано в аргументе CompName. Если
одна из структурных единиц задана в описании состава несколькими экземплярами,
то имя каждого экземпляра возвращается отдельно. После указателя на имя
последней структурной единицы следует пустой указатель.
Описание
запроса:
Pascal:
Function xxGetType(CompName
, TypeName : PString; Var TypeId : Integer) : Logic;
C:
Logic xxGetType(PString
CompName, PString TypeName,
Integer TypeId)
Описание
аргументов:
CompName
– указатель на строку символов, содержащую полное имя структурной единицы.
TypeName
– возвращает указатель на строку символов, содержащую имя структурной единицы,
данное ей при описании.
TypeId
– одна из предопределенных констант, соответствующая типу структурной единицы.
Назначение
– возвращает имя и тип структурной единицы.
Описание
исполнения.
1. Если список компонентов пуст
или имя компонента, переданное в аргументе CompName, в этом списке не найдено,
то возникает ошибка n01 – неверное имя компонента, управление передается
обработчику ошибок, а обработка запроса прекращается.
2. В переменной TypeId возвращается
тип структурной единицы. Значения предопределенных констант, соответствующих
различным типам структурных единиц различных компонентов приведены в табл. 4 и
в соответствующих разделах глав, содержащих описания компонентов.
3. Если структурная единица
является стандартной, то указателю TypeName присваивается значение пустого
указателя. Если структурная единица имеет пользовательский тип (значение
аргумента TypeId равно -1), то указатель TypeName устанавливается на строку,
содержащую имя, данное указанной в аргументе CompName структурной единице при
ее описании.
К
группе запросов на изменение параметров относятся три запроса: xxGetData
– получить параметры структурной единицы. xxGetName – получить названия
параметров и xxSetData – установить значения
параметров структурной единицы.
Описание
запроса:
Pascal:
Function xxGetData(
CompName : PString; Var Param : PRealArray ) : Logic;
C:
Logic xxGetData(PString
CompName, PRealArray* Param)
Описание
аргументов:
CompName
– указатель на строку символов, содержащую полное имя структурной единицы.
Param
– адрес массива параметров.
Назначение
– возвращает массив параметров структурной единицы, указанной в аргументе
CompName .
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если список компонентов пуст
или имя компонента, переданное в аргументе CompName, в этом списке не найдено,
то возникает ошибка n01 – неверное имя компонента, управление передается
обработчику ошибок, а обработка запроса прекращается.
3. В массив, адрес которого
передан в аргументе Param, заносятся значения параметров. Параметры заносятся в
массив в порядке описания в разделе описания статических переменных.
Статические переменные, описанные вне описания структурных единиц, считаются
параметрами компонента.
Описание
запроса:
Pascal:
Function xxGetName(
CompName : PString; Var Param : PRealArray ) : Logic;
C:
Logic xxGetName(PString
CompName, PRealArray* Param)
Описание
аргументов:
CompName
– указатель на строку символов, содержащую полное имя структурной единицы.
Param
– адрес массива указателей на названия параметров.
Назначение
– возвращает массив указателей на названия параметров структурной единицы, указанной
в аргументе CompName .
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если список компонентов пуст
или имя компонента, переданное в аргументе CompName, в этом списке не найдено,
то возникает ошибка n01 – неверное имя компонента, управление передается
обработчику ошибок, а обработка запроса прекращается.
3. В массив, адрес которого
передан в аргументе Param, заносятся адреса символьных строк, содержащих
названия параметров.
Описание
запроса:
Pascal:
Function xxSetData(
CompName : PString; Param : PRealArray ) : Logic;
C:
Logic xxSetData(PString
CompName, PRealArray Param)
Описание
аргументов:
CompName
– указатель на строку символов, содержащую полное имя структурной единицы.
Param
– адрес массива параметров.
Назначение
– заменяет значения параметров структурной единицы, указанной в аргументе
CompName , на значения, переданные, в аргументе Param.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если список компонентов пуст
или имя компонента, переданное в аргументе CompName, в этом списке не найдено,
то возникает ошибка n01 – неверное имя компонента, управление передается
обработчику ошибок, а обработка запроса прекращается.
3. Параметры, значения которых
хранятся в массиве, адрес которого передан в аргументе Param, передаются
указанной в аргументе CompName структурной единице.
4. Если исполняющим запрос
компонентом является интерпретатор ответа (aiSetData), то генерируется запрос
SetEstIntParameters к компоненту оценка. Аргументы генерируемого запроса
совпадают с аргументами исполняемого запроса.
К
этой группе запросов относится запрос, который инициирует работу не рассматриваемых
в данной работе компонентов – редакторов компонентов.
Описание
запроса:
Pascal:
Procedure xxEdit(CompName :
PString);
C:
void xxEdit(PString CompName
)
Описание
аргумента:
CompName
– указатель на строку символов – имя файла или адрес памяти, содержащие
описание редактируемого компонента.
Если в
качестве аргумента CompName дана строка, первые четыре символа которой
составляют слово File, то остальная часть строки содержит имя компонента и
после пробела имя файла, содержащего описание компонента. В противном случае
считается, что аргумент CompName содержит указатель на область памяти,
содержащую описание компонента в формате для записи на диск. Если описание не
вмещается в одну область памяти, то допускается включение в текст описания
компонента ключевого слова Continue, за которым следует четыре байта, содержащие
адрес следующей области памяти.
Если в
качестве аргумента CompName передан пустой указатель или указатель на пустую
строку, то редактор создает новый экземпляр компонента.
Эта
глава посвящена одному из наиболее важных и обделенных вниманием компонентов
нейрокомпьютера – задачнику. Важность этого компонента определяется тем, что
при обучении сетей всех видов с использованием любых алгоритмов обучения сети
необходимо предъявлять примеры, на которых она обучается решению задачи.
Источником данных для сети является задачник. Кроме того, задачник содержит
правильные ответы для сетей, обучаемых с учителем. Аппаратная реализация этого
компонента в общем случае неэффективна.
В
этой главе рассматриваются основные структуры и функции компонента задачник.
Отметим, что задачник рассматривается только с точки зрения его использования
нейронной сетью. Совершенно очевидно, что невозможно предусмотреть всех
вариантов интерфейса между пользователем и задачником. Действительно, было бы
странно, если бы в одном и том же интерфейсе обрабатывались задачники,
содержащие только числовые поля, задачники, содержащие исключительно
графическую информацию и задачники смешанного типа.
С
точки зрения нейрокомпьютера задачник представляет собой прямоугольную таблицу,
поля которой содержат информацию о входных данных примеров задачи, правильные
ответы и другую информацию. На данный момент существует три основных способа
хранения однотипных данных – базы данных, электронные таблицы, текстовые файлы.
Основными критериями выбора являются удобство в использовании, компактность и
универсальность. Поскольку задачник должен хранить однотипные данные и
предоставлять их для обработки другим компонентам нейрокомпьютера, а не
производить вычисления, то функционально задачник должен являться базой данных.
Наиболее подходящим кажется формат табличных (реляционных) баз данных.
В
современных операционных системах предусмотрены различные способы обмена
данными между приложениями (устройства, передающие информацию с датчиков, так
же будем считать приложениями). Наиболее универсальным является обмен в
символьном формате. Вопрос конкретной реализации обмена выходит за рамки данной
работы, поскольку это чисто технический вопрос. Вне зависимости от того, каким
путем и из какого приложения данные попали в задачник, их представление должно
быть одинаковым (принятым в данной реализации задачника). То есть, откуда бы не
получал данные задачник, остальные компоненты нейрокомпьютера всегда получают
данные от задачника в одном и том же виде. Этот вид зафиксирован в приложении
при описании стандарта компонента задачник.
Далее
будем полагать, что задачник является реляционной базой данных из одной таблицы
или набора параллельных таблиц. Каждому примеру соответствует одна запись базы
данных. Каждому данному – одно поле. В данном разделе рассмотрены допустимые
типы полей, с точки зрения типа хранящихся в них данных. В разд. «Состав данных
задачника» все поля разбиваются по смысловой нагрузке. Все поля базы данных можно
разбить на четыре типа – числовые поля, текстовые поля, перечислимые поля и
поля типа рисунок.
Числовые поля. Поля числовых типов данных Integer,
Long и Real (см. раздел «Стандарт типов данных в приложении)
предназначены для хранения различных чисел. Поля числового типа могут нести
любую смысловую нагрузку.
Перечислимые поля. Поля перечислимого типа
служат для хранения качественных признаков – полей базы данных, содержащих, как
правило, текстовую информацию, но имеющих малое число различных значений.
Простейшим примером поля перечислимого типа является поле «пол» – это поле
может принимать только два значения – «мужской» или «женский». Поле
перечислимого типа не хранит соответствующего текстового значения, вместо него
в поле содержится номер значения. Поля перечислимого типа могут быть только
входными данными, комментариями или ответами.
Строки (текстовые поля). Поля текстового типа
предназначены для хранения тестовой информации. Они могут быть только
комментариями.
Рисунок. Поля типа рисунок
предназначены для хранения графической информации. В данной работе не
устанавливается способ хранения полей типа рисунок. В приложении оговаривается
только способ хранения полей типа рисунок на диске для файлов задачника,
созданного в нейрокомпьютере. При передаче рисунков предобработчику
используется формат, согласованный для предобработчика и задачника.
Компонент
задачник является необходимой частью нейрокомпьютера вне зависимости от типа
применяемых в нем нейронных сетей. Однако в зависимости от решаемой задачи
содержимое задачника может меняться. Так, например, для решения задачи классификации
без учителя используют нейросети, основанные на методе динамических ядер [229,
267] (наиболее известным частным случаем таких сетей являются сети Кохонена [130,
131]). Задачник для такой сети должен содержать только массивы входных данных и
предобработанных входных данных. При использовании обучаемых сетей, основанных
на принципе двойственности, к задачнику необходимо добавить массив ответов
сети. Кроме того, некоторые исследователи хотят иметь возможность просмотреть
ответы, выданные сетью, массив оценок примера, показатели значимости входных
сигналов и, возможно, некоторые другие величины. Поэтому, стандартный задачник
должен иметь возможность предоставить пользователю всю необходимую информацию.
Довольно часто при обучении нейронных сетей возникает необходимость использовать в обучении не все примеры задачника, а только часть. Например, такая возможность необходима при использовании метода скользящего контроля для оценки качества обучения сети. Существует несколько способов реализации такой возможности. Кроме того, часто бывает полезно приписать примерам ряд признаков. Так, при просмотре задачника, пользователю полезно видеть степень обученности примера (например, отображать зеленым цветом примеры, которые решаются сетью идеально, желтым – те, которые сеть решает правильно, но не идеально, а красным – те, при решении которых сеть допускает ошибки).
Ту
часть задачника, которая в данный момент используется в обучении нейронной
сети, будем называть обучающей выборкой. Для выделения из задачника обучающей выборки
предлагается использовать механизм «цветов». Если все примеры покрашены в некоторые
цвета, то обучающую выборку можно задать, указав цвета примеров, которые необходимо
использовать в обучении. В соответствии с предлагаемой схемой, каждый пример
покрашен каким–то цветом, а при задании обучающей выборки можно задать комбинацию
цветов. Схема работы с цветами детально рассмотрена в разделе «Переменные типа
цвет и операции с цветами» приложения.
Выделенную
с помощью механизма цветов часть задачника будем далее называть текущей
выборкой. Обучающая выборка является частным случаем текущей выборки.
Входные данные – данные, необходимые для решения сетью примера. Входные данные являются массивом. Существует всего несколько видов входных данных. Каждый элемент массива входных данных может быть: числом; полем с ограниченным числом состояний; рисунком.
Пользователю,
при работе с задачником, часто бывает необходимо иметь возможность
идентифицировать примеры не только по номерам. Например, при работе с медицинскими
базами данных полезно иметь поле, содержащее фамилию больного или номер истории
болезни. Для этих целей в задачнике может потребоваться хранить массив комментариев,
которые не могут быть использованы в обучении. Кроме того, при исключении
какого либо входного сигнала из множества входных сигналов, он не исключается
из задачника полностью, а переводится в комментарии.
Предобработанные
данные – это массив входных сигналов сети, полученный из входных данных после
предобработки, выполняемой компонентом предобработчик. Хранение задачником
этого массива необязательно. Каждый элемент массива предобработанных данных
является действительным числом. Следует отметить, что любая нетривиальная
предобработка, как правило, изменяет длину массива.
Правильные
ответы – массив ответов, которые
должна выдать обученная нейронная сеть при решении примера. Этот массив
необходим при обучении сетей с учителем. При использовании других видов сетей
хранение задачником этого массива необязательно. Элементами массива ответов
могут быть как числа, так и поля с ограниченным набором состояний. В первом
случае будем говорить о задаче аппроксимации функции, а во втором – о задаче
классификации объектов.
Полученные
ответы – массив ответов, выданных
сетью при решении примера. Для задачника хранение этой части примера не
обязательно.
Оценки – массив оценок, полученных сетью за
решение всех подзадач примера (число подзадач равно числу ответов примера).
Хранение этого массива задачником не обязательно.
Вес
примера – скалярный параметр, позволяющий
регулировать интенсивность участия примера в процессе обучения. Для не
обучаемых нейронных сетей вес примера может использоваться для учета вклада
данных примера в формируемую карту связей. Применение весов примеров зависит от
типа используемой сети.
При
составлении задачника ответы довольно часто получаются как результат измерения
или путем логических выводов в условиях нечеткой информации (например, в медицине).
В этих случаях одни ответы имеют большую достоверность, чем другие. Некоторые
способы построения оценки или формирования карты связей нейронной сети
позволяют использовать эти данные. Достоверность ответа является массивом,
поскольку ответ каждой подзадачи данного примера может иметь свою достоверность.
Каждый элемент массива достоверностей ответов является действительным числом от
нуля до единицы.
При
использовании некоторых видов оценки (см. главу «Оценка и интерпретатор ответа»)
интерпретатор ответа способен оценить уверенность сети в полученном ответе.
Массив коэффициентов уверенности сети в ответах (для каждого ответа свой
коэффициент уверенности) может оказаться полезным для пользователя. Каждый
элемент массива коэффициентов уверенности в ответе является действительным
числом от нуля до единицы.
Все
перечисленные выше массивы можно разбить на четыре типа по структуре:
·
Входные данные. Таких массивов обычно два – массив описания полей
данных (содержит описание полей данных: имя поля, его тип и возможно некоторую
дополнительную информацию) и собственно массив данных. Причем каждый пример
имеет свой массив данных, но массив описания полей данных один для всех
примеров задачника. Эти массивы имеют одинаковое число элементов, и их элементы
попарно соответствуют друг другу.
·
Массив ответов. При обучении с учителем, в задачнике есть, по крайней
мере, два массива этого вида – массив описания полей ответов и массив
правильных ответов. Кроме того, возможно хранение в задачнике массивов
вычисленных ответов, достоверности ответов и уверенности в ответе. Массив описания
полей ответов – один для всех примеров задачника. Все остальные массивы данного
типа хранятся по одному экземпляру каждого массива на пример.
·
Массив комментариев. Таких массивов обычно только два – массив описания
полей комментариев и массив комментариев. Массив описания полей комментариев –
один на весь задачник, а массив комментариев – один на пример.
Рис. 1. Схема данных
задачника. |
На
рис. 1 приведено схематическое устройство задачника. Такое представление данных
позволяет гибко использовать память. Однако следует учесть, что часть полей
может переходить из одного массива в другой. Например, при исключении одного
входного данного из использования (см. главу «Контрастер»), соответствующее ему
поле переходит из массива входных данных в массив комментариев.
В
этом разделе описаны все запросы, выполняемые компонентом задачник в виде
процедур и функций. При описании используется синтаксис языков Object
Pascal и С. В Паскаль варианте приведены заголовки функций и процедур. В С
варианте – прототипы функций. Большинство запросов, реализуется в виде функций,
сообщающих о корректности завершения операции.
Предполагается
возможность одновременной работы нескольких сеансов одного задачника. Например,
допускается редактирование задачника и одновременное обучение сети по тому же
задачнику.
Все
запросы к компоненту задачник можно разбить на следующие группы.
1. Чтение и запись задачника.
2. Начало и конец сеанса.
3. Перемещение по примерам.
4. Определение, получение и изменение
данных.
5. Окраска примеров.
6. Установление структуры Задачника.
7. Добавление и удаление
примеров.
8. Обработка ошибок.
К
этой группе запросов относятся запросы, работающие со всем задачником в целом.
Эти запросы считывают задачник, сохраняют задачник на диске или выгружают ранее
считанный или созданный задачник.
Описание
запроса:
Pascal:
Function tbAdd( CompName : PString ) : Logic;
C:
Logic tbAdd( PString CompName )
Описание
аргумента:
CompName
– указатель на строку символов, содержащую имя файла задачника.
Назначение
– служит для считывания задачника.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в данный момент считан
задачник, то генерируется запрос tbDelete. Если запрос tbDelete
завершается неуспешно, то генерируется внутренняя ошибка 104 – попытка
считывания задачника при открытых сеансах ранее считанного задачника. Управление
передается обработчику ошибок. Выполнение запроса прекращается.
3. Первые четыре символа строки
CompName составляют слово File. Остальная часть строки содержит имя компонента
и после пробела имя файла, содержащего компонент.
4. Если во время выполнения
запроса возникает ошибка, то генерируется внутренняя ошибка 102 – ошибка чтения задачника. Управление
передается обработчику ошибок. Выполнение запроса прекращается. В противном
случае выполнение запроса успешно завершается.
Описание
запроса:
Pascal:
Function tbWrite( CompName, FileName : PString) : Logic;
C:
Logic tbWrite(PString CompName, PString FileName)
Описание
аргументов:
CompName
– указатель на строку символов, содержащую имя задачника.
FileName
– имя файла, куда надо записать компонента.
Назначение
– сохраняет задачник в файле.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса отсутствует считанный задачник, то возникает ошибка 101 – запрос при
отсутствии задачника, управление передается обработчику ошибок, а обработка
запроса прекращается.
3. Задачник записывается в файл
FileName под именем CompName.
4. Если во время выполнения
запроса возникает ошибка, то генерируется внутренняя ошибка 103 – ошибка записи задачника. Управление
передается обработчику ошибок. Выполнение запроса прекращается. В противном
случае выполнение запроса успешно завершается.
Описание
запроса:
Pascal:
Function tbDelete : Logic;
C:
Logic tbDelete()
Назначение
– удаляет из памяти ранее считанный задачник.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если есть открытые сеансы,
то возникает ошибка 105 – закрытие задачника при открытых сеансах. Управление
передается обработчику ошибок. Выполнение запроса прекращается.
3. Задачник закрывается. Запрос
успешно завершается.
К
этой группе запросов относятся два запроса, открывающие и закрывающие сеансы
работы с задачником.
Описание запроса:
Pascal:
Function InitSession( NewColor : Color; Oper : Integer; Var Handle:
Integer ) : Logic;
C:
Logic
InitSession(Color NewColor, Integer Oper, Integer* Handle)
Описание
аргументов:
NewColor
– цвет для отбора примеров задачника в текущую выборку.
Oper
– операция для отбора в текущую выборку. Должна быть одной из констант CEqual,
CIn, CInclude, Cxclude, CIntersect
Handle
– номер сеанса. Начальное значение не важно. В этом аргументе возвращается
номер сеанса.
Назначение
– начинает сеанс. Отбирает текущую выборку.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если аргумент Oper является
недопустимым, то возникает ошибка 106 – недопустимый код операции при открытии
сеанса, управление передается обработчику ошибок. Сеанс не открывается.
Возвращается значение ложь.
3. Создается новый сеанс (в
одно-сеансовых задачниках просто инициируется сеанс). Номер сеанса заносится в
аргумент Handle.
4. Значения аргументов NewColor
и Oper сохраняются во внутренних переменных задачника
5. Указателю текущего примера
присваивается состояние «до первого примера»
6. InitSession := Next(Handle)
– результат выполнения запроса совпадает с результатом выполнения вызванного
запроса «Следующий пример».
Описание
запроса:
Pascal:
Procedure EndSession( Handle
: Integer );
C:
void EndSession(Integer Handle)
Назначение
– закрывает сеанс.
Описание
аргументов:
Handle
– номер сеанса.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если аргумент Handle не
корректен возникает ошибка 107 – неверный номер сеанса. Управление передается
обработчику ошибок. Выполнение запроса прекращается.
3. Освобождается вся память,
взятая для выполнения сеанса. После этого сеанс завершается.
В
эту группу запросов входят запросы позволяющие управлять положением текущего
указателя в текущей выборке.
Описание
запроса:
Pascal:
Function Íîìå( Handle : Integer ) : Logic;
C:
Logic Íîìå(Integer Handle)
Описание аргументов:
Handle – номер сеанса.
Назначение
– делает текущим первый пример текущей выборки.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если аргумент Handle
не корректен возникает ошибка 107 – неверный номер сеанса. Управление
передается обработчику ошибок. Выполнение запроса прекращается.
3. Указателю на текущий пример
присваивается значение «до первого примера»
4. Home := Next(Handle)
– результат выполнения запроса совпадает с результатом выполнения вызванного
запроса «Следующий»
Описание
запроса:
Pascal:
Function End( Handle : Integer ) : Logic;
C:
Logic End(Integer Handle)
Описание
аргументов:
Handle – номер сеанса.
Назначение
– делает текущим последний пример текущей выборки.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если аргумент Handle
не корректен возникает ошибка 107 – неверный номер сеанса. Управление
передается обработчику ошибок. Выполнение запроса прекращается.
3. Указателю на текущий пример
присваивается значение «после последнего примера»
4. Home := Prev(Handle)
– результат выполнения запроса совпадает с результатом выполнения вызванного
запроса «Предыдущий»
Описание
запроса:
Pascal:
Function Next( Handle : Integer ) : Logic;
C:
Logic Next(Integer Handle)
Описание аргументов:
Handle – номер сеанса.
Назначение
– делает текущим следующий пример текущей выборки.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если аргумент Handle
не корректен возникает ошибка 107 – неверный номер сеанса. Управление
передается обработчику ошибок. Выполнение запроса прекращается.
3. Если значение указателя
равно «после последнего примера», то возникает ошибка 108 – переход за конечную
границу текущей выборки, и управление передается обработчику ошибок. В случае
возврата управления в запрос, происходит немедленный выход из запроса с
возвращением значения ложь.
4. Если значение указателя
текущего примера равно «до первого примера», то присваиваем указателю адрес
первого примера задачника. Если адрес в переменной в задачнике нет примеров, то
возникает ошибка 108 – переход за конечную границу текущей выборки, и
управление передается обработчику ошибок. В случае возврата управления в
запрос, происходит немедленный выход из запроса с возвращением значения ложь. В
противном случае переходим к шагу 6
5. Указатель перемещается на
следующий пример задачника. Если следующего примера задачника нет, то указателю
присваивается значение «после последнего примера».
6. Переходим к шагу 5, если не
верно условие:
((GetColor Oper NewColor) And Last,
где Oper и NewColor
– аргументы запроса InitSession, которым был открыт данный сеанс.
7. Next := Not Last (Переход к
следующему примеру завершился удачно, если указатель не установлен в значение
«после последнего примера»).
Описание
запроса:
Pascal:
Function Prev( Handle : Integer ): Logic;
C:
Logic Prev(Integer Handle)
Описание
аргументов:
Handle
– номер сеанса.
Назначение
– делает текущим предыдущий пример текущей выборки.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если аргумент Handle не
корректен возникает ошибка 107 – неверный номер сеанса. Управление передается
обработчику ошибок. Выполнение запроса прекращается.
3. Если значение указателя
равно «до первого примера», то возникает ошибка 109 – переход за начальную
границу текущей выборки, и управление передается обработчику ошибок. В случае
возврата управления в запрос, происходит немедленный выход из запроса с
возвращением значения ложь.
4. Если значение указателя
равно «после последнего примера», то присваиваем указателю адрес последнего
примера задачника. Если в задачнике нет примеров, то возникает ошибка 109 –
переход за начальную границу текущей выборки, и управление передается обработчику
ошибок. В случае возврата управления в запрос, происходит немедленный выход из
запроса с возвращением значения ложь.
5. В противном случае шаг 7.
6. Указатель перемещается на
предыдущий пример задачника. Если предыдущего примера задачника нет, то
указателю присваивается значение «до первого примера».
7. Шаг 6 повторяется до тех
пор, пока не выполнится условие:
((GetColor Oper NewColor) And First
8. Next := Not Last (Переход к
следующему примеру завершился удачно, если указатель не установлен в значение
«после последнего примера»).
Описание
запроса:
Pascal:
Function Last( Handle : Integer ) : Logic;
C:
Logic Last(Integer Handle)
Описание
аргументов:
Handle
– номер сеанса.
Назначение
– возвращает значение истина, если текущим является состояние «после последнего
примера», и ложь – в противном случае.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если аргумент Handle
не корректен возникает ошибка 107 – неверный номер сеанса. Управление передается
обработчику ошибок. Выполнение запроса прекращается.
3. Возвращает значение истина,
если текущим является состояние «после последнего примера», и ложь – в
противном случае.
Описание
запроса:
Pascal:
Function First( Handle : Integer ): Logic;
C:
Logic First(Integer Handle)
Описание
аргументов:
Handle – номер сеанса.
Назначение
– возвращает значение истина, если текущим является состояние «перед первым
примером», и ложь в противном случае.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если аргумент Handle не
корректен возникает ошибка 107 – неверный номер сеанса. Управление передается
обработчику ошибок. Выполнение запроса прекращается.
3. Возвращает значение истина,
если текущим является состояние «перед первым примером», и ложь в противном случае.
Описание
запроса:
Pascal:
Function Example( Number : Long; Handle : Integer ) : Logic;
C:
Logic Example(Long Number, Integer Handle)
Описание аргументов:
Number – номер примера, который должен быть сделан
текущим. Нумерация примеров ведется с единицы.
Handle – номер сеанса.
Назначение
– делает текущим пример текущей выборки с указанным номером.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если аргумент Handle
не корректен возникает ошибка 107 – неверный номер сеанса. Управление
передается обработчику ошибок. Выполнение запроса прекращается.
3. Указатель устанавливается в
состояние «до первого примера».
4. Number
раз выполняем запрос Next.
5. Example
:= Not Last (Если не установлено
состояние «после последнего примера», то запрос выполнен успешно).
К
данной группе запросов относятся запросы позволяющие получать данные из задачника,
заносить данные в задачник и сбросить предобработку (необходимо выполнить
данный запрос после изменений в данных или предобработчике, если задачник
хранит векторы предобработанных данных)
Описание
запроса:
Pascal:
Function Get( Handle : Integer; Var Data : PRealArray; What : Integer )
: Logic;
C:
Logic Get(Integer Handle, PRealArray* Data, Integer What)
Описание
аргументов:
Handle – номер сеанса;
Data – указатель на массив, в котором должны быть
возвращены данныt;
What – одна из предопределенных констант tbColor,
tbInput, tbPrepared, tbAnswers, tbReliability, tbCalcAnswers, tbCalcReliability, tbWeight, tbEstimation, tbComment
Назначение
– возвращает указанную в запросе информацию.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если аргумент Handle не
корректен возникает ошибка 107 – неверный номер сеанса. Управление передается
обработчику ошибок. Выполнение запроса прекращается.
3. Если аргумент What
имеет недопустимое значение, то возникает ошибка 110 – неверный тип вектора в
запросе Get. Управление передается обработчику ошибок. Выполнение
запроса прекращается.
4. Если текущий указатель
указывает на одно из состояний «до первого примера» или «после последнего
примера», то возникает ошибка 111 – попытка чтения до или после текущей
выборки. Управление передается обработчику ошибок. Запрос завершается неуспешно.
5. Если в аргументе What
указан вектор предобработанных данных, но в текущем примере он отсутствует, то
генерируется запрос предобработать данные. Если предобработка завершается
успешно, то полученный вектор предобработанных данных включается в пример, в
противном случае выполнение запроса прекращается. Возвращается значение ложь.
6. В элементы массива, на
который указывает аргумент Data, копируются данные из того
вектора данных текущего примера, который указан в аргументе What.
Если требуемый вектор в задачнике отсутствует, то возникает ошибка 112 – данные
отсутствуют и запрос завершается со значением ложь. В противном случае запрос
успешно завершается.
Описание
запроса:
Pascal:
Function Put( Handle : Integer; Data : PRealArray; What : Integer ) :
Logic;
C:
Logic Put(Integer Handle, PRealArray Data, Integer What)
Описание
аргументов:
Handle
– номер сеанса
Data – указатель на массив, в котором переданы данные,
которые должны быть занесены в задачник.
What – одна из предопределенных констант tbColor,
tbInput, tbPrepared, tbAnswers, tbReliability, tbCalcAnswers, tbCalcReliability, tbWeight, tbEstimation, tbComment
Назначение
– обновить данные текущего примера
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если аргумент Handle
не корректен возникает ошибка 107 – неверный номер сеанса. Управление
передается обработчику ошибок. Выполнение запроса прекращается.
3. Если аргумент What
имеет недопустимое значение, то возникает ошибка 113 – неверный тип вектора в
запросе Put. Управление передается обработчику ошибок. Выполнение
запроса прекращается.
4. Если текущий указатель
указывает на одно из состояний «до первого примера» или «после последнего
примера», то возникает ошибка 111 – попытка чтения до или после текущей
выборки. Управление передается обработчику ошибок. Запрос завершается неуспешно.
5. Если устанавливается вектор
входных данных, то для текущего примера должен быть освобожден вектор
предобработанных данных.
6. В данные примера копируются
значения, указанные в массиве Data. Запрос успешно завершается.
Описание
запроса:
Pascal:
Procedure RemovePrepare;
C:
void RemovePrepare()
Назначение
– отмена предобработки всех ранее предобработанных примеров.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. У всех примеров задачника
освобождаются вектора предобработанных данных.
В
данный раздел помещены запросы для работы с цветами. Отметим, что цвет примера,
возвращаемый запросом GetColor можно получить также с помощью запроса Get.
Описание
запроса:
Pascal:
Function GetColor( Handle : Integer ) : Color;
C:
Logic GetColor(Integer Handle)
Описание
аргументов:
Handle – номер сеанса
Назначение
– возвращает цвет текущего примера.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если аргумент Handle
не корректен возникает ошибка 107 – неверный номер сеанса. Управление
передается обработчику ошибок. Выполнение запроса прекращается.
3. Если текущий указатель
указывает на одно из состояний «до первого примера» или «после последнего
примера», то возникает ошибка 111 – попытка чтения до или после текущей
выборки. Управление передается обработчику ошибок. Запрос завершается неуспешно.
4. Возвращается цвет текущего
примера.
Описание
запроса:
Pascal:
Function PaintCurrent( Handle : Integer; NewColor, ColorMask : Color;
Oper : Integer) : Logic;
C:
Logic PaintCurrent(Integer Handle, Color NewColor, Color ColorMask,
Integer Oper)
Описание
аргументов:
Handle – номер сеанса.
NewColor
– новый цвет для окраски примера.
ColorMask
– маска цвета для окраски примера.
Oper – операция, используемая при окраске примера.
Должна быть одной из констант COr, CAnd, CXor, CNot.
Назначение
– изменяет цвет текущего примера.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если аргумент Handle
не корректен возникает ошибка 107 – неверный номер сеанса. Управление
передается обработчику ошибок. Выполнение запроса прекращается.
3. Если Oper не корректен, то
возникает ошибка 114 – неверная операция окраски примера. Управление передается
обработчику ошибок. Запрос завершается со значением ложь.
4. Новый цвет примера :=
(Старый цвет примера And ColorMask) Oper NewColor
В
табл. 1 приведен полный список ошибок, которые могут возникать при выполнении
запросов компонентом задачник, и действия стандартного обработчика ошибок.
Таблица 1.
Ошибки компонента задачник и
действия стандартного обработчика ошибок.
№ |
Название ошибки |
Стандартная обработка |
101 |
Запрос при отсутствии задачника |
Занесение номера в Error |
102 |
Ошибка чтения задачника |
Занесение номера в Error |
103 |
Ошибка записи задачника |
Занесение номера в Error |
104 |
Попытка считывания задачника при открытых сеансах ранее считанного задачника |
Занесение номера в Error |
105 |
Закрытие задачника при открытых сеансах |
Занесение номера в Error |
106 |
Недопустимый код операции при открытии сеанса |
Занесение номера в Error |
107 |
Неверный номер сеанса |
Занесение номера в Error |
108 |
Переход за конечную границу текущей выборки |
Игнорируется |
109 |
Переход за начальную границу текущей выборки |
Игнорируется |
110 |
Неверный тип вектора в запросе Get |
Занесение номера в Error |
111 |
Попытка чтения до или после текущей выборки |
Занесение номера в Error |
112 |
Данные отсутствуют |
Игнорируется |
113 |
Неверный тип вектора в запросе Put |
Занесение номера в Error |
114 |
Неверная операция окраски примера |
Занесение номера в Error |
Данная
глава посвящена компоненту предобработчик [80, 150]. В ней рассматриваются
различные аспекты предобработки входных данных для нейронных сетей. Существует
множество различных видов нейронных сетей (см. главу «Описание нейронных
сетей»). Однако, для большинства нейронных сетей характерно наличие такого
интервала входных сигналов, в пределах которого сигналы различимы. Для
различных нейронных сетей эти интервалы различны. Большинство работающих с
нейронными сетями прекрасно осведомлены об этом их свойстве, но до сих пор не
предпринималось никаких попыток как-либо формализовать или унифицировать подходы
к предобработке входных сигналов. В данной главе дан один из возможных
формализмов этой задачи. За рамками рассмотрения осталась предобработка
графической информации. Наиболее мощные и интересные способы предобработки
графической информации описаны в [67, 94, 276]. При аппаратной реализации
нейрокомпьютера, компонент предобработчик также следует реализовывать аппаратно,
поскольку вне зависимости от источника входных данных их надо обрабатывать одинаково.
К тому же большинство предобработчиков допускают простую аппаратную реализацию.
В
этой главе будут описаны различные виды входных сигналов и способы их предобработки.
В качестве примера будут рассмотрены сети с сигмоидными нелинейными
преобразователями. Однако, описываемые способы предобработки применимы для
сетей с произвольными нелинейными преобразователями. Единственным исключением
является раздел «Оценка способности сети решить задачу», который применим
только для сетей с нелинейными преобразователями, непрерывно зависящими от своих
аргументов.
Наиболее
важным в данной являются следующее.
·
При предобработке качественных признаков не следует вносить недостоверную
информацию.
·
Сформулирована мера сложности нейросетевой задачи.
·
Выборочная оценка константы Липшица и оценка константы Липшица
нейронной сети позволяют легко оценить способность нейронной сети решить
поставленную задачу. Эти легко реализуемые процедуры позволяют сэкономить время
и силы.
·
Правильно выбранная предобработка упрощает нейросетевую задачу.
Материал
данной главы основан на анализе различных методов обработки данных [4, 5, 143,
158, 160, 162, 187, 228, 232 – 235, 326, 332], различных типов данных [3, 6,
20, 139, 140, 158, 177, 184, 223] и специфике нейросетевой обработки данных.
Нейроны,
используемые в большинстве нейронных сетей, имеют структуру, приведенную на
рис. 1. На рис. 1 использованы следующие обозначения:
|
– вектор входных
сигналов нейрона;
– вектор синаптических
весов нейрона;
– входной сумматор
нейрона;
– функциональный
преобразователь;
– выходной сигнал нейрона.
– выходной сигнал
входного сумматора;
Обычно
нейронные сети называют по виду функции . Хорошо известны и наиболее часто используются два вида сигмоидных
сетей:
где c - параметр, называемый «характеристикой
нейрона». Обе функции имеют похожие графики.
Каждому
типу нейрона соответствует свой интервал приемлемых входных данных. Как
правило, этот диапазон либо совпадает с диапазоном выдаваемых выходных сигналов
(например для сигмоидных нейронов с функцией ), либо является объединением диапазона выдаваемых выходных
сигналов и отрезка, симметричного ему относительно нуля (например, для
сигмоидных нейронов с функцией ), Этот диапазон будем обозначать как
Очевидно,
что входные данные должны быть различимы. В данном разделе будут приведены
соображения, исходя из которых, следует выбирать диапазон входных данных. Пусть
одним из входных параметров нейронной сети является температура в градусах
Кельвина. Если речь идет о температурах близких к нормальной, то входные
сигналы изменяются от 250 до 300 градусов. Пусть сигнал подается прямо на
нейрон (синаптический вес равен единице). Выходные сигналы нейронов с
различными параметрами приведены в табл. 1.
Таблица 1
Входной |
Нейрон типа |
Нейрон типа |
||||||
сигнал |
|
|
|
|
|
|
|
|
250 |
1.0 |
1.0 |
1.0 |
1.0 |
0.99960 |
0.99800 |
0.99602 |
0.99206 |
275 |
1.0 |
1.0 |
1.0 |
1.0 |
0.99964 |
0.99819 |
0.99638 |
0.99278 |
300 |
1.0 |
1.0 |
1.0 |
1.0 |
0.99967 |
0.99834 |
0.99668 |
0.99338 |
Совершенно
очевидно, что нейронная сеть просто неспособна научиться надежно различать эти
сигналы (если вообще способна научиться их различать!). Если использовать
нейроны с входными синапсами, не равными единице, то нейронная сеть сможет отмасштабировать
входные сигналы так, чтобы они стали различимы, но при этом будет задействована
только часть диапазона приемлемых входных данных - все входные сигналы будут
иметь один знак. Кроме того, все подаваемые сигналы будут занимать лишь малую
часть этого диапазона. Например, если мы отмасштабируем температуры так, чтобы
300 соответствовала величина суммарного входного сигнала равная 1 (величина
входного синапса равна 1/300), то реально подаваемые сигналы займут лишь одну
шестую часть интервала [0,1] и одну двенадцатую интервала [-1,1]. Получаемые
при этом при этом величины выходных сигналов нейронов приведены в табл. 2.
Таблица 2
Входной |
Нейрон типа |
Нейрон типа |
||||||
сигнал |
|
|
|
|
|
|
|
|
250 (0.83) |
0.52074 |
0.60229 |
0.69636 |
0.84024 |
0.89286 |
0.62500 |
0.45455 |
0.29412 |
275 (0.91) |
0.52273 |
0.61183 |
0.71300 |
0.86057 |
0.90164 |
0.64706 |
0.47826 |
0.31429 |
300 (1.0) |
0.52498 |
0.62246 |
0.73106 |
0.88080 |
0.90909 |
0.66667 |
0.50000 |
0.33333 |
Сигналы,
приведенные в табл. 2 различаются намного сильнее соответствующих сигналов из
табл. 1. Таким образом, необходимо заранее позаботиться о масштабировании и
сдвиге сигналов, чтобы максимально полно использовать диапазон приемлемых
входных сигналов. Опыт использования нейронных сетей с входными синапсами
свидетельствует о том, что в подавляющем большинстве случаев предварительное
масштабирование и сдвиг входных сигналов сильно облегчает обучение нейронных
сетей. Если заранее произвести операции масштабирования и сдвига входных
сигналов, то величины выходных сигналов нейронов даже при отсутствии входных
синапсов будут различаться еще сильнее (см. табл. 3).
Таблица 3
Входной |
Нейрон типа |
Нейрон типа |
||||||
Сигнал |
|
|
|
|
|
|
|
|
250 (-1) |
0.47502 |
0.37754 |
0.26894 |
0.11920 |
-0.9091 |
-0.6667 |
-0.5000 |
-0.3333 |
275 (0) |
0.50000 |
0.50000 |
0.50000 |
0.50000 |
0.0000 |
0.0000 |
0.0000 |
0.0000 |
300 (1) |
0.52498 |
0.62246 |
0.73106 |
0.88080 |
0.9091 |
0.6667 |
0.5000 |
0.3333 |
Величину
диапазона различимых входных сигналов можно определять различными способами. На
практике в качестве диапазона различимых входных сигналов обычно используется
диапазон приемлемых входных данных, исходя из того соображения, что если данные
из этого интервала хороши для промежуточных нейронов, то они хороши и для
входных.
Другой
способ определения различимости входных сигналов приведен в разделе «Оценка способности
сети решить задачу».
Информация
поступает к нейронной сети в виде набора ответов на некоторый список вопросов.
Можно выделить три основных типа ответов (вопросов).
1. Бинарный признак (возможен
только один из ответов – истина или ложь).
2. Качественный признак
(принимает конечное число значений).
3. Число.
Ответ
типа качественный признак - это ответ с конечным числом состояний. Причем
нельзя ввести осмысленное расстояние между состояниями. Примером качественного
признака может служить состояние больного - тяжелый, средний, легкий.
Действительно, нельзя сказать, что расстояние от легкого больного до среднего
больше, меньше или равно расстоянию от среднего больного до тяжелого. Все
качественные признаки можно в свою очередь разбить на три класса.
1. Упорядоченные признаки.
2. Неупорядоченные признаки.
3. Частично упорядоченные
признаки.
Упорядоченным
признаком называется такой признак, для любых двух состояний которого можно
сказать, что одно из них предшествует другому. Тот факт, что состояние предшествует состоянию
, будем обозначать следующим образом – .
Примером упорядоченного признака может служить состояние больного.
Действительно, все состояния можно упорядочить по тяжести заболевания:
легкий больной < средний
больной < тяжелый больной
Признак
называют неупорядоченным, если никакие два состояния нельзя связать естественным
в контексте задачи отношением порядка. Примером неупорядоченного признака может
служить ответ на вопрос "Ваш любимый цвет?".
Признак
называется частично упорядоченным, если для каждого состояния существует другое
состояние, с которым оно связано отношением порядка. Примером частично
упорядоченного признака является ответ на вопрос "Какой цвет Вы видите на
экране монитора?", преследующий цель определение восприимчивости к
интенсивностям основных цветов. Действительно, все множество из шестнадцати
состояний разбивается на несколько цепочек:
Черный < Синий < Голубой < Белый;
Черный < Красный < Ярко красный <
Белый;
Черный < Зеленый < Ярко зеленый <
Белый;
Черный < Фиолетовый < Ярко фиолетовый
< Белый
и т.д. Однако, между состояниями Синий и Красный
отношения порядка нет.
Известно,
что любой частично упорядоченный признак можно представить в виде комбинации
нескольких упорядоченных и неупорядоченных признаков. Так, рассмотренный выше частично
упорядоченный признак распадается на три упорядоченных признака: интенсивность
синего, красного и зеленого цветов. Каждый из этих признаков является упорядоченным
(цепочки порядка для этих признаков приведены в первых трех строчках
рассмотрения примера). Каждое состояние исходного качественного признака
описывается тройкой состояний полученных качественных признаков. Так, например,
состояние Фиолетовый описывается в виде (Синий, Красный, Черный).
Исходя
из вышесказанного, далее будет рассмотрено только кодирование упорядоченных и
неупорядоченных признаков.
Впервые
вопросы кодирования качественных признаков для нейронных сетей были рассмотрены
в работах [76, 152].
Бинарные
признаки характеризуются наличием только двух состояний – истина и ложь. Однако
даже такие простые данные могут иметь два разных смысла. Значение истина
означает наличие у описываемого объекта какого-либо свойства. А ответ ложь
может означать либо отсутствие этого свойства, либо наличие другого свойства. В
зависимости от смысловой нагрузки значения ложь, и учитывая заданный диапазон, рекомендуемые способы кодирования бинарного признака
приведены в табл. 4.
Таблица 4
Кодирование бинарного
признака
Смысл значения ложь |
Величина входного сигнала |
|
Истина |
Ложь |
|
Отсутствие заданного свойства при |
|
|
Отсутствие заданного свойства при |
|
|
Наличие другого свойства |
|
|
Таблица 5. Кодирование неупорядоченного качественного признака
|
Поскольку
никакие два состояния неупорядоченного признака не связаны отношением порядка,
то было бы неразумным кодировать их разными величинами одного входного сигнала
нейронной сети. Поэтому, для кодирования качественных признаков рекомендуется
использовать столько входных сигналов, сколько состояний у этого качественного
признака. Каждый входной сигнал соответствует определенному состоянию. Так если
набор всех состояний рассматриваемого признака обозначить через , то рекомендуемая таблица кодировки имеет вид, приведенный в
табл. 5.
Таблица 6. Кодирование упорядоченного качественного признака
|
Упорядоченные
качественные признаки, в отличие от неупорядоченных, имеют отношение порядка
между состояниями. Однако кодирование их разными значениями одного входного
сигнала неразумно из-за того, что расстояние между состояниями не определено, а
такое кодирование эти расстояния задает явным образом. Поэтому, упорядоченные
качественные признаки рекомендуется кодировать в виде стольких входных
сигналов, сколько состояний у признака. Но, в отличие от неупорядоченных
признаков, накапливать число сигналов с максимальным значением. Для случая,
когда все состояния обозначены через , рекомендуемая таблица кодировки приведена в табл. 6.
При
предобработке численных сигналов необходимо учитывать содержательное значение
признака, расположение значений признака в интервале значений, точность измерения
значений признака. Продемонстрируем это на примерах.
Содержательное значение
признака.
Если входными данными сети является угол между двумя направлениями, например,
направление ветра, то ни в коем случае не следует подавать на вход сети
значение угла (не важно в градусах или радианах). Такая подача приведет к
необходимости "уяснения" сетью того факта, что 0 градусов и 360
градусов одно и тоже. Разумнее выглядит подача в качестве входных данных синуса
и косинуса этого угла. Число входных сигналов сети увеличивается, но зато
близкие значения признака кодируются близкими входными сигналами.
Точность измерения признака. Так в метеорологии
используется всего восемь направлений ветра. Значит, при подаче входного
сигнала сети необходимо подавать не угол, а всего лишь информацию о том, в
какой из восьми секторов этот угол попадает. Но тогда имеет смысл рассматривать
направление ветра не как числовой параметр, а как неупорядоченный качественный
признак с восемью состояниями.
Расположение значений
признака в интервале значений. Следует рассмотреть вопрос о равнозначности
изменения значения признака на некоторую величину в разных частях интервала
значений признака. Как правило, это связано с косвенными измерениями (вместо
одной величины измеряется другая). Например, сила притяжения двух небесных тел
при условии постоянства массы однозначно
характеризуется расстоянием между ними. Пусть рассматриваются расстояния от 1
до 100 метров. Легко понять, что при изменении расстояния с 1 до 2 метров, сила
притяжения изменится в четыре раза, а при изменении с 99 до 100 метров – в 1.02
раза. Следовательно, вместо подачи расстояния следует подавать обратный квадрат
расстояния .
Как
уже отмечалось в разделе «Различимость входных данных» числовые сигналы
рекомендуется масштабировать и сдвигать так, чтобы весь диапазон значений
попадал в диапазон приемлемых входных сигналов. Эта предобработка проста и задается
следующей формулой:
, (1)
где - диапазон приемлемых
входных сигналов, – диапазон значений признака
, – предобработанный
сигнал, который будет подан на вход сети. Предобработку входного сигнала по
формуле (1) будем называть простейшей предобработкой.
В
данном разделе рассматриваются только сети, все элементы которых непрерывно
зависят от своих аргументов (см. главу «Описание нейронных сетей»). Предполагается,
что все входные данные предобработаны так, что все входные сигналы сети лежат в
диапазоне приемлемых входных сигналов. Будем обозначать вектора входных сигналов через , а требуемые ответы сети через . Компоненты векторов будем обозначать нижним индексом,
например, компоненты входного вектора через . Будем полагать, что в каждом примере ответ является
вектором чисел из диапазона приемлемых сигналов. В случае обучения сети задаче классификации требуемый ответ
зависит от вида используемого интерпретатора ответа (см. главу «Оценка и
Интерпретатор ответа»).
Нейронная
сеть вычисляет некоторую вектор-функцию от входных сигналов.
Эта функция зависит от параметров сети. Обучение сети состоит в подборе такого
набора параметров сети, чтобы величина была минимальной (в
идеале равна нулю). Для того чтобы нейронная сеть могла хорошо приблизить
заданную таблично функцию необходимо, чтобы реализуемая
сетью функция при изменении входных
сигналов с на могла изменить
значение с на . Очевидно, что наиболее трудным для сети должно быть
приближение функции в точках, в которых при малом изменении входных сигналов
происходит большое изменение значения функции. Таким образом, наибольшую
сложность будет представлять приближение функции в точках, в которых
достигает максимума выражение . Для аналитически заданных функций величина называется константой
Липшица. Исходя из этих соображения можно дать следующее определение сложности
задачи.
Сложность
аппроксимации таблично заданной функции , которая в точках принимает значения , задается выборочной оценкой константы Липшица, вычисляемой
по следующей формуле:
(2)
Оценка
(2) является оценкой константы Липшица аппроксимируемой функции снизу.
Для
того, чтобы оценить способность сети заданной конфигурации решить задачу,
необходимо оценить константу Липшица сети и сравнить ее с выборочной оценкой
(2). Константа Липшица сети вычисляется по следующей формуле:
(3)
В
формулах (2) и (3) можно использовать произвольные нормы. Однако для нейронных
сетей наиболее удобной является евклидова норма. Далее везде используется
евклидова норма.
В
следующем разделе описан способ вычисления оценки константы Липшица сети (3)
сверху. Очевидно, что в случае сеть принципиально не
способна решить задачу аппроксимации функции .
Оценку
константы Липшица сети будем строить в соответствии с принципом иерархического
устройства сети, описанным в главе «Описание нейронных сетей». При этом потребуются
следующие правила.
1. Для композиции функций константа Липшица оценивается
как произведение констант Липшица:
. (4)
2. Для вектор-функции константа Липшица
равна:
. (5)
Для
непрерывных функций константа Липшица является максимумом производной в
направлении по всем точкам и всем
направлениям. При этом вектор направления имеет единичную длину: . Напомним формулу производной функции в направлении :
(6)
Обозначим
входной сигнал синапса через , а синаптический вес через . Тогда выходной сигнал синапса равен . Поскольку синапс является функцией одной переменной,
константа Липшица равна максимуму модуля производной – модулю синаптического
веса:
(7).
Обозначим входные сигналы умножителя через . Тогда выходной сигнал умножителя равен . Используя (6) получаем . Выражение является скалярным
произведением векторов и, учитывая единичную
длину вектора , достигает максимума, когда эти векторы сонаправлены. То
есть при векторе
.
Используя это выражение, можно записать константу
Липшица для умножителя:
. (8)
Если входные сигналы умножителя принадлежат
интервалу , то константа Липшица для умножителя может быть записана в
следующем виде:
. (9)
Поскольку
в точке ветвления не происходит преобразования сигнала, то константа Липшица
для нее равна единице.
Производная
суммы по любому из слагаемых равна единице. В соответствии с (6) получаем:
, (10)
поскольку максимум суммы при ограничении на сумму
квадратов достигается при одинаковых слагаемых.
Нелинейный Паде преобразователь или Паде элемент
имеет два входных сигнала и один выходной. Обозначим входные сигналы через . Используя (6) можно записать константу Липшица в следующем
виде:
.
Знаменатель выражения под знаком модуля не зависит
от направления, а числитель можно преобразовать так же, как и для умножителя. После
преобразования получаем:
(11)
Нелинейный сигмоидный преобразователь, как и любой
другой нелинейный преобразователь, имеющий один входной сигнал , имеет константу Липшица равную максимуму модуля производной:
. (12)
Для
адаптивного сумматора на входов оценка
константы Липшица, получаемая через представление его в виде суперпозиции слоя
синапсов и простого сумматора, вычисляется следующим образом. Используя формулу
(7) для синапсов и правило (5) для вектор-функции получаем следующую оценку
константы Липшица слоя синапсов:
.
Используя
правило (4) для суперпозиции функций и оценку константы Липшица для простого
сумматора (10) получаем:
. (13)
Однако,
если оценить константу Липшица адаптивного сумматора напрямую, то, используя
(6) и тот факт, что при фиксированных длинах векторов скалярное произведение
достигает максимума для сонаправленных векторов получаем:
. (14)
Очевидно,
что оценка (14) точнее, чем оценка (13).
Рассмотрим
слоистую сигмоидную сеть со следующими свойствами:
1. Число входных сигналов – .
2. Число нейронов в -м слое – .
3. Каждый нейрон первого слоя
получает все входные сигналы, а каждый нейрон любого другого слоя получает
сигналы всех нейронов предыдущего слоя.
4. Все нейроны всех слоев имеют
вид, приведенный на рис. 1 и имеют одинаковую характеристику.
5. Все синаптические веса
ограничены по модулю единицей.
6. В сети слоев.
В
этом случае, учитывая формулы (4), (5), (12) и (14) константу Липшица -о слоя можно оценить следующей величиной:
.
Используя
формулу (4) получаем оценку константы Липшица всей сети:
.
Если
используется нейроны типа , то и оценка константы Липшица
сети равна:
Для
нейронов типа , то и оценка константы
Липшица сети равна:
Обе
формулы подтверждают экспериментально установленный факт, что чем круче
характеристическая функция нейрона, тем более сложные функции (функции с
большей константой Липшица) может аппроксимировать сеть с такими нейронами.
При
обучении нейронных сетей иногда возникают ситуации, когда дальнейшее обучение
нейронной сети невозможно. В этом случае необходимо проанализировать причины.
Возможно несколько видов анализа. Одной из возможных причин является высокая
сложность задачи, определяемая как выборочная оценка константы Липшица.
Для
упрощения задачи необходимо уменьшить выборочную оценку константы Липшица.
Наиболее простой способ добиться этого – увеличить расстояние между входными
сигналами. Рассмотрим пару примеров – , – таких, что . Определим среди координат векторов и координату, в которой
достигает минимума величина , исключив из рассмотрения совпадающие координаты. Очевидно,
что эта координата является «узким местом», определяющим сложность задачи.
Следовательно, для уменьшения сложности задачи требуется увеличить расстояние
между векторами и , а наиболее перспективной координатой для этого является -я. Однако увеличение расстояние между и не всегда осмыслено.
Дело в том, что все параметры, как правило, измеряются с конечной точностью.
Поэтому, если величина меньше чем точность
измерения -го параметра, значения и можно считать
совпадающими. Таким образом, для изменения масштаба надо выбирать тот из входных
параметров, для которого значение минимально, но превышает
точность измерения этого параметра.
Таблица 7. Кодирование параметра после разбиения на два сигнала
|
Предположим,
что все входные параметры предобработаны в соответствии с формулой (1). Перенумеруем
примеры обучающего множества так, чтобы были верны следующие неравенства: , где – число примеров в
обучающем множестве. При этом, возможно, придется исключить ряд пар параметр-ответ
с совпадающими значениями параметра. Если в какой-либо из таких пар значения
ответов различаются, то это снижает возможную полезность данной процедуры.
Наиболее
простой путь – разбить диапазон -го параметра на два. Зададимся точкой . Будем кодировать -й параметр двумя входными сигналами в соответствии с табл.
7. При таком кодировании константа Липшица, очевидно, уменьшится. Вопрос о
выборе точки может решаться
по-разному. Простейший путь – положить . Более сложный, но часто более эффективный – подбор исходя из требования
минимальности константы Липшица.
Приведенный
выше способ уменьшения константы Липшица не единственный. В следующем разделе
рассмотрен ряд способов предобработки, решающих ту же задачу.
В
данном разделе будет рассмотрено три вида предобработки числовых признаков –
модулярный, позиционный и функциональный. Основная идея этих методов предобработки
состоит в том, чтобы сделать значимыми малые отличия больших величин. Действительно,
пусть для ответа существенно изменение величины признака на единицу при значении
признака порядка миллиона. Очевидно, что простейшая предобработка (1) сделает отличие
в единицу неразличимым для нейронной сети при абсолютных значениях порядка
миллиона.
Все
эти виды предобработки обладают одним общим свойством – за счет кодирования
входного признака несколькими сигналами они уменьшают сложность задачи (константу
Липшица).
Зададимся
некоторым набором положительных чисел . Определим сравнение по модулю для действительных чисел
следующим образом:
, (15)
где – функция, вычисляющая
целую часть величины путем отбрасывания
дробной части. Очевидно, что величина лежит в интервале . Кодирование входного признака при модулярной предобработке
вектором производится по
следующей формуле:
. (16)
Однако
модулярная предобработка обладает одним отрицательным свойством – во всех
случаях, когда , при целом , разрушается отношение предшествования чисел. В табл. 8
приведен пример векторов. Поэтому, модульная предобработка пригодна при
предобработке тех признаков, у которых важна не абсолютная величина, а
взаимоотношение этой величины с величинами . Примером такого признака может служить угол между
векторами, если в качестве величин выбрать .
Таблица 8. Пример сигналов при модулярном вводе
|
Функциональная
предобработка преследует единственную цель – снижение константы Липшица задачи.
В разделе «Предобработка, облегчающая обучение», был приведен пример такой
предобработки. Рассмотрим общий случай функциональной предобработки, отображающих
входной признак в -мерный вектор . Зададимся набором из чисел, удовлетворяющих
следующим условиям: . Пусть – функция, определенная
на интервале , а – минимальное и максимальное
значения функции на этом интервале.
Тогда -я координата вектора вычисляется по
следующей формуле:
(17)
Линейная предобработка. В линейной предобработке
используется кусочно линейная функция:
(18)
Таблица 9 Пример функциональной предобработки числового
признака , при условии, что сигналы нейронов принадлежат интервалу . В сигмоидной предобработке использована , а в шапочной – . Были выбраны четыре точки.
|
Графики
функций представлены на рис.
2а. Видно, что с увеличением значения признака ни одна функция не убывает,
а их сумма возрастает. В табл. 9 представлены значения этих функций для двух точек:
и .
Сигмоидная предобработка. В сигмоидной предобработке
может использоваться любая сигмоидная функция. Если в качестве сигмоидной
функции использовать функцию , приведенную в разделе «Нейрон» этой главы, то формула (17)
примет следующий вид:
.
Графики
функций представлены на рис.
2б. Видно, что с увеличением значения признака ни одна функция не
убывает, а их сумма возрастает. В табл. 9 представлены значения этих функций
для двух точек .
Шапочная предобработка. Для шапочной предобработки
используются любые функции, имеющие график в виде «шапочки». Например, функция . Графики функций представлены на рис.
2в. Видно, что с увеличением значения признака ни одна из функций , ни их сумма не ведут себя монотонно. В табл. 9 представлены
значения этих функций для двух точек .
|
Основная
идея позиционной предобработки совпадает с принципом построения позиционных
систем счисления. Зададимся положительной величиной такой, что . Сдвинем признак так, чтобы он принимал
только неотрицательные значения. В качестве сигналов сети будем использовать
результат простейшей предобработки -ичных цифр представления сдвинутого признака . Формулы вычисления цифр приведены ниже:
(19)
где операция сравнения по модулю действительного
числа определена в (15). Входные сигналы сети получаются из компонентов вектора
путем простейшей предобработки.
Поскольку
на вход нейронной сети обычно подается несколько входных сигналов, каждый из
которых обрабатывается своим предобработчиком, то предобработчик должен быть
составным. Представим предобработчик в виде совокупности независимых частных
предобработчиков. Каждый частный предобработчик обрабатывает одно или несколько
тесно связанных входных данных. Как уже отмечалось ранее, предобработчик может
иметь один из четырех типов, приведенных в табл. 10. На входе предобработчик
получает вектор входных данных (возможно, состоящий из одного элемента), а на
выходе выдает вектор входных сигналов сети (так же возможно состоящий из одного
элемента).
Таблица 10. Типы предобработчиков |
Тип |
Описание |
Number |
Предобрабатывает числовые входные данные |
Unordered |
Предобрабатывает неупорядоченные качественные признаки |
Ordered |
Предобрабатывает упорядоченные качественные признаки |
Binary |
Обрабатывает бинарные признаки |
Необходимость
передачи предобработчику вектора входных данных и получения от него вектора
входных сигналов связана с тем, что существуют предобработчики получающие
несколько входных данных и выдающие несколько входных сигналов. Примером такого
предобработчика может служить предобработчик, переводящий набор координат
планеты из сферической в декартову.
Для
качественных признаков принято кодирование длинными целыми числами. Первое
значение равно 1, второе – 2 и т.д. Числовые признаки кодируются действительными
числами.
Запросы
к компоненту предобработчик можно разбить на пять групп:
1. Предобработка.
2. Изменение параметров.
3. Работа со структурой.
4. Инициация редактора
предобработчика.
5. Обработка ошибок.
Поскольку
нейрокомпьютер может работать одновременно с несколькими сетями, то и компонент
предобработчик должна иметь возможность одновременной работы с несколькими
предобработчиками. Поэтому большинство запросов к предобработчику содержат
явное указание имени предобработчика. Ниже приведено описание всех запросов к
компоненту предобработчик. Каждый запрос является логической функцией, возвращающей
значение истина, если запрос выполнен успешно, и ложь – при ошибочном завершении
исполнения запроса.
В
запросах второй и третьей группы при обращении к частным предобработчикам используется
следующий синтаксис:
<Полное имя частного
предобработчика> ::= <Имя предобработчика>.
<Псевдоним частного
предобработчика> [[<Номер экземпляра>]]
При
вызове ряда запросов используются предопределенные константы. Их значения
приведены в табл. 11.
Таблица 11.
Значения
предопределенных констант компонента предобработчик
Название |
Значение |
Значение |
BinaryPrep |
0 |
Стандартный предобработчик бинарных признаков |
UnOrdered |
1 |
Стандартный предобработчик неупорядоченных качественных признаков |
Ordered |
2 |
Стандартный предобработчик упорядоченных качественных признаков. |
EmptyPrep |
3 |
Стандартный простейший предобработчик |
ModPrep |
4 |
Стандартный модулярный предобработчик |
FuncPrep |
5 |
Стандартный функциональный предобработчик |
PositPrep |
6 |
Стандартный позиционный предобработчик |
UserType |
-1 |
Предобработчик,
определенный пользователем. |
Единственный
запрос первой группы выполняет основную функцию компонента предобработчик –
предобрабатывает входные данные, вычисляя вектор входных сигналов.
Описание
запроса:
Pascal:
Function Prepare(CompName : PString; Data : PRealArray; Var Signals :
PRealArray) : Logic;
C:
Logic Prepare(PString CompName, PRealArray Data; PRealArray* Signals)
Описание
аргумента:
CompName – указатель на строку символов, содержащую имя предобработчика.
Data – массив входных данных.
Signals
– вычисляемый массив входных сигналов.
Назначение
– предобрабатывает массив входных данных Data, вычисляя массив входных
сигналов Signals используя предобработчик, указанный в параметре CompName.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в качестве аргумента CompName
дан пустой указатель, или указатель на пустую строку, то исполняющим запрос
объектом является текущий предобработчик – первый в списке предобработчиков компонента
предобработчик.
3. Если список предобработчиков
компонента предобработчик пуст или имя предобработчика, переданное в аргументе CompName
в этом списке не найдено, то возникает ошибка 201 – неверное имя предобработчика,
управление передается обработчику ошибок, а обработка запроса прекращается.
4. Производится предобработка
предобработчиком, имя которого было указано в аргументе CompName.
5. Если во время выполнения
запроса возникает ошибка, то генерируется внутренняя ошибка 204 - ошибка
предобработки. Управление передается обработчику ошибок. Выполнение запроса
прекращается. В противном случае выполнение запроса успешно завершается.
Ниже
приведен список запросов к компоненту предобработчик, исполнение которых
описано в разделе «Запросы общие для всех компонентов»:
prSetCurrent – Сделать предобработчик текущим
prAdd – Добавление нового предобработчика
prDelete – Удаление предобработчика
prWrite – Запись предобработчика
prGetStructNames – Вернуть имена
структурных единиц предобработчика
prGetType – Вернуть тип структурной единицы
предобработчика
prGetData – Получить параметры предобработчика
prGetName – Получить имена
параметров предобработчика
prSetData – Установить параметры
предобработчика
prEdit – Редактировать предобработчик
OnError
– Установить обработчик ошибок
GetError
– Дать номер ошибки
FreeMemory
– Освободить память
В
запросе prGetType в
переменной TypeId возвращается значение одной из предопределенных констант,
перечисленных в табл. 11.
В табл. 12 приведен полный список ошибок,
которые могут возникать при выполнении запросов компонентом предобработчик, и
действия стандартного обработчика ошибок.
Таблица 12.
Ошибки компонента
предобработчик и действия стандартного обработчика ошибок.
№ |
Название ошибки |
Стандартная обработка |
201 |
Неверное имя предобработчика |
Занесение номера в Error |
202 |
Ошибка считывания предобработчика |
Занесение номера в Error |
203 |
Ошибка сохранения предобработчика |
Занесение номера в Error |
204 |
Ошибка предобработки |
Занесение номера в Error |
В
первой части этой главы описана система построения сетей из элементов. Описаны
прямое и обратное функционирование сетей и составляющих их элементов. Приведены
три метода построения двойственных сетей и обоснован выбор самодвойственных
сетей. Во второй части приведены примеры различных парадигм нейронных сетей,
описанные в соответствии с предложенной в первой части главы методикой.
Как
уже говорилось в первой главе, на данный момент в нейросетевом сообществе
принято описывать архитектуру нейронных сетей в неразрывном единстве с методами
их обучения. Эта связь не является естественной. Так, в первой части этой главы
будет рассматриваться только архитектура нейронных сетей. Во второй части будет
продемонстрирована независимость ряда методов обучения нейронных сетей от их
архитектуры. Однако, для удобства, во второй части главы архитектуры всех
парадигм нейронных сетей будут описаны вместе с методами обучения.
Нейронные
сети можно классифицировать по разным признакам. Для описания нейронных сетей в
данной главе существенной является классификация по типу времени
функционирования сетей. По этому признаку сети можно разбить на три класса.
1. Сети с непрерывным временем.
2. Сети с дискретным
асинхронным временем.
3. Сети с дискретным временем,
функционирующие синхронно.
В
данной работе рассматриваются только сети третьего вида, то есть сети, в
которых все элементы каждого слоя срабатывают одновременно и затем передают
свои сигналы нейронам следующего слоя.
Впервые
последовательное описание конструирования нейронных сетей из элементов было
предложено в книге А.Н. Горбаня [65]. Однако за прошедшее время предложенный
А.Н. Горбанем способ конструирования претерпел ряд изменений.
При
описании нейронных сетей принято оперировать такими терминами, как нейрон и
слой. Однако, при сравнении работ разных авторов (например, [2. 25, 26, 30, 31,
33, 37, 45, 65, 66, 83, 122, 123, 126, 138, 145 – 147, 159, 182, 220, 221, 226,
227, 230, 231, 239, 248, 250, 264, 273 – 275, 280, 309, 312, 313, 338, 341,
345, 365, 367, 377]) выясняется, что если слоем все авторы называют
приблизительно одинаковые структуры, то нейроны разных авторов совершенно
различны. Таким образом, единообразное описание нейронных сетей на уровне нейронов
невозможна. Однако, возможно построение единообразного описания на уровне
составляющих нейроны элементов и процедур конструирования сложных сетей из простых.
|
На рис. 1 приведены все элементы, необходимые для построения нейронных сетей. Естественно, что возможно расширение списка нелинейных преобразователей. Однако, это единственный вид элементов, который может дополняться. Вертикальными стрелками обозначены входы параметров (для синапса – синаптических весов или весов связей), а горизонтальными – входные сигналы элементов. С точки зрения функционирования элементов сети сигналы и входные параметры элементов равнозначны. Различие между этими двумя видами параметров относятся к способу их использования в обучении. Кроме того, удобно считать, что параметры каждого элемента являются его свойствами и хранятся при нем. Совокупность параметров всех элементов сети называют вектором параметров сети. Совокупность параметров всех синапсов называют вектором обучаемых параметров сети, картой весов связей или синаптической картой. Отметим, что необходимо различать входные сигналы элементов и входные сигналы сети. Они совпадают только для элементов входного слоя сети.
|
Рис. 2. Построение сети из простейших элементов. 1 - слой синапсов S4 (4 синапса в слое). 2 - каскад-нейрон N4 (4 входных сигнала). 3 - слой точек ветвления SB(2,6) (2 входных сигнала, 6 - выходных). 4 - слой нейронов SN(2,4,2) (2 нейрона, по 4 входных сигнала у каждого нейрона, 2 выходных сигнала). 5 - каскад точек ветвления и нейронов K(4,2,4,2) (4 входных сигнала, 2 нейрона по 4 входных сигнала у каждого нейрона, 2 выходных сигнала каскада). 6 - сеть NW(4,2,3,1) (4 входных сигнала сети, 2 нейрона во входном слое, 3 нейрона в скрытом слое, 1 нейрон в выходном слое). |
Из
приведенных на рис. 1 элементов можно построить практически любую нейронную
сеть. В соответствии с утверждениями теорем, приведенных в работах [36, 37, 57,
64, 70, 286], этих элементов достаточно, чтобы сколь угодно точно приблизить
любую непрерывную функцию. Вообще говоря, нет никаких правил, ограничивающих
свободу творчества конструктора нейронных сетей. Однако, есть набор структурных
единиц построения сетей, позволяющий стандартизовать процесс конструирования.
Детальный анализ различных нейронных сетей позволил выделить следующие структурные
единицы:
1
элемент – неделимая часть сети, для которой определены методы прямого и
обратного функционирования;
2
каскад – сеть составленная из последовательно связанных слоев, каскадов,
циклов или элементов;
3
слой – сеть составленная из параллельно работающих слоев, каскадов,
циклов или элементов;
4
цикл – каскад выходные сигналы которого поступают на его вход.
Очевидно,
что не все элементы являются неделимыми. В следующем разделе будет приведен ряд
составных элементов.
Введение
трех типов составных сетей связано с двумя причинами: использование циклов
приводит к изменению правил остановки работы сети, описанных в разд.
"Правила остановки работы сети"; разделение каскадов и слоев
позволяет эффективно использовать ресурсы параллельных ЭВМ. Действительно, все
сети, входящие в состав слоя, могут работать независимо друг от друга. Тем
самым при конструировании сети автоматически закладывается база для
использования параллельных ЭВМ.
На
рис. 2 приведен пример поэтапного конструирования трехслойной сигмоидной сети.
Название
«составные элементы» противоречит определению элементов. Это противоречие
объясняется соображениями удобства работы. Введение составных элементов
преследует цель упрощения конструирования. Как правило, составные элементы
являются каскадами простых элементов.
Рис. 3. а)Фрагмент сети с обычными сумматорами б) Тот же фрагмент с квадратичными сумматорами из
простых элементов. в)Тот же фрагмент с квадратичными сумматорами с
использованием составного элемента - квадратичного сумматора. |
Хорошим
примером полезности составных элементов может служить использование сумматоров.
В ряде работ [35, 53, 107, 127, 294] интенсивно используются сети, нейроны
которых содержат нелинейные входные сумматоры. Под нелинейным входным сумматором,
чаще всего понимают квадратичные сумматоры – сумматоры, вычисляющие взвешенную
сумму всех попарных произведений входных сигналов нейрона. Отличие сетей с
квадратичными сумматорами заключается только в использовании этих сумматоров.
На рис. 3а приведен фрагмент сети с линейными сумматорами. На рис. 3б –
соответствующий ему фрагмент с квадратичными сумматорами, построенный с
использованием элементов, приведенных на рис. 1. На (рис. 3в) – тот же
фрагмент, построенный с использованием квадратичных сумматоров. При составлении
сети с квадратичными сумматорами из простых элементов на пользователя ложится большой
объем работ по проведению связей и организации вычисления попарных произведений.
Кроме того, рис. 3в гораздо понятнее рис. 3б и содержит ту же информацию. Кроме
того, пользователь может изменить тип сумматоров уже сконструированной сети,
указав замену одного типа сумматора на другой. На рис. 4 приведены обозначения
и схемы наиболее часто используемых составных элементов.
|
Рис. 4. Обозначения и схемы часто используемых составных элементов |
Необходимо
отметить еще одну разновидность сумматоров, полезную при работе по конструированию
сети – неоднородные сумматоры. Неоднородный сумматор отличается от однородного
наличием еще одного входного сигнала, равного единице. На рис. 4г приведены
схема и обозначения для неоднородного адаптивного сумматора. В табл. 1
приведены значения, вычисляемые однородными и соответствующими им неоднородными
сумматорами.
Таблица 1 Однородные и неоднородные сумматоры |
Название |
Однородный сумматор |
Неоднородный сумматор |
||
|
Обозначение |
Значение |
Обозначение |
Значение |
Обычный |
S |
|
S+ |
|
Адаптивный |
A |
|
A+ |
|
Квадратичный |
Q |
|
Q+ |
|
Прежде
всего, необходимо разделить процессы обучения нейронной сети и использования
обученной сети. При использовании обученной сети происходит только решение
сетью определенной задачи. При этом синаптическая карта сети остается
неизменной. Работу сети при решении задачи будем далее называть прямым функционированием.
При
обучении нейронных сетей методом обратного распространения ошибки нейронная
сеть (и каждый составляющий ее элемент) должна уметь выполнять обратное
функционирование. Во второй части этой главы будет показано, что обратное
функционирование позволяет обучать также и нейросети, традиционно считающиеся
не обучаемыми, а формируемыми (например, сети Хопфилда [316]). Обратным функционированием называется
процесс работы сети, когда на вход двойственной сети подаются определенные
сигналы, которые далее распространяются по связям двойственной сети. При
прохождении сигналов обратного функционирования через элемент, двойственный
элементу с обучаемыми параметрами, вычисляются поправки к параметрам этого
элемента. Если на вход сети, двойственной к сети с непрерывными элементами, подается
производная некоторой функции F от выходных
сигналов сети, то вычисляемые сетью поправки должны быть элементами градиента
функции F по обучаемым параметрам
сети. Двойственная сеть строится так, чтобы удовлетворять этому требованию.
Пусть
задана нейронная сеть, вычисляющая некоторую функцию (рис. 5а). Необходимо
построить двойственную к ней сеть, вычисляющую градиент некоторой функции H от выходных сигналов сети.
В книге А.Н. Горбаня «Обучение нейронных сетей» [65] предложен метод построения
сети, двойственной к данной. Пример сети, построенной по методу А.Н. Горбаня,
приведен на рис. 5б. Для работы такой сети необходимо, обеспечение работы
элементов в трех режимах. Первый режим – обычное прямое функционирование (рис.
5а). Второй режим – нагруженное прямое функционирование (рис. 5б, верхняя
цепочка). Третий режим – обратное функционирование.
При обычном прямом функционировании каждый элемент вычисляет выходную функцию от входных сигналов и параметров и выдает ее на выход в сеть для передачи далее.
При
нагруженном прямом функционировании каждый элемент вычисляет выходную функцию
от входных сигналов и параметров и выдает ее на выход в сеть для передачи далее.
Кроме того, он вычисляет производные выходной функции по каждому входному
сигналу и параметру и запоминает их (блоки под элементами в верхней цепочке на
рис. 5б). При обратном функционировании элементы исходной сети выдают на специальные
выходы ранее вычисленные производные (связи между верхней и нижней цепочками на
рис. 5б), которые далее используются для вычисления градиентов по параметрам и
входным сигналам сети двойственной сетью (нижняя цепочка на рис. 5б). Вообще
говоря, для хорошей организации работы такой сети требуется одно из следующих
устройств. Либо каждый элемент должен получать дополнительный сигнал выдачи
запомненных сигналов (ранее вычисленных производных), либо к сети следует
добавить элемент, вычисляющий функцию оценки.
|
Рис. 5 Схема сети (а), сети и двойственной
сети по методу А.Н. Горбаня (б) и по унифицированному методу (в). |
Первое
решение требует дополнительных линий связи с каждым элементом, за исключением точек
ветвления, что в существенно увеличивает (приблизительно в полтора раза) и без
того большое число связей. Большое число связей, в свою очередь, увеличивает
сложность и стоимость аппаратной реализации нейронной сети.
Второй
подход – включение оценки как элемента в нейронную сеть – лишает структуру
гибкости, поскольку для замены функции оценки потребуется изменять сеть. Кроме
того, оценка будет достаточно сложным элементом. некоторые оценки включают в
себя процедуру сортировки и другие сложные операции (см. главу «Оценка и интерпретатор
ответа»).
Метод
нагруженного функционирования позволяет вычислять не только градиент оценки, но
и производные по входным параметрам и сигналам от произвольного функционала от
градиента. Для этого строится дважды двойственная сеть. Для работы дважды двойственной
сети необходимо, чтобы элементы выполняли дважды двойственное функционирование
– вычисляли не только выходной сигнал и производные выходного сигнала по
входным сигналам и параметрам, но и матрицу вторых производных выходного
сигнала по входным сигналам и параметрам. Кроме того, построение дважды
двойственной сети потребует дополнительных затрат от пользователя, поскольку
процедура построения двойственной и дважды двойственной сети достаточно
понятна, но описывается сложным алгоритмом. При этом построение дважды двойственной
сети не является построением сети двойственной к двойственной.
Для
унификации процедуры построения сети, двойственной к данной сети, автором
разработан унифицированный метод двойственности. В этом методе каждому элементу
исходной сети ставится в соответствие подсеть. На рис. 5в приведен пример
двойственной сети, построенной по унифицированному методу. Каждый элемент,
кроме точки ветвления и сумматора, заменяется на элемент, вычисляющий
производную выходной функции исходного элемента по входному сигналу (параметру)
и умножитель, умножающий сигнал обратного функционирования на вычисленную производную.
Если элемент имеет несколько входов и параметров, то он заменяется на столько
описанных выше подсетей, сколько у него входных сигналов и параметров. При этом
сигнал обратного функционирования пропускается через точку ветвления.
Двойственная
сеть, построенная по этому методу, требует включения в нее оценки как элемента.
Достоинством этого метода является универсальность. Для построения дважды
двойственной сети достаточно построить сеть двойственную к двойственной. Кроме
того, построенная по этому методу сеть имеет меньшее время срабатывания.
Анализ
этих двух методов с точки зрения аппаратной реализации, выявил в них следующие
недостатки.
·
Для реализации обратного функционирования необходимо изменять
архитектуру сети, причем в ходе обратного функционирования связи прямого
функционирования не используются.
·
Необходимо включать в сеть оценку как один из элементов
Для
устранения этих недостатков, автором предложен метод самодвойственных сетей.
Этот метод не позволяет строить дважды двойственных сетей, что делает его менее
мощным, чем два предыдущих. Однако большинство методов обучения не требует
использования дважды двойственных сетей, что делает это ограничение не очень
существенным. Идея самодвойственных сетей состоит в том, чтобы каждый элемент
при прямом функционировании запоминал входные сигналы. А при обратном функционировании
вычислял все необходимые производные, используя ранее запомненные сигналы, и
умножал их на сигнал обратного функционирования.
Такая
модификация делает элементы более сложными, чем в двух предыдущих методах.
Однако этот метод дает следующие преимущества по отношению к методу нагруженного
функционирования и унифицированному методу двойственности.
·
Для элементов не требуется дополнительного управления, поскольку
получение сигнала прямого или обратного функционирования инициирует выполнение
одной из двух функций.
·
Для выполнения обратного функционирования не требуется дополнительных
элементов и линий связи между элементами.
·
Оценка является независимым от сети компонентом.
Наиболее существенным является второе преимущество, поскольку при аппаратной реализации нейронных сетей наиболее существенным ограничением является число связей. Так в приведенных на рис. 5 сетях задействовано для самодвойственной сети – 6 связей, для сети, построенной по методу нагруженного функционирования – 20 связей, а для сети, построенной по методу унифицированной двойственности – 27 связей. Следует заметить, что с ростом размеров сети данные пропорции будут примерно сохраняться.
Исходя
из соображений экономичной и эффективной аппаратной реализации и функционального
разделения компонентов далее в данной работе рассматриваются только самодвойственные
сети.
Если
при обратном функционировании самодвойственной сети на ее выход подать
производные некоторой функции F по выходным сигналам сети, то в ходе обратного
функционирования на входах параметров сети должны быть вычислены элементы
градиента функции F по параметрам сети, а на входах сигналов – элементы
градиента функции F по входным сигналам. Редуцируя это правило на отдельный
элемент, получаем следующее требование к обратному функционированию элемента
самодвойственной сети: Если при обратном функционировании элемента самодвойственной
сети на его выход подать производные некоторой функции F по выходным сигналам
элемента, то в ходе обратного функционирования на входах параметров элемента
должны быть вычислены элементы градиента функции F по параметрам элемента, а на
входах сигналов – элементы градиента функции F по входным сигналам элемента. Легко
заметить, что данное требование автоматически обеспечивает подачу на выход
элемента, предшествующего данному, производной функции F по выходным сигналам
этого элемента.
Далее в этом разделе для каждого из элементов, приведенных на рис.1 определены правила обратного функционирования, в соответствии со сформулированными выше требованиями к элементам самодвойственной сети.
У
синапса два входа – вход сигнала и вход синаптического веса (рис. 6а).
Обозначим входной сигнал синапса через , а синаптический вес через . Тогда выходной сигнал синапса равен . При обратном функционировании на выход синапса подается сигнал
. На входе синапса должен быть получен сигнал обратного
функционирования, равный , а на входе синаптического веса – элемент градиента, равный (рис. 6б).
Рис. 7. Прямое (а) и
обратное (б) функционирование
умножителя |
Рис. 6. Прямое (а) и обратное (б) функционирование синапса |
Умножитель имеет два входных сигнала и не имеет
параметров. Обозначим входные сигнал синапса через . Тогда выходной сигнал умножителя равен (рис. 7а). При
обратном функционировании на выход умножителя подается сигнал . На входах сигналов и должны быть получены
сигналы обратного функционирования, равные и , соответственно (рис. 7б).
Рис. 8. Прямое (а) и
обратное (б) функционирование точки ветвления |
В отличие от ранее рассмотренных элементов, точка ветвления имеет только один вход и несколько выходов. Обозначим входной сигнал через x, а выходные через , причем (рис. 8а). При обратном функционировании на выходные связи точки ветвления подаются сигналы (рис. 8б). На входной связи должен получаться сигнал, равный . Можно сказать, что точка ветвления при обратном функционировании переходит в сумматор, или, другими словами, сумматор является двойственным по отношению к точке ветвления.
|
Сумматор
считает сумму входных сигналов. Обычный сумматор не имеет параметров. При
описании прямого и обратного функционирования ограничимся описанием простого
сумматора, поскольку функционирование адаптивного и квадратичного сумматора
может быть получено как прямое и обратное функционирование сети в соответствии
с их схемами, приведенными на рис. 3б и 3в. Обозначим входные сигналы сумматора
через (рис. 9а). Выходной
сигнал равен . При обратном функционировании на выходную связь сумматора
подается сигнал (рис. 9б). На входных
связях должны получаться сигналы, равные Из последней формулы следует, что все сигналы обратного
функционирования, выдаваемые на входные связи сумматора, равны. Таким образом
сумматор при обратном функционировании переходит в точку ветвления, или,
другими словами, сумматор является двойственным по отношению к точке ветвления.
Рис. 10. Прямое (а) и
обратное (б) функционирование нелинейного Паде |
Нелинейный Паде преобразователь или Паде элемент
имеет два входных сигнала и один выходной. Обозначим входные сигналы через . Тогда выходной сигнал Паде элемента равен (рис. 10а). При обратном
функционировании на выход Паде элемента подается сигнал . На входах сигналов и должны быть получены
сигналы обратного функционирования, равные и , соответственно (рис. 10б).
Рис. 11. Прямое (а) и
обратное (б) функционирование нелинейного сигмоидного преобразователя |
Нелинейный сигмоидный преобразователь или сигмоидный
элемент имеет один входной сигнал и один параметр. Сторонники чистого коннекционистского
подхода [265] считают, что обучаться в ходе обучения нейронной сети могут
только веса связей. С этой точки зрения параметр сигмоидного элемента является
не обучаемым и, как следствие, для него нет необходимости вычислять соответствующий
элемент градиента. Однако, часть исследователей полагает, что нужно обучать все
параметры всех элементов сети. Исходя из этого, опишем вычисление этим
элементом производной функции оценки по содержащемуся в нем параметру.
Обозначим входной сигнал через , параметр через , а вычисляемую этим преобразователем функцию через (рис. 11а). При обратном функционировании на выход
сигмоидного элемента подается сигнал . На входе сигнала должен быть получен сигнал обратного
функционирования, равный , а на входе параметра – элемент градиента, равный (рис. 11б).
Произвольный
непрерывный нелинейный преобразователь имеет несколько входных сигналов, а
реализуемая им функция зависит от нескольких параметров. Выходной сигнал такого
элемента вычисляется как некоторая функция , где x – вектор
входных сигналов, а a – вектор параметров. При обратном функционировании на выходную связь
элемента подается сигнал обратного функционирования, равный . На входы сигналов выдаются сигналы обратного
функционирования, равные , а на входах параметров вычисляются элементы градиента,
равные .
Пороговый
преобразователь, реализующий функцию определения знака (рис. 12а), не является
элементом с непрерывной функцией, и, следовательно, его обратное функционирование
не может быть определено из требования вычисления градиента. Однако, при
обучении сетей с пороговыми преобразователями полезно иметь возможность
вычислять поправки к параметрам. Так как для порогового элемента нельзя
определить однозначное поведение при обратном функционировании, предлагается
доопределить его, исходя из соображений полезности при конструировании
обучаемых сетей. Основным методом обучения сетей с пороговыми элементами
является правило Хебба (подробно рассмотрено во второй части главы). Оно
состоит из двух процедур, состоящих в изменении «весов связей между
одновременно активными нейронами». Для этого правила пороговый элемент при
обратном функционировании должен выдавать сигнал обратного функционирования, совпадающий
с выданным им сигналом прямого функционирования (рис. 12б). Такой пороговый
элемент будем называть зеркальным. При обучении сетей Хопфилда [316], подробно рассмотренном во второй части
главы, необходимо использовать «прозрачные» пороговые элементы, которые при
обратном функционировании пропускают сигнал без изменения (рис. 12в).
Рис. 12. Прямое (а) и
обратное (б,в) функционирование порогового элемента. б) “Зеркальный” пороговый
элемент в) “Прозрачный” пороговый
элемент |
При
использовании сетей прямого распространения (сетей без циклов) вопроса об
остановке сети не возникает. Действительно, сигналы поступают на элементы
первого (входного) слоя и, проходя по связям, доходят до элементов последнего
слоя. После снятия сигналов с последнего слоя все элементы сети оказываются
«обесточенными», то есть ни по одной связи сети не проходит ни одного
ненулевого сигнала. Сложнее обстоит дело при использовании сетей с циклами. В
случае общего положения, после подачи сигналов на входные элементы сети по
связям между элементами, входящими в цикл, ненулевые сигналы будут циркулировать
сколь угодно долго.
Существует
два основных правила остановки работы сети с циклами. Первое правило состоит в
остановке работы сети после указанного числа срабатываний каждого элемента.
Циклы с таким правилом остановки будем называть ограниченными.
Второе
правило остановки работы сети – сеть прекращает работу после установления
равновесного распределения сигналов в цикле. Такие сети будем называть
равновесными. Примером равновесной сети может служить сеть Хопфилда [316] (см.
разд. "Сети Хопфилда").
Как
уже отмечалось ранее, при конструировании сетей из элементов можно построить
сеть любой архитектуры. Однако и при произвольном конструировании можно выделить
наиболее общие признаки, существенно отличающие одну сеть от другой. Очевидно,
что замена простого сумматора на адаптивный или даже на квадратичный не
приведут к существенному изменению структуры сети, хотя число обучаемых
параметров увеличится. Однако, введение в сеть цикла сильно изменяет как
структуру сети, так и ее поведение. Таким образом можно все сети разбить на два
сильно отличающихся класса: ациклические
сети и сети с циклами. Среди сетей с
циклами существует еще одно разделение, сильно влияющее на способ функционирования
сети: равновесные сети с циклами и сети с ограниченными циклами.
Рис. 13. Фрагмент |
Большинство
используемых сетей не позволяют определить, как повлияет изменение какого-либо
внутреннего параметра сети на выходной сигнал. На рис. 13 приведен пример сети,
в которой увеличение параметра приводит к неоднозначному
влиянию на сигнал : при отрицательных произойдет уменьшение , а при положительных – увеличение. Таким
образом, выходной сигнал такой сети немонотонно зависит от параметра . Монотонные сети понятнее для анализа, а поведение
монотонных систем хорошо изучено (см. например, [161]). Для получения монотонной
зависимости выходных сигналов сети от параметров внутренних слоев (то есть всех
слоев кроме входного) необходимо использовать специальную монотонную
архитектуру нейронной сети. Принципиальная схема сетей монотонной архитектуры
приведена на рис. 14.
Рис. 14. Общая схема
монотонной сети. Верхний ряд - возбуждающие блоки нейронов, нижний ряд - тормозящие.
Буквой “Т” - помечены тормозящие связи, буквой “В” - возбуждающие |
Основная
идея построения монотонных сетей состоит в разделении каждого слоя сети на два
– возбуждающий и тормозящий. При этом все связи в сети устроены так, что
элементы возбуждающей части слоя возбуждают элементы возбуждающей части следующего
слоя и тормозят тормозящие элементы следующего слоя. Аналогично, тормозящие
элементы возбуждают тормозящие элементы и тормозят возбуждающие элементы
следующего слоя. Названия «тормозящий» и «возбуждающий» относятся к влиянию
элементов обеих частей на выходные элементы.
Рис. 15. Немонотонная сеть
с Паде элементами |
Отметим, что для сетей с сигмоидными элементами требование монотонности означает, что веса всех связей должны быть неотрицательны. Для сетей с Паде элементами требование не отрицательности весов связей является необходимым условием бессбойной работы. Требование монотонности для сетей с Паде элементами приводит к изменению архитектуры сети, не накладывая никаких новых ограничений на параметры сети. На рис. 15 приведены пример немонотонной сети, а на рис. 16 монотонной сети с Паде элементами.
Рис. 16. Монотонная сеть с
Паде элементами. Жирными линиями обозначены возбуждающие связи и элементы возбуждающей части сети |
Особо отметим архитектуру еще одного класса сетей – сетей без весов связей. Эти сети, в противовес коннекционистским, не имеют обучаемых параметров связей. Любую сеть можно превратить в сеть без весов связей заменой всех синапсов на умножители. Легко заметить, что получится такая же сеть, только вместо весов связей будут использоваться сигналы. Таким образом в сетях без весов связей выходные сигналы одного слоя могут служить для следующего слоя как входными сигналами, так и весами связей. Заметим, что вся память таких сетей содержится в значениях параметров нелинейных преобразователей. Из разделов "Синапс" и "Умножитель" следует, что сети без весов связей способны вычислять градиент функции оценки и затрачивают на это ровно тоже время, что и аналогичная сеть с весами связей.
Кроме
прямого и обратного функционирования, все элементы должны уметь выполнять еще
одну операцию – модификацию параметров. Процедура модификации параметров
состоит в добавлении к существующим параметрам вычисленных поправок (напомним,
что для сетей с непрерывно дифференцируемыми элементами вектор поправок
является градиентом некоторой функции от выходных сигналов). Если обозначить текущий
параметр элемента через , а вычисленную поправку через , то новое значение параметра вычисляется по формуле . Параметры обучения и определяются компонентом
учитель и передаются сети вместе с запросом на обучение. В некоторых случаях
бывает полезно использовать более сложную процедуру модификации карты.
Во
многих работах отмечается, что при описанной выше процедуре модификации
параметров происходит неограниченный рост величин параметров. Существует
несколько различных методов решения этой проблемы. Наиболее простым является
жесткое ограничение величин параметров некоторыми минимальным и максимальным
значениями. При использовании этого метода процедура модификации параметров
имеет следующий вид:
В
последние годы широкое распространение получили различные методы контрастирования
или скелетонизации нейронных сетей. В ходе процедуры контрастирования
достигается высокая степень разреженности синаптической карты нейронной сети,
так как большинство связей получают нулевые веса (см. например [100, 171, 307.
308]).
Очевидно,
что при такой степени разреженности ненулевых параметров проводить вычисления
так, как будто структура сети не изменилась, неэффективно. Возникает потребность
в процедуре нормализации сети, то есть фактического удаления нулевых связей из
сети, а не только из обучения. Процедура нормализации состоит из двух этапов:
1. Из сети удаляются все связи,
имеющие нулевые веса и исключенные из обучения.
2. Из сети удаляются все
подсети, выходные сигналы которых не используются другими подсетями в качестве
входных сигналов и не являются выходными сигналами сети в целом.
В
ходе нормализации возникает одна трудность: если при описании нейронной сети
все нейроны одинаковы, и можно описать нейрон один раз, то после удаления
отконтрастированных связей нейроны обычно имеют различную структуру. Компонент
сеть должен отслеживать ситуации, когда два блока исходно одного и того же типа
уже не могут быть представлены в виде этого блока с различными параметрами. В
этих случаях компонент сеть порождает новый тип блока. Правила порождения имен
блоков приведены в описании выполнения запроса на нормализацию сети.
В
этом разделе намеренно допущено отступление от общей методики – не смешивать
разные компоненты. Это сделано для облегчения демонстрации построения нейронных
сетей обратного распространения, позволяющих реализовать на них большинство
известных алгоритмов обучения нейронных сетей.
Классическая
сеть Хопфилда [316], функционирующая в дискретном времени, строится следующим
образом. Пусть – набор эталонных образов . Каждый образ, включая и эталоны, имеет вид n-мерного вектора с координатами,
равными нулю или единице. При предъявлении на вход сети образа x сеть вычисляет образ, наиболее
похожий на x. В качестве меры
близости образов выберем скалярное произведение соответствующих векторов. Вычисления
проводятся по следующей формуле: . Эта процедура выполняется до тех пор, пока после очередной
итерации не окажется, что . Вектор x,
полученный в ходе последней итерации, считается ответом. Для нейросетевой
реализации формула работы сети переписывается в следующем виде:
или
где .
|
На
рис. 17 приведена схема сети Хопфилда [316] для распознавания четырехмерных
образов. Обычно сети Хопфилда [316] относят к сетям с формируемой синаптической
картой. Однако, используя разработанный в первой части главы набор элементов,
можно построить обучаемую сеть. Для построения такой сети используем «прозрачные»
пороговые элементы. Ниже приведен алгоритм обучения сети Хопфилда [316].
1. Положим все синаптические веса
равными нулю.
2. Предъявим сети первый
эталон и проведем один такт
функционирования вперед, то есть цикл будет работать не до равновесия, а один
раз (см. рис. 17б).
3. Подадим на выход каждого
нейрона соответствующую координату вектора (см. рис. 17в).
Поправка, вычисленная на j-ом синапсе
i-го нейрона, равна произведению
сигнала прямого функционирования на сигнал обратного функционирования.
Поскольку при обратном функционировании пороговый элемент прозрачен, а сумматор
переходит в точку ветвления, то поправка равна .
4.Далее проведем шаг обучения
с параметрами обучения, равными единице. В результате получим .
Повторяя
этот алгоритм, начиная со второго шага, для всех эталонов получим , что полностью совпадает с формулой формирования
синаптической карты сети Хопфилда [316], приведенной в начале раздела.
Сети
Кохонена [130, 131] (частный случай метода динамических ядер [229, 267]) являются
типичным представителем сетей решающих задачу классификации без учителя.
Рассмотрим пространственный вариант сети Кохонена. Дан набор из m точек в n-мерном пространстве. Необходимо разбить множество точек на k классов близких в смысле квадрата
евклидова расстояния. Для этого необходимо найти k точек таких, что , минимально; .
Существует
множество различных алгоритмов решения этой задачи. Рассмотрим наиболее эффективный
из них.
1. Зададимся некоторым набором
начальных точек .
2. Разобьем множество точек на k классов по правилу .
1. По полученному разбиению
вычислим новые точки из условия минимальности
.
Обозначив
через число точек в i-ом классе, решение задачи, поставленной
на третьем шаге алгоритма, можно записать в виде .
Второй
и третий шаги алгоритма будем повторять до тех пор, пока набор точек не перестанет
изменяться. После окончания обучения получаем нейронную сеть, способную для
произвольной точки x вычислить
квадраты евклидовых расстояний от этой точки до всех точек и, тем самым, отнести
ее к одному из k классов. Ответом
является номер нейрона, выдавшего минимальный сигнал.
Теперь
рассмотрим сетевую реализацию. Во первых, вычисление квадрата евклидова
расстояния достаточно сложно реализовать в виде сети (рис. 18а). Однако
заметим, что нет необходимости вычислять квадрат расстояния полностью. Действительно,
Отметим,
что в последней формуле первое слагаемое не зависит от точки x, второе вычисляется адаптивным
сумматором, а третье одинаково для всех сравниваемых величин. Таким образом,
легко получить нейронную сеть, которая вычислит для каждого класса только
первые два слагаемых (рис. 18б).
Второе
соображение, позволяющее упростить обучение сети, состоит в отказе от
разделения второго и третьего шагов алгоритма.
Рис. 18. Сеть Кохонена.
Прямое и обратное функционирование нейронов сети Кохонена |
Алгоритм
классификации.
1. На вход нейронной сети,
состоящей из одного слоя нейронов, приведенных на рис. 18б, подается вектор x.
2. Номер нейрона, выдавшего
минимальный ответ, является номером класса, к которому принадлежит вектор.
Алгоритм
обучения.
1. Полагаем поправки всех синапсов
равными нулю.
2. Для каждой точки множества выполняем следующую процедуру.
2.1. Предъявляем точку сети для
классификации.
2.2. Пусть при классификации
получен ответ – класс l. Тогда для
обратного функционирования сети подается вектор , координаты которого определяются по следующему правилу:.
2.3. Вычисленные для данной точки
поправки добавляются к ранее вычисленным.
3. Для каждого нейрона производим
следующую процедуру.
3.1. Если поправка, вычисленная
последним синапсом равна 0, то нейрон удаляется из сети.
3.2. Полагаем параметр обучения
равным величине, обратной к поправке, вычисленной последним синапсом.
3.3. Вычисляем сумму квадратов
накопленных в первых n синапсах поправок
и, разделив на -2, заносим в поправку последнего синапса.
3.4. Проводим шаг обучения с
параметрами , .
4. Если вновь вычисленные
синаптические веса отличаются от полученных на предыдущем шаге, то переходим к
первому шагу алгоритма.
В
пояснении нуждается только второй и третий шаги алгоритма. Из рис. 18в видно,
что вычисленные на шаге 2.2 алгоритма поправки будут равны нулю для всех
нейронов, кроме нейрона, выдавшего минимальный сигнал. У нейрона, выдавшего
минимальный сигнал, первые n поправок
будут равны координатам распознававшейся точки x, а поправка последнего синапса равна единице. После завершения
второго шага алгоритма поправка последнего синапса i-о нейрона будет равна числу точек, отнесенных к i-му классу, а поправки остальных синапсов
этого нейрона равны сумме соответствующих координат всех точек i-о класса. Для получения правильных
весов остается только разделить все поправки первых n синапсов на поправку последнего синапса, положить последний
синапс равным сумме квадратов полученных величин, а остальные синапсы –
полученным для них поправкам, умноженным на -2. Именно это и происходит при выполнении
третьего шага алгоритма.
Персептрон
Розенблатта [147, 185] является исторически первой обучаемой нейронной сетью.
Существует несколько версий персептрона. Рассмотрим классический персептрон –
сеть с пороговыми нейронами и входными сигналами, равными нулю или единице.
Опираясь на результаты, изложенные в работе [147] можно ввести следующие ограничения
на структуру сети.
1. Все синаптические веса могут
быть целыми числами.
2. Многослойный персептрон по
своим возможностям эквивалентен двухслойному. Все нейроны имеют синапс, на
который подается постоянный единичный сигнал. Вес этого синапса далее будем называть
порогом. Каждый нейрон первого слоя имеет единичные синаптические веса на всех
связях, ведущих от входных сигналов, и его порог равен числу входных сигналов
сумматора, уменьшенному на два и взятому со знаком минус.
Таким
образом, можно ограничиться рассмотрением только двухслойных персептронов с не
обучаемым первым слоем. Заметим, что для построения полного первого слоя
пришлось бы использовать нейронов, где n – число входных сигналов персептрона.
На рис. 19а приведена схема полного персептрона для трехмерного вектора входных
сигналов. Поскольку построение такой сети при достаточно большом n невозможно, то обычно используют
некоторое подмножество нейронов первого слоя. К сожалению, только полностью
решив задачу можно точно указать необходимое подмножество. Обычно используемое
подмножество выбирается исследователем из каких-то содержательных соображений
или случайно.
Рис. 19. Персептрон Розенблатта.
Прямое и обратное
функционирование
второго слоя
персептрона |
Классический алгоритм обучения персептрона является частным случаем правила Хебба. Поскольку веса связей первого слоя персептрона являются не обучаемыми, веса нейрона второго слоя в дальнейшем будем называть просто весами. Будем считать, что при предъявлении примера первого класса персептрон должен выдать на выходе нулевой сигнал, а при предъявлении примера второго класса – единичный. Ниже приведено описание алгоритма обучения персептрона.
1. Полагаем все веса равными нулю.
2. Проводим цикл предъявления
примеров. Для каждого примера выполняется следующая процедура.
2.1.Если сеть выдала правильный
ответ, то переходим к шагу 2.4.
2.2.Если на выходе персептрона
ожидалась единица, а был получен ноль, то веса связей, по которым прошел
единичный сигнал, уменьшаем на единицу.
2.3.Если на выходе персептрона
ожидался ноль, а была получена единица, то веса связей, по которым прошел
единичный сигнал, увеличиваем на единицу.
2.4.Переходим к следующему примеру.
Если достигнут конец обучающего множества, то переходим к шагу 3, иначе возвращаемся
на шаг 2.1.
3. Если в ходе выполнения
второго шага алгоритма хоть один раз выполнялся шаг 2.2 или 2.3 и не произошло зацикливания, то переходим к шагу 2.
В противном случае обучение завершено.
В
этом алгоритме не предусмотрен механизм отслеживания зацикливания обучения.
Этот механизм можно реализовывать по разному. Наиболее экономный в смысле использования
дополнительной памяти имеет следующий вид.
1. k=1;
m=0. Запоминаем веса связей.
2. После цикла предъявлений
образов сравниваем веса связей с запомненными. Если текущие веса совпали с
запомненными, то произошло зацикливание. В противном случае переходим к шагу 3.
3.
m=m+1. Если m
4. k=2k;
m=0. Запоминаем веса связей и
переходим к шагу 2.
Поскольку
длина цикла конечна, то при достаточно большом k зацикливание будет обнаружено.
Для
использования в обучении сети обратного функционирования, необходимо переписать
второй шаг алгоритма обучения в следующем виде.
2. Проводим цикл предъявления примеров. Для
каждого примера выполняется следующая процедура.
2.1. Если сеть выдала правильный ответ, то переходим к шагу 2.5.
2.2. Если на выходе персептрона ожидалась единица, а был получен
ноль, то на выход сети при обратном функционировании подаем .
2.3. Если на выходе персептрона ожидался ноль, а была получена единица,
то на выход сети при обратном функционировании подаем .
2.4. Проводим шаг обучения с единичными параметрами.
2.5. Переходим к следующему примеру. Если достигнут конец обучающего
множества, то переходим к шагу 3, иначе возвращаемся на шаг 2.1.
На рис. 19в приведена схема обратного функционирования нейрона второго слоя персептрона. Учитывая, что величины входных сигналов этого нейрона равны нулю или единице, получаем эквивалентность модифицированного алгоритма исходному. Отметим также, что при обучении персептрона впервые встретились не обучаемые параметры – веса связей первого слоя.
В
данном разделе описан язык описания нейронных сетей.
Рассмотрим
более подробно структуры данных сети. Как уже было описано в первой части
главы, сеть строится иерархически от простых подсетей к сложным. Простейшими
подсетями являются элементы. Подсеть каждого уровня имеет свое имя и тип.
Существуют следующие типы подсетей: элемент, каскад, слой, цикл с фиксированным
числом тактов функционирования и цикл, функционирующий до тех пор, пока не выполнится
некоторое условие. Последние четыре типа подсетей будем называть блоками. Имена
подсетей определяются при конструировании. В разделе «Имена структурных единиц
компонентов» приведены правила построения полного и однозначного имен подсети.
В качестве примера рассмотрим сеть, конструирование которой проиллюстрировано на
рис. 2. В описании сети NW однозначное имя первого нейрона второго слоя имеет
вид K[2].SN.N[1]. При описании слоя однозначное имя первого нейрона записывается
как N[1]. В квадратных скобках указываются номер экземпляра подсети, входящей в
непосредственно содержащую ее структуру в нескольких экземплярах.
При
использовании контрастирования для изменения структуры сети и значений обучаемых
параметров другим компонентам бывает необходим прямой доступ к сигналам и
параметрам сети в целом или отдельных ее подсетей. Для адресации входных и
выходных сигналов используются имена InSignals и OutSignals, соответственно.
Таким образом, для получения массива входных сигналов второго слоя сети,
приведенной на рис. 2, необходимо запросить массив NW.K[2].InSignals, а для
получения выходного сигнала всей сети можно воспользоваться любым из следующего
списка имен:
·
NW.OutSignals;
·
NW.N.OutSignals.
Для
получения конкретного сигнала из массива сигналов необходимо в конце в квадратных
скобках указать номер сигнала. Например, для получения третьего входного сигнала
второго слоя сети нужно указать следующее имя – NW.K[2].InSignals[3].
Для
получения доступа к параметрам нужно указать имя подсети, к чьим параметрам
нужен доступ и через точку ключевое слово Parameters. При необходимости
получить конкретный параметр, его номер в квадратных скобках записывается после
ключевого слова Parameters.
При
обучении параметров и сигналов (использование обучения сигналов описано во
введении) возникает необходимость обучать только часть из них. Так, например,
при описании обучения персептрона во второй части этой главы было отмечено, что
обучать необходимо только веса связей
второго слоя. Для реализации этой возможности используются два массива
логических переменных – маска обучаемых параметров и маска обучаемых входных
сигналов.
При
описании структуры сетей необходимо учитывать следующую дополнительные
переменные, доступные в методах Forw и Back. Для каждой сети при прямом
функционировании определен следующий набор переменных:
·
InSignals[K] – массив из K действительных чисел, содержащих входные
сигналы прямого функционирования.
·
OutSignals[N] – массив из N действительных чисел, в которые заносятся
выходные сигналы прямого функционирования.
·
Parameters[M] – массив из M действительных чисел, содержащих параметры
сети.
При
выполнении обратного функционирования сети доступны еще три массива:
·
Back.InSignals[K] – массив из K действительных чисел, параллельный
массиву InSignals, в который заносятся выходные сигналы обратного функционирования.
·
Back.OutSignals[N] – массив из N действительных чисел, параллельный массиву OutSignals, содержащий
входные сигналы обратного функционирования.
·
Back.Parameters[M] – массив из M действительных чисел, параллельный
массиву Parameters, в который заносятся вычисленные при обратном функционировании
поправки к параметрам сети.
При
обучении (модификации параметров или входных сигналов) доступны все переменные
обратного функционирования и еще два массива:
·
InSignalMask[K] – массив из K логических переменных, параллельный
массиву InSignals, содержащий маску обучаемости входных сигналов.
·
ParamMask[M] – массив из M логических переменных, параллельный массиву
Parameters, содержащий маску обучаемости параметров.
Есть
два пути использовать переменную одного типа как переменную другого типа.
Первый путь состоит в преобразовании значения к заданному типу. Так, для
преобразования целочисленной переменной к действительному типу, достаточно
просто присвоить переменной действительного типа целочисленное значение. С
обратным преобразованием сложнее, поскольку не ясно что делать с дробной
частью. В табл. 2 приведены все типы, которые можно преобразовать присваиванием
переменной другого типа. В табл. 3 приведены все функции преобразования типов.
Таблица 2
Преобразование типов прямым
присваиванием
переменной значения выражения
Тип переменной |
Тип выражения |
Пояснение |
Real |
Real, Integer, Long |
Значение преобразуется к плавающему виду. При преобразовании значения выражения типа Long возможна потеря точности. |
Long |
Integer, Long |
При преобразовании типа Integer, действуют следующие правила. Значение переменной помещается в два младших байта. Если значение выражения больше либо равно нолю, то старшие байты равны H0000, в противном случае старшие байты равны HFFFF. |
Integer |
Integer, Long |
При преобразовании выражения типа Long значение двух
старших байт отбрасывается. |
Таблица 3
Функции преобразования типов
Имя функции |
Тип аргумента |
Тип результата |
Описание |
Real |
Real, Integer, Long |
Real |
Аналогично прямому присваиванию |
Integer |
Integer, Long |
Integer |
Аналогично прямому присваиванию |
Long |
Integer, Long |
Long |
Аналогично прямому присваиванию |
Str |
Real, Integer, Long |
String |
Представляет числовой аргумент в виде символьной строки в десятичном виде |
Round |
Real |
Long |
Округляет действительное значение до ближайшего длинного целого. Если значение действительного выражения выходит за диапазон длинного целого, то результат равен нулю. |
Truncate |
Real |
Long |
Преобразует действительное значение в длинное целое путем отбрасывания дробной части. Если значение действительного выражения выходит за диапазон длинного целого, то результат равен нулю. |
LVal |
String |
Long |
Преобразует длинное целое из символьного представления во внутреннее. |
RVal |
String |
Real |
Преобразует действительное число из символьного представления во внутреннее. |
StrColor |
Color |
String |
Преобразует внутреннее представление переменной типа Color в соответствии с разд. «Значение переменной типа цвет» |
ValColor |
String |
Color |
Преобразует символьное представление переменной типа Color во внутреннее. |
Color |
Integer |
Color |
Интерпретирует целое число как значение типа
Color. |
При вычислении числовых выражений действуют следующие правила преобразования типов:
1. Выражения вычисляются слева
на право.
2. Если два операнда имеют один
тип, то результат имеет тот же тип.
3. Если аргументы имеют разные
типы, то выражение имеет старший из двух типов. Список числовых типов по
убыванию старшинства: Real, Long, Integer.
4. Результат операции деления
действительных чисел (операция «/») всегда имеет тип Real, вне зависимости от
типов аргументов.
В
отличие от преобразования типов приведение типов позволяет по-разному интерпретировать
одну область памяти. Функция приведения типа применима только к переменным или
элементам массива (преобразование типов применимо и к выражениям). Рекомендуется
использовать приведение типов только для типов, имеющих одинаковую длину. Например,
Integer и Color или Real и Long. Список функций приведения типов приведен в
табл. 4.
Таблица 4
Функции приведения типов
Название |
Тип результата |
Описание |
TReal |
Real |
Четыре байта, адресуемые приводимой переменной, интерпретируются как действительное число. |
Tinteger |
Integer |
Два байта, адресуемые приводимой переменной, интерпретируются как целое число. |
TLong |
Long |
Четыре байта, адресуемые приводимой переменной, интерпретируются как длинное целое. |
TRealArray |
RealArray |
Область памяти, адресуемая приводимой переменной, интерпретируются как массив действительных чисел. |
TPRealArray |
PRealArray |
Четыре байта, адресуемые приводимой переменной, интерпретируются как указатель на массив действительных чисел. |
Таблица 4
Функции приведения типов (Продолжение)
Название |
Тип результата |
Описание |
TIntegerArray |
IntegerArray |
Область памяти, адресуемая приводимой переменной, интерпретируются как массив целых чисел. |
TPIntegerArray |
PIntegerArray |
Четыре байта, адресуемые приводимой переменной, интерпретируются как указатель на массив целых чисел. |
TLongArray |
LongArray |
Область памяти, адресуемая приводимой переменной, интерпретируются как массив длинных целых. |
TPLongArray |
PLongArray |
Четыре байта, адресуемые приводимой переменной, интерпретируются как указатель на массив длинных целых. |
TLogic |
Logic |
Адресуемый приводимой переменной байт интерпретируются как логическая переменная. |
TLogicArray |
LogicArray |
Область памяти, адресуемая приводимой переменной, интерпретируются как массив логических переменных. |
TPLogicArray |
LogicArray |
Четыре байта, адресуемые приводимой переменной, интерпретируются как указатель на массив логических переменных. |
TColor |
Color |
Два байта, адресуемые приводимой переменной, интерпретируются как переменная типа цвет. |
TFuncType |
FuncType |
Четыре байта, адресуемые приводимой переменной, интерпретируются как адрес функции. |
TPointer |
Pointer |
Четыре байта, адресуемые приводимой переменной, интерпретируются как адрес. |
Таблица 4
Функции приведения типов (Продолжение)
Название |
Тип результата |
Описание |
TString |
String |
256 байт области памяти, адресуемой приводимой переменной,
интерпретируются как строка символов. |
TPString |
PString |
Четыре байта, адресуемые приводимой переменной, интерпретируются как указатель на строку символов. |
TVisual |
Visual |
Четыре байта, адресуемые приводимой переменной, интерпретируются
как отображаемый элемент. |
Следующие примеры иллюстрируют использование преобразования и приведения типов:
При
вычислении следующих четырех выражений, получаются различные результаты
4096 * 4096 = 0
Поскольку константа 4096 имеет тип Integer, а 4096 * 4096 = 16777216 = 256 * 65536 , то есть младшие два байта результата равны нулю.
Long(4096 * 4096) = 0
Поскольку
оба сомножителя имеет тип Integer, то и выражение имеет тип Integer. Следовательно,
результат умножения равен нулю, который затем преобразуется к типу Long.
Long(4096) * 4096 = 16777216
Поскольку
первый сомножитель имеет тип длинное целое, то и выражение имеет тип длинное
целое.
4096.0 * 4096 = 1.677722E+7
Поскольку
первый сомножитель имеет тип Real, то и выражение имеет тип Real. Из-за
недостатка точности произошла потеря седьмого знака.
В следующем примере, используя приведение типов, в массив действительных чисел A размером в 66 элементов складываются: действительное число в первый элемент массива; длинное целое во второй элемент массива и символьную строку в элементы с 3 по 66.
A[1]
= 1.677722E+7
TLong(A[2])
= 16777216
TString(A[3])
= ‘Пример приведения типов’
Необходимо
отметить, что элементы массива A, начиная со второго, после выполнения
приведенного выше фрагмента программы не рекомендуется использовать как действительные
числа, поскольку элемент A[2] содержит значение 2.350988Е-38, а элемент A[5] –
значение -4.577438Е-18. Значение элементов, начиная с A[8] (символьная строка
‘Пример приведения типов’ содержит 23 символа и занимает 24 байта, то есть
шесть элементов массива) вообще не зависят от приведенного фрагмента программы
и содержат «мусор», который там находился ранее.
В
списке типов определены только одномерные массивы. Однако, при необходимости,
возможно использование двумерных массивов. Для этого в одномерный массив A необходимо
поместить указатели на одномерные массивы. При этом I,J-й элемент двумерного
массива записывается в виде:
TPRealArray(A[I])^[J]
В
этом примере использована функция приведения типов TPRealArray, указывающая,
что I-й элемент массива A нужно интерпретировать как указатель на одномерный
массив действительных чисел, и операция «^» указывающая, что вместо указателя
на массив TPRealArray(A[I]) используется массив, на который он указывает.
Таким образом, использование функций приведения типов позволяет из одномерных массивов строить структуры произвольной сложности. В языках программирования, таких как C и Паскаль, существует возможность строить пользовательские типы данных. При разработке стандарта эти возможности были исключены, поскольку использование пользовательских типов, облегчая написание программ, сильно затрудняет разработку компилятора или интерпретатора, а при использовании этого языка для описания компонентов нейрокомпьютера необходимость в пользовательских типах данных возникает чрезвычайно редко. Например, при описании примеров всех компонентов, приведенных в данной работе, такая необходимость ни разу не возникла.
В
данном разделе приведены все операции, которые могут быть использованы при
построении выражений различного типа. В табл. 5 приведены операции, которые
допустимы в целочисленных выражениях (выражениях типа Integer или Long). В
табл. 6 – список, дополняющий список операций из табл. 5 до полного списка
операций, допустимых в выражениях действительного типа. В табл. 7 – операции,
допустимые при построении логических выражений. В табл. 8 –для выражений типа
символьная строка. В главе 1 в табл. 3 – для выражений типа Color. Если
операндом может быть любой числовой тип, то вместо перечисления всех числовых
типов (Integer, Real, Long) указывается слово «числовой»
Таблица 5
Операции, допустимые в
целочисленных выражениях
Приоритет |
Обозна- чение |
Тип 1-го операнда |
Тип 2-го операнда |
Тип результата |
Название операции |
1 |
* |
Integer |
Integer |
Integer |
Умножение |
1 |
* |
Long |
Integer |
Long |
Умножение |
1 |
* |
Integer |
Long |
Long |
Умножение |
1 |
* |
Long |
Long |
Long |
Умножение |
1 |
Div |
Integer |
Integer |
Integer |
Целочисленное деление |
1 |
Div |
Integer |
Long |
Long |
Целочисленное деление |
1 |
Div |
Long |
Integer |
Long |
Целочисленное деление |
1 |
Div |
Long |
Long |
Long |
Целочисленное деление |
1 |
Mod |
Integer |
Integer |
Integer |
Остаток от деления |
1 |
Mod |
Long |
Integer |
Long |
Остаток от деления |
1 |
Mod |
Integer |
Long |
Long |
Остаток от деления |
Таблица 5
Операции, допустимые в
целочисленных выражениях (Продолжение)
Приоритет |
Обозна- чение |
Тип 1-го операнда |
Тип 2-го операнда |
Тип результата |
Название операции |
|
1 |
Mod |
Long |
Long |
Long |
Остаток от деления |
|
2 |
+ |
Integer |
Integer |
Integer |
Сложение |
|
2 |
+ |
Integer |
Long |
Long |
Сложение |
|
2 |
+ |
Long |
Integer |
Long |
Сложение |
|
2 |
+ |
Long |
Long |
Long |
Сложение |
|
2 |
– |
Integer |
Integer |
Integer |
Вычитание |
|
2 |
– |
Integer |
Long |
Long |
Вычитание |
|
2 |
– |
Long |
Integer |
Long |
Вычитание |
|
2 |
– |
Integer |
Long |
Long |
Вычитание |
|
2 |
– |
Long |
Integer |
Long |
Вычитание |
|
2 |
– |
Long |
Long |
Long |
Вычитание |
|
3 |
And |
Integer |
Integer |
Integer |
Побитное И |
|
3 |
And |
Long |
Long |
Long |
Побитное И |
|
3 |
Or |
Integer |
Integer |
Integer |
Побитное включающее ИЛИ |
|
3 |
Or |
Long |
Long |
Long |
Побитное включающее ИЛИ |
|
3 |
Xor |
Integer |
Integer |
Integer |
Побитное исключающее ИЛИ |
|
3 |
Xor |
Long |
Long |
Long |
Побитное исключающее ИЛИ |
|
3 |
Not |
Integer |
Integer |
Integer |
Побитное отрицание |
|
3 |
Not |
Long |
Long |
Long |
Побитное отрицание |
Таблица 6
Операции, дополняющие список
операций из табл. 5 до полного списка операций, допустимых в выражениях
действительного типа.
Приоритет |
Обозначение |
Тип 1-го операнда |
Тип 2-го операнда |
Тип Результата |
Название операции |
1 |
* |
Real |
числовой |
Real |
Умножение |
1 |
/ |
числовой |
числовой |
Real |
Деление |
1 |
RMod |
числовой |
числовой |
Real |
Остаток от деления |
2 |
+ |
Real |
числовой |
Real |
Сложение |
2 |
– |
Real |
числовой |
Real |
Вычитание |
Таблица 7
Операции, допустимые при
построении логических выражений
Прио- ритет. |
Обозна- чение |
Тип 1-го операнда |
Тип 2-го операнда |
Тип результата |
Название операции |
1 |
> |
числовой |
числовой |
Logic |
Больше |
1 |
< |
числовой |
числовой |
Logic |
Меньше |
1 |
>= |
числовой |
числовой |
Logic |
Больше или равно |
1 |
<= |
числовой |
числовой |
Logic |
Меньше или равно |
1 |
= |
числовой |
числовой |
Logic |
Равно |
1 |
<> |
числовой |
числовой |
Logic |
Не равно |
2 |
And |
Logic |
Logic |
Logic |
Логическое И |
2 |
Or |
Logic |
Logic |
Logic |
Логическое включающее ИЛИ |
2 |
Xor |
Logic |
Logic |
Logic |
Логическое исключающее ИЛИ |
2 |
Not |
Logic |
Logic |
Logic |
Логическое отрицание |
Таблица 8
Операции для выражений типа
символьная строка
Прио- ритет |
Обозна- чение |
Тип 1-го операнда |
Тип 2-го операнда |
Тип результата |
Название операции |
1 |
+ |
String |
String |
String |
Конкатенация (сцепка)
строк. |
Во всех таблицах операции размещаются по убыванию приоритета. Для каждой операции указаны допустимые типы операндов, и тип результата, в зависимости от типов операндов.
В
табл. 6 приводится необычная операция RMod – остаток от деления действительных
чисел. Результат этой функции равен разности между первым операндом и вторым
операндом, умноженным на целую часть отношения первого операнда ко второму.
Кроме
операций, приведенных в табл. 3 главы 1 и табл. 5–8, определены две взаимно
обратные операции для работы с адресами и указателями:
^ –
ставится после переменной типа указатель. Означает, что вместо указателя в выражении
используется переменная или массив, на который указывает этот указатель. Не
допускается после переменных типа Pointer.
@ –
ставится перед именем переменной любого типа. Означает, что в выражении участвует
не переменная, а адрес переменной. Используется при присвоении адресов переменных
или массивов переменным типа указатель.
Язык описания нейронных сетей предназначен для хранения сетей на диске. Следует отметить, что в отличии от таких компонентов, как предобработчик входных сигналов, оценка или задачник описание даже простой сети имеет большой размер. С другой стороны, многие подсети являются стандартными для большинства сетей. Для компонента сеть нет смысла вводить небольшой набор стандартных элементов и подсетей, поскольку этот набор может легко расширяться. Более эффективным является выделение часто употребляемых подсетей в отдельные библиотеки, подключаемые к описаниям конкретных сетей. В приведенных в этой главе примерах описания нейронных сетей выделен ряд библиотек.
В табл. 9 приведен список ключевых слов языка описания нейронных сетей. Кроме того, к ключевым словам относятся типы данных, приведенные в табл. 1 главы 1; обозначения операций, приведенные в табл. 3 главы 1, 5, 6, 7, 8; названия функций преобразования (табл. 3) и приведения типов (табл. 4); идентификаторы предопределенных констант, приведенные в табл. 4 главы 1; имена элементарных функций, приведенных в табл. 10 и обозначения функций управления памятью из раздела «функции управления памятью».
Таблица 9.
Ключевые слова языка
описания нейронных сетей.
Ключевое слово |
Краткое описание |
Back |
Метод, осуществляющий обратное функционирование подсети. Префикс сигналов обратного функционирования. |
Begin |
Начало описания тела процедуры, или операторных скобок. |
Block |
Тип аргумента подсети. Означает, что аргумент является подсетью. |
By |
Часть оператора цикла с шагом. Предшествует шагу цикла. |
Cascad |
Тип подсети – каскад. |
Connections |
Начало блока описания связей подсети. |
Contents |
Начало блока описания состава подсети. |
DefaultType |
Тип параметров по умолчанию. |
Do |
Завершающая часть операторов цикла. |
Element |
Тип подсети – элемент. |
Else |
Часть условного оператора. Предшествует оператору, выполняемому, если условие ложно. |
End |
Конец описания тела процедуры или операторных скобок. |
For |
Заголовок оператора цикла с шагом. |
Forw |
Метод, осуществляющий прямое функционирования подсети. |
Function |
Заголовок описания функции. |
Global |
Начло блока описания глобальных переменных. |
GoTo |
Начало оператора перехода. |
If |
Начало условного оператора. |
Include |
Предшествует имени файла, целиком вставляемого в это место описания. |
InSignalMask |
Имя, по которому адресуются маски обучаемости входных сигналов подсети. |
InSignals |
Имя, по которому адресуются входные сигналы подсети; начало блока описания входных сигналов. |
Таблица 9.
Ключевые слова языка
описания нейронных сетей (Продолжение)
Ключевое слово |
Краткое описание |
Label |
Начало описания меток |
Layer |
Тип подсети – слой. |
|
Тип подсети – цикл, выполняемый указанное число раз. |
MainNet |
Начало описания главной сети |
Name |
Предшествует имени статической переменной. |
NetLib |
Начало описания библиотеки подсетей. |
NetWork |
Начало описания сети |
NumberOf |
Функция (запрос). Возвращает число параметров или сигналов в подсети. |
OutSignals |
Имя, по которому адресуются выходные сигналы
подсети; начало блока описания выходных сигналов. |
ParamDef |
Заголовок определения типа параметров. |
Parameters |
Имя, по которому адресуются параметры подсети; начало блока описания параметров. |
ParamMask |
Имя, по которому адресуются маски обучаемости параметров подсети. |
ParamType |
Заголовок описания типа параметров. |
SetParameters |
Признак раздела установления значений параметров. |
Static |
Начло блока описания статических переменных. |
Then |
Часть условного оператора, предшествующая оператору, выполняемому, если условие истинно. |
To |
Часть оператора цикла с шагом. Предшествует верхней границе цикла. |
Var |
Начло блока описания переменных. |
While |
Заголовок оператора цикла по условию. |
Until |
Тип подсети – цикл, выполняемый до тех пор пока не выполнится условие. |
Used |
Начало списка подключаемых библиотек подсетей |
Таблица 10
Элементарные функции,
допустимые в языке описания нейронных сетей
Имя |
Значение |
Имя |
Значение |
Sin |
Синус |
Cos |
Косинус |
Tan |
Тангенс |
Atan |
Арктангенс |
Sh |
Гиперболический синус |
Ch |
Гиперболический косинус |
Th |
Гиперболический тангенс |
Lg |
Логарифм двоичный |
Ln |
Логарифм натуральный |
Exp |
Экспонента |
Sqrt |
Квадратный корень |
Sqr |
Квадрат |
Abs |
Абсолюеное значение |
Sign |
Знак аргумента (0 – минус) |
Во всех языках описания компонентов все параметры
передаются по ссылке (передается не значение аргумента, а его адрес). Если в
качестве фактического аргумента указано выражение, то значение выражения
помещается интерпретатором (или компилятором) во временную переменную, имеющую
тип, совпадающий с типом формального аргумента, а адрес временной переменной
передается в качестве фактического аргумента.
Компонент
нейронная сеть имеет иерархическую структуру. Часть запросов может быть
адресована не всему компоненту, а его структурной единице любого уровня. Для
точного указания адресата запроса используется полное имя структурной единицы,
которое строится по следующему правилу:
1. Имя компонента является
полным именем компонента.
2. Полное имя младшей
структурной единицы строится путем добавления справа к имени старшей структурной
единицы точки, псевдонима младшей структурной единицы и номера экземпляра
младшей структурной единицы, если младших структурных единиц с таким
псевдонимом несколько.
Иногда
при построении описания компонента требуется однозначное имя структурной
единицы. В качестве однозначного имени можно использовать полное имя, но такой
подход лишает возможности вставлять подготовленные структурные единицы в
структуры более высокого уровня. Для этого вводится понятие однозначного имени
структурной единицы: в описании структурной единицы A однозначным именем структурной единицы B, являющейся частью структурной единицы A, является полное имя
структурной единицы B,
из которого исключено полное имя структурной единицы A.
Для описания синтаксиса языков описаний компонентов используется расширенная Бэкусова нормальная форма. Описание синтаксиса языка с помощью БНФ состоит в расшифровке понятий от более сложных к более простым. Каждое предложение БНФ состоит из двух частей, разделенных символами «::=» (два двоеточия, за которыми следует знак равенства). Наиболее подходящим названием для этого разделителя является слово «является» в отличие от «равно» или «присвоить» в языках программирования. Слева от разделителя находится объясняемое понятие, справа – конструкция разъясняющая это понятие. Например, предложение
<Имя переменной> ::=
<Идентификатор>
означает, что объясняемое понятие – <Имя
переменной> является идентификатором. Заметим, что порядок предложений в БНФ
описания синтаксиса языка не имеет значения. Однако традиционно сложилось так,
что БНФ начинают с наиболее сложных понятий.
При
описании синтаксиса языка с помощью БНФ используются следующие понятия и
обозначения.
Нетерминальным символом называется понятие, которое
должно быть раскрыто в пределах данной БНФ. Нетерминальным символом является
произвольный набор символов, заключенный в угловые скобки, например
<Имя>. Нетерминальный символ раскрыт, если в пределах БНФ встретилось
предложение, в котором этот нетерминальный символ стоит в левой части.
Терминальным символом называется понятие, которое
не требует раскрытия. Примерами терминальных символов являются буквы, цифры и
ключевые слова описываемого языка. Терминальные символы не заключаются в
угловые скобки и набраны курсивом, например Имя.
Подмножеством
терминальных символов является набор ключевых слов языка. Для удобства ключевые
слова набраны полужирным шрифтом, например, Имя.
В
прямых квадратных скобках приводятся необязательные части синтаксических
конструкций. Например предложение
<Целое число> ::= [–]
<Положительное целое число>
означает, что целым числом является положительное
целое число (знак минус, стоящий в квадратных скобках, опущен как
необязательный) или положительное целое число, перед которым стоит знак минус
(знак минус, стоящий в квадратных скобках, задействован). Отметим, что
квадратные скобки, набранные курсивом, являются терминальными символами.
Набор
из нескольких синтаксических конструкций, разделенных символом «½» и заключенных в прямые
фигурные скобки задают конструкцию выбора одной и только одной из перечисленных
в фигурных скобках конструкций. Например, предложение
<Буква> ::= { A ½ B ½ C ½ D ½ E ½ F ½ G ½ H ½ I ½ J ½ K ½ L ½ M ½ N ½ O ½ P ½
Q ½ R ½ S ½ T ½ U ½ V ½ W ½ X ½ Y ½ Z}
означает, что понятие буква является одной из
заглавных букв латинского алфавита. Отметим, что фигурные скобки, набранные
курсивом, являются терминальными символами.
В
целях сокращения описания в тех случаях, когда БНФ описание понятия сложно, а
неформальное описание просто и однозначно, в БНФ описание включаются фрагменты
неформального описания таких понятий.
Кроме
того в данную модификацию БНФ включены нетерминальные символы с параметрами. В
теле нетерминального символа параметры набраны полужирным курсивом. В качестве
примера приведем набор предложений, описывающих формальные аргументы:
<Список
формальных аргументов> ::= <Формальный аргумент> [; <Список формальных
аргументов>]
<Формальный
аргумент> ::= <Список имен аргументов> : <Скалярный тип>
<Список
имен аргументов> ::= <Имя аргумента> [,<Список имен аргументов>]
<Имя
аргумента> ::= <Идентификатор>
<Аргумент
типа Тип>
– одно из следующих понятий:
имя аргумента, который при
описании формальных аргументов имел тип Тип
имя элемента
аргумента-массива, если элементы массива имеют тип Тип
результат приведения
произвольного аргумента или элемента аргумента-массива к типу Тип.
В этом фрагменте содержится предложение,
раскрывающее понятие <Аргумент типа Тип>, являющееся нетерминальным
символом с параметром. Из последнего предложения легко понять, что представляет
собой понятие <Аргумент типа Тип>. Для описания этого понятия
в соответствии с требованиями стандартной БНФ пришлось бы описывать отдельно следующие
понятия: <Аргумент типа Long>, <Аргумент типа Real>,
<Аргумент типа Integer>, <Аргумент типа Color>, <Аргумент типа Logic>,
<Аргумент типа String>, <Аргумент типа PRealArray>, <Аргумент
типа PIntegerArray>, <Аргумент типа PLongArray>, <Аргумент типа
PLogicArray>, <Аргумент типа PString>, <Аргумент типа Visual>,
<Аргумент типа Pointer>, <Аргумент типа FuncType>. Кроме того,
пришлось бы отказаться от простой и понятной конструкции описания формальных аргументов.
Ниже приведена часть конструкции описания формальных аргументов, которую
пришлось бы включить в БНФ. В данном фрагменте приведена расшифровка только
одного понятия – <Аргумент типа Long>. Остальные нераскрытые
понятия описываются аналогично. Понятия <Идентификатор> и <Номер
элемента> считаются раскрытыми ранее.
<Список формальных аргументов> ::=
<Формальный аргумент> [; <Список формальных аргументов>]
<Формальный аргумент> ::= {<Формальный
аргумент типа Long> ½ <Формальный аргумент
типа Real> ½ <Формальный аргумент
типа Integer> ½ <Формальный аргумент
типа Color> ½ <Формальный аргумент
типа Logic> ½ <Формальный аргумент
типа String> ½ <Формальный аргумент
типа PRealArray> ½ <Формальный аргумент
типа PIntegerArray> ½ <Формальный аргумент
типа PLongArray> ½ <Формальный аргумент
типа PLogicArray> ½ <Формальный аргумент
типа PString> ½ <Формальный аргумент
типа Visual> ½ <Формальный аргумент
типа Pointer> ½ <Формальный аргумент
типа FuncType>}
<Формальный аргумент типа Long>
::= <Список имен аргументов типа Long> : Long;
<Список имен аргументов типа Long>
::= <Имя аргумента типа Long> [,<Список имен
аргументов типа Long>]
<Имя аргумента типа Long> ::=
<Идентификатор>
<Аргумент типа Long> ::= {<Имя аргумента
типа Long> ½ <Имя аргумента типа
PLongArray>^[<Номер элемента>] ½ TLong(<Имя произвольного
аргумента>)}
<Имя произвольного аргумента> ::= <Имя
аргумента типа Long>, <Имя аргумента типа Real>,
<Имя аргумента типа Integer>, <Имя аргумента типа
Color>, <Имя аргумента типа Logic>, <Имя аргумента типа
String>, <Имя аргумента типа PRealArray>, <Имя аргумента типа
PIntegerArray>, <Имя аргумента типа PLongArray>, <Имя аргумента
типа PLogicArray>, <Имя аргумента типа PString>, <Имя аргумента
типа Visual>, <Имя аргумента типа Pointer>, <Имя аргумента типа
FuncType>
Третье четвертое и пятое предложения данного фрагмента пришлось бы повторить для каждого из остальных тринадцати типов аргументов. Поскольку приведенные в книге БНФ описания языков призваны задать и объяснить синтаксис языка, а не служить исходным кодом компилятора компиляторов, автор счел возможным отступить от канонов БНФ, тем более, что для профессионала в области языков программирования не составит большого труда заменить неформальные конструкции на точные формальные фрагменты.
В
данном разделе приведено описание общего подмножества языков описания компонентов.
В некоторых случаях, когда БНФ описание понятия сложно, а неформальное описание
просто и однозначно, в БНФ описание включаются фрагменты неформального описания
таких понятий.
Список
синтаксических конструкций общего назначения:
<Идентификатор> ::= <Буква>
[<Символьная строка>]
<Буква> ::= {a ½ b ½ c ½ d ½ e ½ f ½ g ½ h ½ i ½ j ½ k ½ l ½ m ½ n ½ o ½ p ½ q ½ r ½ s ½ t ½ u ½ v ½ w ½ x ½ y ½ z ½ A ½ B ½ C ½ D ½ E ½ F ½ G ½ H ½ I ½ J ½ K ½ L ½ M ½ N ½ O ½ P ½ Q ½ R ½ S ½ T ½ U ½ V ½ W ½ X ½ Y ½ Z}
<Символьная строка> ::= {<Буква> ½ <Цифра> ½ _ } [<Символьная
стока>]
<Цифра> ::= {0 ½ 1 ½ 2 ½ 3 ½ 4 ½ 5 ½ 6 ½ 7 ½ 8 ½ 9}
<Число> ::= {<Целое число> ½ <Действительное
число>}
<Целое число> ::= [–] <Положительное целое
число>
<Положительное целое число> ::= <Цифра>
[<Положительное целое число>]
<Действительное число> ::= <Целое
число>[.<Положительное целое
число>] [e<Целое число>]
<Целочисленная константа> ::=
{<Предопределенная константа типа Integer> ½ <Предопределенная
константа типа Long> ½ <Целое число>}
<Цветовая константа> ::= H <Шестнадцатеричная цифра> <Шестнадцатеричная цифра>
<Шестнадцатеричная цифра> <Шестнадцатеричная цифра>
<Шестнадцатеричная цифра> ::= {0 ½ 1 ½ 2 ½ 3 ½ 4 ½ 5 ½ 6 ½ 7 ½ 8 ½ 9 ½ A ½ B ½ C ½ D ½ E ½ F }
<Строковая константа> ::= “<Строка
произвольных символов>”
<Логическая константа> ::= {True ½ False}
<Строка
произвольных символов> – Последовательность произвольных символов из набора
ANSI. В этой последовательности допускаются символы национальных алфавитов. При
необходиости включить в эту конструкцию символ кавычек, он должен быть удвоен.
<Скалярный тип> ::= {Long ½ Real ½ Integer ½ Color ½ Logic ½ String ½ PRealArray ½ PIntegerArray ½ PLongArray ½ PLogicArray ½ PString ½ Visual ½ Pointer ½ FuncType}
<Тип массива> ::= { RealArray ½ IntegerArray ½ LongArray ½ LogicArray}
<Константа типа Тип> – константа
имеющая тип Тип.
Список
синтаксических конструкций для формальных аргументов:
<Список формальных аргументов> ::=
<Формальный аргумент> [; <Список формальных аргументов>]
<Формальный аргумент> ::= <Список имен
аргументов> : <Скалярный
тип>
<Список имен аргументов> ::= <Имя
аргумента> [,<Список имен аргументов>]
<Имя аргумента> ::= <Идентификатор>
<Аргумент
типа Тип>
– одно из следующих понятий:
имя аргумента, который при
описании формальных аргументов имел тип Тип
имя
элемента аргумента-массива, если элементы массива имеют тип Тип
результат приведения
произвольного аргумента или элемента аргумента-массива к типу Тип.
Синтаксические
конструкции описания переменных:
<Описание переменных> ::= Var <Список описаний однотипных переменных>
<Список описаний однотипных переменных> ::=
<Тип переменной> <Список переменных>; [<Список описаний однотипных переменных>]
<Список переменных> ::= <Имя переменной>
[, <Список переменных>]
<Имя переменной> ::= <Идентификатор>
<Тип переменной> ::= {<Скалярный тип> ½ <Тип массива>[<Целочисленное константное выражение>]}
<Переменная типа Тип> – одно из
следующих понятий:
имя
переменной, которая при описании переменных имела тип Тип
имя
элемента массива, если элементы массива имеют тип Тип
результат приведения
произвольной переменной или элемента массива к типу Тип.
Синтаксические
конструкции описания статических переменных
Статические
переменные, как правило, служат для описания параметров компонентов
нейрокомпьютера. Использование в именах переменных только символов латинского
алфавита и цифр делает идентификаторы универсальными, но неудобными для всех
пользователей, кроме англо-говорящих. Для удобства всех остальных пользователей
в описании статических переменных предусмотрена возможность использовать дополнительные
имена для статических переменных. Однако эти имена служат только для построения
интерфейса и не могут быть использованы в описании тела соответствующего
компонента. Кроме того, статической переменной можно при описании задать
значение по умолчанию.
<Описание статических переменных> ::= Static <Список описаний статических
переменных>
<Список описаний статических переменных> ::=
<Описание статической переменной>; [<Список описаний статических
переменных>]
<Описание статической переменной> ::= <Тип
переменной> <Имя переменной> [Name <Имя статической переменной>] [Default <Значение по умолчанию>]
<Имя статической переменной> ::= <Строковая
константа>
<Значение по умолчанию> ::= <Константное
выражение типа <Тип переменной>>
Синтаксические
конструкции описания функций
<Описание функций> ::= <Описание
функции> [<Описание функций>]
<Описание функции> ::= <Заголовок
функции> <Описание переменных> <Описание меток> <Тело
функции>
<Заголовок функции> ::= Function <Имя функции>[(<Список
формальных аргументов>)] :
<Скалярный тип>;
<Описание меток> ::= Label <Список меток>;
<Список меток> ::= <Имя метки> [,
<Список меток>]
<Имя метки> ::= <Идентификатор>
<Тело функции> ::= Begin <Составной оператор> End;
<Составной оператор> ::= [<Имя метки>:] <Оператор>
[; <Составной оператор>]
<Оператор> ::= {<Оператор присваивания> ½ <Оператор ветвления> ½ <Оператор цикла> ½ <Оператор перехода> ½ <Операторные скобки>}
<Оператор присваивания> ::= <Допустимое имя
переменной> = <Выражение>
<Оператор ветвления> ::= If <Логическое выражение> Then <Оператор> [Else <Оператор>]
<Оператор цикла> ::= { <Цикл For> ½ <Цикл While> }
<Цикл For> ::= For <Имя переменной> = <Целочисленное
выражение> To <Целочисленное
выражение> [By <Целочисленное
выражение>] Do <Оператор>
<Цикл While> ::= While <Логическое выражение> Do <Оператор>
<Оператор перехода> ::= GoTo <Имя
метки>
<Операторные скобки> ::= Begin <Составной оператор> End
<Функция типа Тип>
– функция, возвращающая величину типа Тип.
<Допустимое имя
переменной> – допустимой переменной являются все переменные, описанные в
данной функции или в данном процедурном блоке, глобальные переменные данного
компонента. Для возвращения значения функции, в левой части оператора
присваивания должно стоять имя функции.
Синтаксические
конструкции описания выражений:
<Выражение> ::= { <Выражение типа Long>
½ <Выражение типа Real>
½ <Выражение типа Integer>
½ <Выражение типа Color>
½ <Выражение типа Logic>
½ <Выражение типа String> ½ <Выражение
типа Pointer>}
<Целочисленное выражение> ::= { <Выражение
типа Long>
½ <Выражение типа Integer>}
<Выражение типа Тип> ::=
[<Префиксная операция типа Тип>] <Операнд типа Тип>
[<Операция типа Тип> <Операнд типа Тип>]
<Операция типа Long> ::= {+ ½ – ½ * ½ Div ½ Mod ½ And ½ Or ½ Xor}
<Операция типа Real>::= {+ ½ – ½ * ½ / ½ RMod }
<Операция типа Integer> ::= {+ ½ – ½ * ½ Div ½ Mod ½ And ½ Or ½ Xor}
<Операция типа Color> ::= {COr ½ CAnd ½ CXor}
<Операция типа Logic> ::= {And ½ Or ½ Xor}
<Операция типа String> ::= +
<Префиксная операция типа Long> ::= { – ½ Not }
<Префиксная операция типа Real>::= –
<Префиксная операция типа Integer> ::= { – ½ Not }
<Префиксная операция типа Color> ::= CNot
<Префиксная операция типа Logic> ::= Not
<Операнд типа Logic> ::= ::=
{<Результат сравнения> ½ <Выражение типа Logic>
½ (<Выражение типа Logic>) ½ <Константа типа Logic>
½ <Переменная типа Logic>
½ <Аргумент типа Logic>
½ <Вызов функции типа Logic>}
<Результат сравнения типов Long, Integer, Real>
::= (<Выражение типа
Long, Integer, Real> {> ½ < ½ >= ½ <= ½ = ½ <>} <Выражение
типа
Long, Integer, Real> )
<Результат сравнения типа Color> ::= (<Выражение типа Color> {CEqual ½ CIn ½ CInclude ½ CExclude ½ CIntersect} <Выражение типа Color> )
<Результат сравнения типа String> ::= (<Выражение типа String> {= ½ <>} <Выражение
типа
String> )
<Операнд типа Тип> ::=
{<Выражение типа Тип> ½ (<Выражение типа Тип>) ½ <Константа типа Тип>
½ <Переменная типа Тип>
½ <Аргумент типа Тип>
½ <Вызов функции типа Тип>}
<Вызов функции типа Тип> ::= <Имя
функции типа Тип> [(<Список
фактических аргументов>)]
<Список фактических аргументов> ::=
<Выражение> [,<Список фактических аргументов>]
<Константное выражение типа Тип> – <Выражение
типа Тип>
в операндах которого не могут фигурировать переменные и функции, описанные
пользователем.
<Числовое выражение> ::= { <Выражение типа Long>
½ <Выражение типа Real>
½ <Выражение типа Integer>}
Синтаксические
конструкции задания значений статическим переменным
Эта
конструкция служит для задания значений параметрам (статическим переменным)
компонентов. Для компонента сеть она может встречаться не только при описании
главной сети, но и при описании любой составной подсети. В специальных
выражениях типа Тип могут участвовать только стандартные функции и аргументы
той структурной единицы, в которой находится блок задания значений статическим
переменным. При этом специальное выражение, задающее значение параметра должно
иметь тип, совместимый с типом статической переменной, которой присваивается
это значение.
<Установление параметров Структурной единицы>
::= <Однозначное имя Структурной единицы> [[[<Переменная цикла>:]
<Начальный номер> [..<Конечный номер> [:<Шаг>] ]]] SetParameters
<Список значений параметров>
<Переменная цикла> ::= <Идентификатор>
<Начальный номер> ::= <Константное
выражение типа Long>
<Конечный номер> ::= <Константное выражение
типа Long>
<Шаг> ::= <Константное выражение типа Long>
<Список значений параметров> ::= <Значение
параметра> [,<Список значений параметров>]
<Значение параметра> ::= <Специальное
выражение типа Тип>
<Специальное выражение типа Тип> ::=
[<Префиксная операция типа Тип>] <Специальный операнд
типа Тип>
[<Операция типа Тип> <Специальный операнд типа Тип>]
<Специальный операнд типа Тип > ::= {<Специальное
выражение типа Тип > ½ <Константа типа Тип> ½ <Переменная
цикла> ½ (<Специальное
выражение типа Тип > ½ <Аргумент
типа Тип>
½ <Вызов функции типа Тип>)}
Синтаксические
конструкции описания распределения сигналов или параметров:
Данная
конструкция имеет четыре аргумента, имеющих следующий смысл:
Данное – сигнал или параметр.
Объект – предобработчик, интерпретатор,
оценка, сеть.
Подобъект – частный предобработчик,
частный интерпретатор, частная оценка, подсеть.
<Идентификатор
данных> – одно из ключевых слов Signals, Parameters, Data, InSignals, OutSignals.
<Описание распределения Данных, Объекта, Подобъекта, <Идентификатор
данных>> ::= Connections <Описание
групп соответствий Данных>
<Описание групп соответствий Данных> ::=
<Описание группы соответствий Данных> [;<Описание групп соответствий
Данных>]
<Описание группы соответствий Данных> ::= <Блок
сигналов Подобъекта> <=>
{<Блок сигналов Объекта> ½ <Блок сигналов Подобъекта>}
<Блок сигналов Подобъекта> ::=
<Описатель сигналов Подобъекта> [;<Блок сигналов Подобъекта>]
<Описатель сигналов Подобъекта> ::= { For <Переменная цикла> =
<Начальный номер> To <Конечный
номер> [Step <Шаг>] Do <Блок сигналов Подобъекта>
End ½ <Список Данных
Подобъекта>}
<Переменная цикла> ::= <Идентификатор>
<Список Данных Подобъекта> ::= <Данное
Подобъекта>[;
<Список Данных Подобъекта>]
<Данное Подобъекта> ::=
<Псевдоним>[[<Номер экземпляра>]].<Идентификатор данных> [[<Номер Данного>]]
<Номер экземпляра> ::= {<Специальное
выражение типа Long> ½ [+:]<Начальный номер>
[..<Конечный номер> [:<Шаг>]]}
<Номер Данного> {<Специальное
выражение типа Long> ½ [+:]<Начальный номер>
[..<Конечный номер> [:<Шаг>]]}
<Блок Данных Объекта> ::=
<Описатель Данных Объекта> [; <Блок Данных
Объекта>]
<Описатель Данных Объекта> ::= { For <Переменная цикла> =
<Начальный номер> To <Конечный
номер> [Step <Шаг>] Do <Блок Данных
Объекта>
End ½ <Список Данных
Объекта>
}
<Список Данных Объекта> ::= <Данное
Объекта>[;
<Список Данных Объекта>]
<Данное Объекта> ::= <Идентификатор
данных> [[<Номер Данного>]]
Для
понятности описаний компонентов в них необходимо включать комментарии.
Комментарием является любая строка (или несколько строк) символов, заключенных
в фигурные скобки. Комментарий может находиться в любом месте описания
компонента. При интерпретации или компиляции описания комментарии игнорируются
(исключаются из текста).
Все
идентификаторы состоят из произвольных комбинаций латинских букв, цифр и
подчерков. Первым символом имени обязательно является буква. Использование букв
только латинского алфавита связано с тем, что коды, используемые большинством
компьютеров, имеют одинаковую кодировку для букв латинского алфавита, тогда как
для букв национальных алфавитов других стран кодировка различна не только от
компьютера к компьютеру но и от одной операционной системы к другой.
Заглавные
и прописные буквы не различаются ни в именах, ни в ключевых словах.
Все
переменные (описанные в блоках Var и Static) являются локальными и доступны
только в пределах той функции или процедурного блока, в котором они описаны.
Статические переменные сохраняют свое значение между вызовами функций или процедурных
блоков, тогда как переменные, описанные в блоках Var, не сохраняют.
Переменная Error является глобальной для всех
компонентов. Глобальной является также переменная ErrorManager. Однако не
рекомендуется использование этих переменных путем прямого обращения к ним. Для
получения значения переменной Error служит запрос GetError, исполняемый
макрокомпонентом нейрокомпьютер.
Оператор присваивания состоит из двух частей, разделенных знаком “=“. В левой части оператора присваивания могут участвовать имена любых переменных. В выражении, стоящем в правой части оператора присваивания могут участвовать любые переменные, аргументы процедурного блока и константы. В случае несоответствия типа выражения в правой части и типа переменной в левой части оператора присваивания производится приведение типа. Все выражения вычисляются слева на право с учетом старшинства операций.
Оператор
ветвления. Оператор ветвления состоит из трех частей, каждая из которых
начинается соответствующим ключевым словом. Первая часть – условие, начинается
с ключевого слова If и содержит логическое выражение. В зависимости от значения
вычисленного логического выражения выполняется Then часть (истина) или Else
часть (ложь). Третья (Else) часть оператора может быть опущена. Каждая из
выполняемых частей состоит из ключевого слова и оператора. При необходимости
выполнить несколько операторов, необходимо использовать операторные скобки
Begin End.
Цикл
For имеет следующий вид:
For Переменная_цикла
= Начальное_значение To Конечное_значение [By Шаг] Do <Оператор>
Переменная
цикла должна быть одного из целочисленных типов. В ходе выполнения оператора
она пробегает значения от Начальное_значение до Конечное_значение с шагом Шаг.
Если описание шага опущено, то шаг равен единице. При каждом значении переменной
цикла из диапазона выполняется оператор, являющийся телом цикла. Если в теле
цикла необходимо выполнить несколько операторов, то необходимо воспользоваться
операторными скобками. Допускается любое число вложенных циклов. Выполнение
цикла в зависимости от соотношения между значениями Начальное_значение, Конечное_значение и Шаг приведено в
табл. 11.
Таблица 11.
Способ
выполнения цикла в зависимости от значений параметров цикла.
Конечное значение |
Шаг |
Способ выполнения |
>Начального значения |
>0 |
Цикл выполняется пока переменная цикла £ Конечного значения |
<Начального значения |
>0 |
Тело цикла не выполняется |
=Начальному значению |
¹0 |
Тело цикла выполняется один раз |
>Начального значения |
<0 |
Тело цикла не выполняется |
<Начального значения |
<0 |
Цикл выполняется пока переменная цикла ³ Конечного значения |
|
=0 |
Тело цикла не выполняется |
Цикл While. Тело цикла выполняется до
тех пор, пока верно логическое выражение. Проверка истинности логического
выражения производится перед выполнением тела цикла. Если тело цикла должно
содержать более одного оператора, то необходимо использовать операторные
скобки.
Раздел
описания распределения сигналов начинается с ключевого слова Connections. За
ключевым словом Connections следует одна или несколько групп соответствий.
Каждая группа соответствий состоит из правой и левой частей, разделенных
символами «<=>» и описывает соответствие имен сигналов (параметров)
различных структурных единиц. Каждая часть группы соответствий представляет
собой список сигналов (параметров) или интервалов сигналов (параметров),
разделенных между собой символом «;». Указанные в левой и правой частях сигналы
(параметры) отождествляются. Если при указании сигнала (параметра) не указано
имя подобъекта, то это сигнал (параметр) описываемого объекта. Использование
интервала сигналов (параметров) в правой или левой части группы соответствий
равносильно перечислению сигналов (параметров), с номерами, входящими в интервал,
начиная с начального номера c шагом, указанным после
символа «:». Если шаг не указан, то он полагается равным единице. Число
сигналов в правой и левой частях группы соответствий должно совпадать. Если
интервал пуст (например [2..1:1]), то описываемая им группа сигналов считается
отсутствующей и пропускается. При использовании в описании соответствий явных
циклов, во всех выражениях внутри цикла возможно использование переменной
цикла. При этом подразумевается следующий порядок перечисления: Сначала
изменяется номер в самом правом интервале, далее во втором справа, и т.д. В
последнюю очередь изменяются значения переменных цикла явных циклов в порядке
их вложенности (переменная самого внутреннего цикла меняется первой и т.д.). Рассмотрим
следующий пример описания группы соответствий блока, содержащего две сети Net с 3
входами каждая. Ниже приведено две различных структуры связей по несколько
эквивалентных вариантов описания.
Случай
1. Естественный порядок связей.
Вариант 1.
InSignals[1] <=> Net[1].InSignals[1]
InSignals[2] <=> Net[1].InSignals[2]
InSignals[3] <=> Net[1].InSignals[3]
InSignals[4] <=> Net[2].InSignals[1]
InSignals[5] <=> Net[2].InSignals[2]
InSignals[6] <=> Net[2].InSignals[3]
Вариант 2.
InSignals[1..6] <=> Net[1..2].InSignals[1..3]
Вариант 3.
InSignals[1]; InSignals[2]; InSignals[3]; InSignals[4]; InSignals[5];
InSignals[6] <=> For I=1 To 3 Do For J=1 To 2
Do Net[J].InSignals[I] End End
Случай
2. Другой порядок связей.
Вариант 1.
InSignals[1] <=> Net[2].InSignals[3]
InSignals[2] <=> Net[1].InSignals[3]
InSignals[3] <=> Net[2].InSignals[2]
InSignals[4] <=> Net[1].InSignals[2]
InSignals[5] <=> Net[2].InSignals[1]
InSignals[6] <=> Net[1].InSignals[1]
Вариант 2.
InSignals[1..6] <=> For I=3 To 1 Step
-1 Do Net[2..1:-1].InSignals[I] End
Вариант 3.
InSignals[6..1:-2]; InSignals[5..1:-2]<=>
For I=1 To 3 Do For J=1 To 2 Do Net[J].InSignals[I] End End
Для
создания массивов и освобождения занимаемой ими памяти используются следующие
функции:
Создание массива.
Function NewArray( Type :
Integer; Size : Long ) : PRealArray;
Таблица 12. |
Предопределенные константы типов элементов массивов |
Иденти- Фикатор |
Значение |
Описание |
MRealArray |
4 |
Размер элемента – 4 байта |
MIntegerArray |
2 |
Размер элемента – 2 байта |
mLongArray |
4 |
Размер элемента – 4 байта |
mLogicArray |
1 |
Размер элемента – 1 байт |
Описание
аргументов:
Type
– задает размер элемента массива и является одной из предопределенных констант,
приведенных в табл. 12.
Size
– число элементов в массиве.
Описание
исполнения.
1. Если аргумент Type не
совпадает ни с одной из предопределенных констант, приведенных в табл. 12, то
возвращается значение Null, исполнение функции завершается.
2. Создается массив, занимающий
Size*Type+4 байта.
3. Адрес массива возвращается
как результат.
Освобождение массива.
Function FreeArray( Type :
Integer; Array : PRealArray ) : Logic;
Описание
аргументов:
Type
– задает размер элемента массива и является одной из предопределенных констант,
приведенных в табл. 12.
Array
– адрес массива. Память, занимаемая этим массивом, должна быть освобождена.
Описание
исполнения.
1. Если аргумент Type не
совпадает ни с одной из предопределенных констант, приведенных в табл. 12, то
возвращается значение False, исполнение функции завершается.
2. Освобождается память
размером TReal(Array[0])*Type+4 байта.
3. Аргументу Array
присваивается значение Null
Пересоздание массива.
Function ReCreateArray( Type :
Integer; Array : PRealArray; Size : Long ) : Logic;
Описание
аргументов:
Type
– задает размер элемента массива и является одной из предопределенных констант,
приведенных в табл. 12.
Array
– адрес массива.
Size
– число элементов в массиве.
Описание
исполнения.
1. Если аргумент Type не
совпадает ни с одной из предопределенных констант, приведенных в табл. 12, то
возвращается значение False, исполнение функции завершается.
2. Если аргумент Array не равен
Null, и TReal(Array[0]) равен Size, то возвращается значение True, выполнение
функции завершается.
3. Если аргумент Array не равен
Null, и TReal(Array[0]) не равен Size, то освобождается память размером
TReal(Array[0])*Type+4 байта. Аргументу Array присваивается значение Null
4. Аргументу Array
присваивается значение NewArray(Type,Size), возвращается значение True,
исполнение функции завершается.
В
данном разделе приведена БНФ языка описания сетей.
<Описание библиотеки
подсетей> ::= <Заголовок библиотеки> <Описание подсетей> <Конец
описания библиотеки>
<Заголовок библиотеки>
::= NetLib <Имя библиотеки> [Used <Список имен библиотек>]
<Имя библиотеки> ::=
<Идентификатор>
<Список имен библиотек>
::= <Имя используемой библиотеки> [,<Список имен библиотек>]
<Имя используемой
библиотеки> ::= <Идентификатор>
<Описание подсетей>
::= <Описание подсети> [<Описание подсетей>]
<Описание подсети> ::=
{<Описание элемента> ½ <Описание блока> ½ <Описание функций>}
<Описание элемента>
::= <Заголовок описания элемента> <Описание сигналов и параметров>
[<Описание типов параметров>] [<Определение типов параметров>]
[<Описание статических переменных>] [<Установление значений
статических переменных>] <Описание методов> <Конец описания
элемента>
<Заголовок описания
элемента> ::= Element <Имя
элемента> [(<Список формальных
аргументов>)]
<Имя элемента> ::=
<Идентификатор>
<Описание сигналов и
параметров> ::= <Описание входных сигналов> <Описание выходных
сигналов> [<Описание параметров>]
<Описание входных
сигналов> ::= InSignals <Константное
выражение типа Long>
<Описание выходных
сигналов> ::= OutSignals <Константное
выражение типа Long>
<Описание параметров>
::= Parameters <Константное
выражение типа Long>
<Описание типов
параметров> ::= <Описание типа параметров> [<Описание типов параметров>]
<Описание типа
параметров> ::= ParamType <Имя
типа параметра> <Список>
<Имя типа параметра>
::= <Идентификатор>
<Список> ::= {Parameters[<Начальный номер> [..<Конечный номер> [<Шаг>]]] ½ InSignals[<Начальный
номер> [..<Конечный номер> [<Шаг>]]]} [;<Список>]
<Определение типов
параметров> ::= <Определение типа параметра> [<Определение типов
параметров>]
<Определение типа
параметра> ::= ParamDef <Имя
типа параметра> <Минимальное значение> <Максимальное значение>
<Минимальное значение>
::= <Константное выражение типа Real>
<Максимальное
значение> ::= <Константное выражение типа Real>
<Установление значений
статических переменных> ::= <Установление параметров Подсети> [;<Установление
значений статических переменных>]
<Описание методов> ::=
<Описание функционирования вперед> <Описание функционирования
назад>
<Описание
функционирования вперед> ::= Forw
[<Описание переменных>] <Тело метода>
<Тело метода> ::= Begin <Составной оператор> End
<Описание
функционирования назад> ::= Back [<Описание
переменных>] <Тело метода>
<Конец описания
элемента> ::= End <Имя
элемента>
<Описание блока> ::=
<Заголовок описания блока> <Описание состава> <Описание сигналов
и параметров> [<Описание статических переменных>] [<Установление
значений статических переменных>] <Описание связей> [<Определение
типов параметров>] <Конец описания блока>
<Заголовок описания
блока> ::= {<Описание каскада> ½ <Описание слоя> ½ <Описание цикла с
фиксированным числом шагов> ½ <Описание цикла по
условию>}
<Описание каскада> ::= Cascad <Имя блока> [(<Список формальных аргументов
блока>)]
<Имя блока> ::=
<Идентификатор>
<Список формальных
аргументов блока> ::= {<Список формальных аргументов> ½ <Аргумент – подсеть>}
[;<Список формальных аргументов блока>]
<Аргумент – подсеть>::=
<Список имен аргументов – подсетей> : Block
<Список имен аргументов –
подсетей> ::= <Имя аргумента – подсети> [,<Список имен аргументов –
подсетей>]
<Имя аргумента –
подсети> ::= <Идентификатор>
<Описание слоя> ::= Layer <Имя блока> [(<Список формальных аргументов блока>)]
<Описание цикла с
фиксированным числом шагов> ::= Loop <Имя
блока> [(<Список формальных
аргументов блока>)] <Число
повторов цикла>
<Число повторов цикла>
::= <Константное выражение типа Long>
<Описание цикла по
условию> ::= Until <Имя
блока> [(<Список формальных
аргументов блока>)] :
<Выражение типа Logic>
<Описание состава> ::=
Contents <Список имен
подсетей>
<Список имен подсетей>
::= <Имя подсети> [,<Список имен подсетей>]
<Имя подсети> ::=
<Псевдоним>: {<Имя ранее описанной подсети> [(<Список фактических аргументов блока>)] [[<Число экземпляров>]]
½ <Имя аргумента –
подсети> [[<Число экземпляров
>]]}
<Псевдоним> ::=
<Идентификатор>
<Число экземпляров >
::= <Константное выражение типа Long>
<Имя ранее описанной
подсети> ::= <Идентификатор>
<Список фактических
аргументов блока> ::= <Фактический аргумент блока> [,<Список
фактических аргументов блока>]
<Фактический аргумент
блока> ::= {<Фактический аргумент> ½ <Имя аргумента –
подсети>}
<Описание связей> ::=
{<Описание распределения Входных сигналов, Блока,
Подсети, InSignals > ½ <Описание распределения Выходных
сигналов, Блока, Подсети, OutSignals > ½ <Описание распределения Параметров,
Блока,
Подсети, Parameters >}
<Конец описания
блока>::= End <Имя блока>
<Конец описания
библиотеки> ::= End NetLib
<Описание сети> ::= <Заголовок
описания сети> <Описание подсетей> <Описание главной сети> <Массивы
параметров и масок сети> <Конец описания сети>
<Заголовок описания сети>
::= NetWork <Имя сети> [Used <Список имен библиотек>]
<Имя сети> ::= <Идентификатор>
<Описание главной сети>
::= MainNet <Имя ранее описанной подсети> [(<Список фактических аргументов блока>)]
<Массивы параметров и
масок сети> ::= <Массив параметров> <Массив маски обучаемости
параметров>
<Массив параметров> ::=
Parameters <Значения параметров>;
<Значения параметров>
::= <Действительное число> [, <Значения параметров>]
<Массив маски обучаемости
параметров> ::= ParamMask <Значения
маски>;
<Значения маски> ::=
<Константа типа Logic> [,<Значения маски>]
<Конец описания сети> ::= End NetWork
В
этом разделе приводится детальное описание языка описания сетей, дополняющее
БНФ, приведенную в предыдущем разделе и описание общих конструкций, приведенное
в разделе «Общий стандарт».
Вспомогательные
переменные могут потребоваться при описании прямого и обратного
функционирования элементов. Переменная действует только в пределах той процедуры,
в которой она описана. Кроме явно описанных переменных, в методе Forw доступны
также сигналы прямого функционирования и параметры элемента, а в методе Back –
входные и выходные сигналы прямого функционирования, выходные сигналы обратного
функционирования, параметры элемента и градиент по параметрам элемента. Во всех
методах доступны аргументы элемента.
Статические
переменные, описываемые после ключевого слова Static, уникальны для каждого
экземпляра элемента или блока, и доступны только в пределах элемента или блока.
Эти переменные могут потребоваться для вычисления условий в цикле типа Until.
Возможно использование таких переменных в элементах, например, для хранения
предыдущего состояния элемента. Кроме того, в статической переменной можно
хранить значения не обучаемых параметров.
Методы
Forw и Back для блоков не описываются в языке описания сетей. Это связано с
тем, что при выполнении метода Forw блоком происходит вызов метода Forw
составляющих блок подсетей (для элементов – метода Forw) в порядке их описания
в разделе описания состава блока. При выполнении метода Back происходит вызов
методов Back составляющих блок подсетей в порядке обратном порядку их описания
в разделе описания состава блока.
Описание
элемента состоит из следующих основных разделов: заголовка элемента, описания
сигналов и параметров, описания статических переменных и описания методов.
Заголовок элемента имеет следующий синтаксис:
Element Имя_Элемента
(Аргументы элемента)
Аргументы
элемента являются необязательной частью заголовка. В следующем разделе
приведены описания нескольких элементов. Отметим, что сигмоидный элемент описан
двумя способами: с принципиально не обучаемой (S_NotTrain) и с обучаемой
(S_Train) характеристикой.
Раздел
описания сигналов и параметров следует сразу после заголовка элемента и состоит
из указания числа входных и выходных сигналов и числа параметров элемента. Если
у элемента отсутствуют параметры, то указание числа параметров можно опустить.
В следующем разделе приведены элементы как имеющие параметры (S_Train,
Adaptiv_Sum, Square_Sum), так и элементы без параметров (Sum, S_NotTrain,
Branch). Концом раздела описания сигналов и параметров служит одно из ключевых
слов ParamType, ParamDef, Forw или Back.
Описание
типов параметров является необязательной частью описания элемента и начинается
с ключевого слова ParamType. Если раздел описания типов параметров отсутствует,
то все параметры этого элемента считаются параметрами типа DefaultType. Если в
сети должны присутствовать параметры разных типов (например с разными
ограничениями на минимальное и максимальное значение) необходимо описать типы
параметров. Концом этого раздела служит одно из ключевых слов ParamDef, Forw
или Back.
Раздел
определения типов параметров является необязательным разделом в описании
элемента и начинается с ключевого слова ParamDef. В каждой строке этого раздела
можно задать минимальную и масимальную границы изменения одного типа
параметров. Если в описании сети встречаются параметры неопределенного типа то
этот тип считается совпадающим с типом DefaultType. Описание типа не обязано предшествовать описанию параметров
этого типа. Так например, определение типа параметров может находиться в описании
главной сети. Концом этого раздела служит одно из ключевых слов Forw или Back.
Раздел
описания методов состоит из описания двух методов: Forw и Back. Описание метода
состоит из заголовка, раздела описания переменных и тела метода. Заголовок
имеет вид ключевого слова Forw или Back для соответствующего метода. Раздел
описания переменных состоит из ключевого слова Var, за которым следуют описания
однотипных переменных, каждое из которых заканчивается символом «;». Необходимо
понимать, что описание заголовков методов это не описание заголовка (прототипа)
функции, выполняющей тело метода. Ниже приведен синтаксис заголовков методов Forw и Back на
момент вызова:
Pascal:
Procedure Forw( InSignals, OutSignals, Parameters : PRealArray);
Procedure Back(InSignals, OutSignals, Parameters, Back.InSignals,
Back.OutSignals, Back.Parameters : PRealArray);
C
void Forw(PRealArray InSignals, PRealArray OutSignals, PRealArray Parameters)
void Back(PRealArray InSignals, PRealArray OutSignals, PRealArray Parameters,
PRealArray
Back.InSignals, PRealArray Back.OutSignals, PRealArray
Back.Parameters)
В методе Forw в левой части оператора присваивания
могут фигурировать имена любых переменных и элементов предопределенного массива
выходных сигналов (OutSignals). В выражении, стоящем в правой части оператора
присваивания могут участвовать любые переменные, аргументы элемента и элементы
предопределенных массивов входных сигналов (InSignals) и параметров
(Parameters).
В
методе Back в левой части оператора присваивания могут фигурировать имена любых
переменных, элементов предопределенных массивов входных сигналов обратного
функционирования (Back.InSignals) и параметров (Back.Parameters). В выражении,
стоящем в правой части оператора присваивания, могут участвовать любые
переменные, аргументы элемента и элементы предопределенных массивов входных
(InSignals) и выходных (OutSignals) сигналов и параметров (Parameters).Отметим
важную особенность вычисления поправок к параметрам. Поскольку один и тот же
параметр может использоваться несколькими элементами, при вычислении поправки к
параметру вычисленное значение нужно не присваивать соответствующему элементу
массива Back.Parameters, а добавлять. При этом в теле метода элементы массива
Back.Parameters не могут фигурировать в правой части оператора присваивания.
Эта особенность вычисления поправок к параметрам обрабатывается компонентом
сеть.
Описание
элемента завершается ключевым словом End за которым следует имя элемента.
NetBibl Elements; {Библиотека
элементов}
Element Synaps {Обычный
синапс}
InSignals 1 {Один
входной сигнал}
OutSignals 1 {Один
выходной сигнал}
Parameters 1 {Один
параметр – вес связи}
Forw {Начало описания прямого функционирования}
Begin
{Выходной сигнал – произведение входного сигнала на
параметр}
OutSignals[1] = InSignals[1] * Parameters[1]
End {Конец описания прямого
функционирования}
Back {Начало описания обратного
функционирования }
Begin
{Поправка к входному сигналу – произведение поправки
к выходному сигналу на параметр}
Back.InSignals[1] = Back.OutSignals[1] * Parameters[1];
{Поправка к параметру – сумма ранее вычисленной
поправки к параметру на произведение поправки к обратному сигналу на входной
сигнал}
Back.Parameters[1] = Back.Parameters[1] +
Back.OutSignals[1] *
InSignals[1]
End {Конец описания обратного
функционирования}
End Synaps {Конец
описания синапса}
Element Branch(N : Long) {Точка
ветвления на N выходных сигналов}
InSignals 1 {Один
входной сигнал}
OutSignals N {N
выходных сигналов}
Forw {Начало описания прямого функционирования}
Var Long I; {I
– длинное целое – индекс}
Begin
For I=1 To N Do {На
каждый из N выходных сигналов передаем }
OutSignals[I] = InSignals[1] {входной
сигнал}
End {Конец описания прямого
функционирования}
Back {Начало описания обратного
функционирования }
Var {Описание локальных переменных}
Long I; {I
– длинное целое – индекс}
Real R; {R
– действительное – для накопления суммы}
Begin
R = 0;
For I=1 To N Do {Поправка
ко входному сигналу равна сумме }
R = R + Back.OutSignals[I]; {поправок выходных
сигналов}
Back. InSignals[1] = R
End {Конец описания обратного
функционирования}
End Branch {Конец
описания точки ветвления}
Element Sum(N Long) {Простой
сумматор на N входов}
InSignals N {N
входных сигналов}
OutSignals 1 {Один
выходной сигнал}
Forw {Начало описания прямого функционирования}
Var {Описание локальных переменных}
Long I; {I
– длинное целое – индекс}
Real R; {R
– действительное – для накопления суммы}
Begin
R = 0;
For I=1 To N Do {Выходной
сигнал равен сумме входных}
R =
R + InSignals[I];
OutSignals[1] = R
End {Конец описания прямого
функционирования}
Back {Начало описания обратного функционирования}
Var Long I; {I
– длинное целое – индекс}
Begin
For I=1 To N Do {Поправка
к каждому входному сигналу равна }
Back.InSignals[I] = Back.OutSignals[1] { поправке
выходного сигнала}
End {Конец описания обратного
функционирования}
End Sum {Конец
описания простого сумматора}
Element Mul {Умножитель}
InSignals 2 {Два
входных сигнала}
OutSignals 1 {Один
выходной сигнал}
Forw {Начало
описания прямого функционирования }
Begin
{Выходной
сигнал равен произведению входных сигналов}
OutSignals[1] =
InSignals[1] * InSignals[2]
End {Конец описания прямого
функционирования}
Back {Начало описания обратного
функционирования }
Begin
{Поправка к каждому входному сигналу равна
произведению поправки выходного сигнала на другой входной сигнал}
Back.InSignals[1] = Back.OutSignals[1] * InSignals[2];
Back.InSignals[2] = Back.OutSignals[1] * InSignals[1]
End {Конец описания обратного
функционирования}
End Mul {Конец
описания умножителя}
Element S_Train {Обучаемый
гиперболический сигмоидный элемент}
InSignals 1 {Один
входной сигнал}
OutSignals 1 {Один
выходной сигнал}
Parameters 1 {Один
параметр – характеристика}
Forw {Начало описания прямого
функционирования}
Begin
{Выходной сигнал равен отношению входного сигнала к
сумме параметра и абсолютной величины входного сигнала}
OutSignals[1] = InSignals[1] / (Parameters[1]
+ Abs(InSignals[1])
End {Конец описания прямого
функционирования}
Back {Начало описания обратного
функционирования}
Var Real R; {R
– действительное}
Begin
{R – вспомогательная величина для вычисления
поправок, равная отношению поправки выходного сигнала к квадрату суммы
параметра и абсолютной величины входного сигнала}
R = Back.OutSignals[1] / Sqr(Parameters[1] + Abs(InSignals[1]);
{Поправка к входному сигналу равна произведению
вспомогательной величины на параметр}
Back.InSignals[1] = R *
Parameters[1];
{Поправка к параметру равна сумме ранее вычисленной
величины поправки и произведения вспомогательной величины на входной сигнал}
Back.Parameters[1] = Back.Parameters[1] + R * InSignals[1]
End {Конец описания обратного
функционирования}
End S_Train {Конец описания обучаемого
гиперболического
сигмоидного
элемента}
{Не обучаемый гиперболический сигмоидный элемент Char
– характеристика}
Element S_NotTrain( Char : Real)
InSignals 1 {Один входной сигнал}
OutSignals 1 {Один выходной сигнал}
Forw {Начало описания прямого функционирования}
Begin
{Выходной сигнал равен отношению входного сигнала к
сумме характеристики и абсолютной величины входного сигнала}
OutSignals[1] =
InSignals[1] / (Char + Abs(InSignals[1])
End {Конец описания прямого
функционирования}
Back {Начало описания обратного
функционирования}
Begin
{Поправка к входному сигналу равна отношению
произведения поправки выходного сигнала на характеристику к квадрату суммы
характеристики и абсолютной величины входного сигнала}
Back.InSignals[1] = Back.OutSignals[1] * Char /
Sqr(Char
+ Abs(InSignals[1]);
End {Конец описания обратного функционирования}
End S_NotTrain {Конец описания гиперболического
сигмоидного элемента}
Element Pade(Char : Real) {Паде
преобразователь Char – характеристика}
InSignals 2 {Два
входных сигнала}
OutSignals 1 {Один
выходной сигнал}
Forw {Начало описания прямого
функционирования}
Begin
{Выходной сигнал равен отношению первого входного
сигнала к сумме характеристики и второго входного сигнала}
OutSignals[1] =
InSignals[1] / (Char+ InSignals[2])
End {Конец описания прямого функционирования}
Back {Начало описания обратного
функционирования}
Var Real R; {R
– действительное}
Begin
{Вспомогательная величина равна поправке к первому
входному сигналу – отношению поправки выходного сигнала к сумме характеристики
и второго входного сигнала}
R = Back.OutSignals[1] / (Char
+ InSignals[2]);
Back.InSignals[1] = R;
{Поправка ко второму входному сигналу равна минус
отношению произведения первого входного сигнала на поправку выходного сигнала к
квадрату суммы характеристики и второго входного сигнала}
Back.InSignals[2] =
-R * OutSignals[1];
End {Конец описания обратного
функционирования}
End Pade {Конец
описания Паде преобразователя}
Element Sign_Mirror {Зеркальный пороговый
элемент}
InSignals 1 {Один
входной сигнал}
OutSignals 1 {Один
выходной сигнал}
Forw {Начало описания прямого
функционирования }
Begin
{Выходной сигнал равен 1, если входной сигнал больше
нуля, и нулю в противном случае }
If InSignals[1] > 0 Then OutSignals[1] = 1
Else
OutSignals[1] = 0
End {Конец описания прямого функционирования}
Back {Начало описания обратного
функционирования}
Begin
{Поправка к входному сигналу равна выходному сигналу}
Back.InSignals[1] = OutSignals[1];
End {Конец описания обратного
функционирования}
End Sign_Mirror {Конец
описания зеркального порогового элемента}
Element Sign_ Easy {Прозрачный пороговый элемент}
InSignals 1 {Один
входной сигнал}
OutSignals 1 {Один
выходной сигнал}
Forw {Начало описания прямого
функционирования }
Begin
{Выходной сигнал равен 1, если входной сигнал больше
нуля, и нулю в противном случае }
If InSignals[1] > 0 Then OutSignals[1] = 1
Else OutSignals[1]
= 0
End {Конец описания прямого функционирования}
Back {Начало описания обратного
функционирования}
Begin
{Поправка
к входному сигналу равна поправке к выходному сигналу}
Back.InSignals[1] = Back.OutSignals[1];
End {Конец описания обратного
функционирования}
End Sign_Easy {Конец
описания прозрачного порогового элемента}
Element Adaptiv_Sum( N : Long) {Адаптивный
сумматор на N входов}
InSignals N {N
входных сигналов}
OutSignals 1 {Один
выходной сигнал}
Parameters N {N
параметров – весов связей}
Forw {Начало описания прямого
функционирования}
Var {Описание локальных переменных}
Long I; {I
– длинное целое – индекс}
Real R; {R
– действительное – для накопления суммы}
Begin
R = 0; {Выходной
сигнал равен скалярному }
For I=1 To N Do {произведению
массива входных сигналов}
R =
R + InSignals[I] * Parameters[I]; {на массив параметров}
OutSignals[1] = R
End {Конец описания обратного
функционирования}
Back {Начало описания обратного
функционирования}
Var Long I; {I – длинное
целое – индекс}
Begin
For I=1 To N Do Begin
{Поправка к I-у входному сигналу равна сумме ранее
вычисленной поправки и произведения поправки выходного сигнала на I-й параметр}
Back.InSignals[I]
= Back.OutSignals[1] * Parameters[I];
{Поправка к I-у параметру равна произведению
поправки выходного сигнала на I-й входной сигнал}
Back. Parameters[I]
= Back. Parameters[I] +
Back.OutSignals[1] * InSignals[I]
End
End {Конец описания обратного функционирования}
End Adaptiv_Sum {Конец
описания адаптивного сумматора}
{Адаптивный неоднородный сумматор на N входов}
Element Adaptiv_Sum_Plus ( N : Long)
InSignals N {N
входных сигналов}
OutSignals 1 {Один
выходной сигнал}
Parameters N+1 {N+1
параметр – веса связей}
Forw {Начало описания прямого
функционирования}
Var {Описание локальных переменных}
Long I; {I
– длинное целое – индекс}
Real R; {R
– действительное – для накопления суммы}
Begin
R = Parameters[N+1]; {Выходной сигнал равен сумме N+1 параметра}
For I=1 To N Do {и
скалярного произведения массива входных}
R = R + InSignals[I]
* Parameters[I]; {сигналов на массив параметров}
OutSignals[1] = R
End {Конец описания прямого функционирования}
Back {Начало описания обратного
функционирования }
Var Long I; {I – длинное
целое – индекс }
Begin
For I=1 To N Do Begin
{Поправка к I-у входному сигналу равна произведению
поправки выходного сигнала на I-й параметр}
Back.InSignals[I]
= Back.OutSignals[1] * Parameters[I];
{Поправка к I-у параметру равна сумме ранее
вычисленной поправки и произведения поправки выходного сигнала на I-й входной
сигнал}
Back. Parameters[I]
= Back. Parameters[I] + Back.OutSignals[1] *
InSignals[I]
End;
{Поправка к (N+1)-у параметру равна сумме ранее
вычисленной поправки и попраки к выходному сигналу}
Back.Parameters[N+1] = Back.Parameters[N+1] + Back.OutSignals[1]
End {Конец описания обратного
функционирования}
End Adaptiv_Sum_Plus
{Конец описания неоднородного адаптивного сумматора}
Element Square_Sum( N : Long) {Квадратичный
сумматор на N входов}
InSignals N {N
входных сигналов}
OutSignals 1 {Один
выходной сигнал}
Parameters (Sqr(N) +
N) Div 2 {N(N+1)/2 параметров – весов связей}
Forw {Начало описания прямого
функционирования}
Var {Описание локальных переменных}
Long I,J,K; {I,J,K
– переменные типа длинное целое }
Real R; {R
– действительное – для накопления суммы}
Begin
K = 1; {K
– номер обрабатываемого параметра}
R
= 0;
For I = 1 To N Do {I,J – номера входных
сигналов}
For J = I To N Do Begin
R = R + InSignals[I] * InSignals[J]
* Parameters[K];
K
= K + 1
End;
{Выходной сигнал равен сумме всех попарных
произведений входных сигналов, умноженных на соответствующие параметры}
OutSignals[1] = R
End {Конец описания прямого функционирования}
Back {Начало описания обратного
функционирования }
Var {Описание локальных переменных}
Long I, J, K; {I,J,K
– переменные типа длинное целое }
Real R; {R
– действительное}
Vector W; {Массив для накопления промежуточных величин}
Begin
For I = 1 To N Do
W[I] = 0;
K = 1; {K
– номер обрабатываемого параметра}
For I = 1 To N Do
For J = I To N Do Begin
{Поправка к параметру равна сумме ранее вычисленной
поправки и произведения поправки к входному сигналу на произведение сигналов,
прошедших через этот параметр при прямом функционировании}
Back.Parameters[K] = Back.Parameters[K] +
Back.OutSignals[1] * InSignals[I] * InSignals[J];
R = Back.OutSignals[1] * Parameters[K];
W[I] = W[I] + R * InSignals[J];
W[J] = W[J] + R * InSignals[I];
K = K + 1
End;
For I = 1 To N Do
{Поправка к входному сигналу равна произведению
поправки к выходному сигналу на сумму всех параметров, через которые этот
сигнал проходил при прямом функционировании, умноженных на другие входные
сигналы, так же прошедшие через эти параметры при прямом функционировании}
Back.InSignals[1] = W[I]
End {Конец описания прямого функционирования}
End Square_Sum {Конец описания
квадратичного сумматора}
{Неоднородный квадратичный сумматор на N входов}
Element Square_Sum_Plus( N : Long)
InSignals N {N
входных сигналов}
OutSignals 1 {Один
выходной сигнал}
Parameters (Sqr(N) +
3 * N) Div 2 + 1 {N(N+3)/2+1 весов связей}
Forw {Начало описания прямого
функционирования}
Var {Описание локальных переменных}
Long I, J, K; {I,J,K
– переменные типа длинное целое }
Real R; {R
– действительное – для накопления суммы}
Begin
K = 2 * N+1; {K – номер
обрабатываемого параметра}
R = Parameters[Sqr(N) + 3 * N) Div 2 + 1];
For I = 1 To N Do Begin
R = R + InSignals[I] * Parameters[I] +
Sqr(InSignals[I]) * Parameters[N
+ I];
For J = I + 1 To N Do Begin
R = R + InSignals[I] * InSignals[J] * Parameters[K];
K = K + 1
End
End
{Выходной сигнал равен сумме всех попарных
произведений входных сигналов, умноженных на соответствующие параметры, плюс
сумме всех входных сигналов умноженных на соответствующие параметры, плюс последний
параметр}
OutSignals[1] = R
End {Конец описания прямого функционирования}
Back {Начало описания обратного
функционирования }
Var {Описание локальных переменных}
Long I, J, K; {I,J,K
– переменные типа длинное целое }
Real R; {R
– действительное – для накопления суммы}
Vector W; {Массив для накопления промежуточных величин}
Begin
For I = 1 To N Do
W[I] = 0;
K = 2 * N + 1; {K
– номер обрабатываемого параметра}
For I = 1 To N Do Begin
Back.Parameters[I] = Back.Parameters[I]
+
Back.OutSignals[1] * InSignals[I];
Back.Parameters[N + I] = Back.Parameters[N
+ I] +
Back.OutSignals[1] * Sqr(InSignals[I]);
W[I] = W[I] + Back.OutSignals[1] * (Parameters[I] +
2
* Parameters[N + I] * InSignals[I])
For J = I + 1 To N Do Begin
Back.Parameters[K] = Back.Parameters[K] +
Back.OutSignals[1] * InSignals[I] * InSignals[J];
R = Back.OutSignals[1] * Parameters[K];
W[I] = W[I] + R * InSignals[J];
W[J] = W[J] + R * InSignals[I];
K = K + 1
End
End;
For I = 1 To N Do
Back.InSignals[1] = W[I]
End {Конец описания обратного
функционирования}
End Square_Sum_Plus {Конец
описания адаптивного квадратичного сумматора}
End NetBibl {Конец библиотеки}
Описание
блока состоит из пяти основных разделов: заголовка описания блока, описания
сигналов и параметров, описания состава, описания связей и конца описания
блока. Существует два типа блоков – каскад и слой (Layer). Различие между этими
двумя типами блоков состоит в том, что подсети, входящие в состав слоя,
функционируют параллельно и независимо друг от друга, тогда как составляющие
каскад подсети функционируют последовательно, причем каждая следующая подсеть
использует результаты работы предыдущих подсетей. В свою очередь существует три
вида каскадов – простой каскад (Cascad), цикл с фиксированным числом шагов
(Loop) цикл по условию (Until). Различие между тремя видами каскадов очевидно –
простой каскад функционирует один раз, цикл Loop функционирует указанное в
описании число раз, а цикл Until функционирует до тех пор, пока не выполнится
указанное в описании условие. В условии, указываемом в заголовке цикла Until,
возможно использование сравнений массивов или интервалов массивов сигналов.
Например, запись
InSignals=OutSignals
эквивалентна следующей записи
InSignals[1..N]=OutSignals[1..N]
которая эквивалентна вычислению следующей логической
функции:
Function Equal(InSignals, OutSignals : RealArray) : Logic;
Var Long
I;
Logic
L
Begin
L = True
For I = 1 To N Do
L = L And (InSignals[I] = OutSignals[I]);
Equal = L
End
Раздел описания состава следует сразу после заголовка блока за разделом описания сигналов и параметров и начинается с ключевого слова Contents, за которым следуют имена подсетей (блоков или элементов) со списками фактических аргументов, разделенные запятыми. Все имена подсетей должны предваряться псевдонимами. В дальнейшем указание псевдонима полностью эквивалентно указанию имени подсети со списком фактических аргументов или без, в зависимости от контекста. Признаком конца раздела описания состава подсети служит имя подсети за списком фактических аргументов которого не следует запятая.
Раздел
описания сигналов и параметров следует за разделом описания состава и состоит
из указания числа входных и выходных сигналов и числа параметров блока. В константных
выражениях, указывающих число входных и выходных сигналов и параметров можно
использовать дополнительно функцию NumberOf с двумя параметрами. Первым параметром
является одно из ключевых слов InSignals, OutSignals, Parameters, а вторым –
имя подсети со списком фактических аргументов. Функция NumberOf возвращает
число входных или выходных сигналов или параметров (в зависимости от первого
аргумента) в подсети, указанной во втором аргументе. Использование этой функции
необходимо в случае использования блоком аргументов-подсетей. Концом раздела
описания сигналов и параметров служит одно из ключевых слов ParamDef, Static
или Connections.
Раздел
определения типов параметров является необязательным разделом в описании блока
и начинается с ключевого слова ParamDef. В каждой строке этого раздела можно задать
минимальную и максимальную границы изменения одного типа параметров. Если в
описании сети встречаются параметры неопределенного типа, то этот тип считается
совпадающим с типом DefaultType. Описание типа не обязано предшествовать описанию параметров этого типа. Так,
например, определение типа параметров может находиться в описании главной сети.
Концом этого раздела служит одно из ключевых слов Connections.
Раздел
описания связей следует за разделом описания сигналов и параметров и начинается
с ключевого слова Connections. В разделе «Описание распределения сигналов» детально
описано распределение связей.
Раздел
конца описания блока состоит из ключевого слова End, за которым следует имя
блока.
При
описании блоков используются элементы, описанные в библиотеке Elements,
приведенной в разд. «Пример описания элементов».
NetBibl SubNets Used Elements;
{Библиотека подсетей, использующая библиотеку Elements}
{Сигмоидный нейрон с произвольным сумматором на N
входов}
Cascad NSigm(aSum : Block; N : Long; Char : Real)
{В состав каскада входит произвольный сумматор на N
входов и сигмоидный нейрон с необучаемой характеристикой}
Contents aSum(N), S_NotTrain(Char)
{Число
входных сигналов определяет сумматор}
InSignals NumberOf(InSignals, aSum(N))
OutSignals 1 {Один
выходной сигнал}
{Число
параметров определяет сумматор}
Parameters NumberOf(Parameters, aSum(N))
Connections
{Входные
сигналы нейрона – входные сигналы сумматора}
InSignals[1.. NumberOf(InSignals,
aSum(N))] <=>
aSum.InSignals[1.. NumberOf(InSignals, aSum(N))]
{Выход
сумматора – вход преобразователя}
aSum.OutSignals <=> S_NotTrain.InSignals
OutSignals <=>
S_NotTrain.OutSignals
{Параметры нейрона –
параметры сумматора}
Parameters[1.. NumberOf(Parameters, aSum(N))]
<=>
aSum.Parameters[1.. NumberOf(Parameters, aSum(N))]
End {Конец описания сигмоидного нейрона с произвольным сумматором}
{Слой
сигмоидных нейронов с произвольными сумматорами на N входов}
Layer Lay1(aSum : Block; N,M : Long; Char : Real)
Contents Sigm: NSigm(aSum,N,Char)[M] {В состав слоя входит M нейронов}
{Число входных сигналов определяется как взятое M
раз число входных сигналов нейронов. Вместо имени нейрона используем псевдоним}
InSignals M * NumberOf(InSignals, Sigm)
OutSignals M {Один
выходной сигнал на нейрон}
Parameters M * NumberOf(Parameters, Sigm)
{Число параметров определяется как взятое M раз
число параметров нейронов}
Connections
{Первые NumberOf(InSignals, NSigm(aSum,N,Char)) сигналов
первому нейрону, и т.д.}
InSignals[1..M * NumberOf(InSignals, Sigm)] <=>
Sigm[1..M].InSignals[1..
NumberOf(InSignals,
Sigm)]
{Выходные сигналы нейронов - выходные сигналы сети}
OutSignals[1..M] <=>
Sigm[1..M].OutSignals
{Параметры слоя – параметры нейронов}
Parameters[1..M *
NumberOf(Parameters,
Sigm)] <=>
Sigm[1..M].Parameters[1.. NumberOf(Parameters, Sigm)]
End {Конец
описания слоя сигмоидных нейронов с произвольным сумматором}
{Слой точек ветвления}
Layer BLay( N,M : Long)
Contents Branch(N)[M] {В
состав слоя входит M точек ветвления}
InSignals M {По
одному входному сигналу на точку ветвления}
OutSignals M * N {N выходных сигналов у каждой
точки ветвления}
Connections
{По одному входу на точку ветвления}
InSignals[1..M] <=> Branch[1..M].InSignals
{Выходные сигналы в порядке первый с каждой точки
ветвления, затем второй и т.д. }
OutSignals[1..N * M] <=> Branch[+:1..M].OutSignals[1..N]
End {Конец описания слоя Точек
ветвления}
{Полный слой сигмоидных нейронов с произвольными
сумматорами на N входов}
Cascad FullLay(aSum : Block; N,M : Long; Char
: Real)
{Слой точек ветвления и слой нейронов}
Contents Br: BLay1(M,N),
Ne: Lay1(aSum,N,M,Char)
InSignals N {Число
входных сигналов – число точек ветвления}
OutSignals M {Один выходной
сигнал на нейрон}
{Число параметров определяется как взятое M раз
число параметров нейронов}
Parameters NumberOf(Parameters, Ne)
Connections
{Входные сигналы – слою точек ветвления}
InSignals[1..N]<=> Br.InSignals[1..N]
{Выходные сигналы нейронов - выходные сигналы сети}
OutSignals[1..M] <=> Ne.OutSignals[1..M]
{Параметры слоя – параметры нейронов}
Parameters[1..NumberOf(Parameters, Ne)]
<=>
Ne.Parameters[1..
NumberOf(Parameters,
Ne)]
{Выход слоя точек ветвления – вход слоя нейронов}
Br.OutSignals[1..N * M]
<=> Ne.InSignals[1..N * M]
End {Конец
описания слоя сигмоидных нейронов с произвольным сумматором}
{Сеть с сигмоидными нейронами и произвольными
сумматорами, содержащая
Input
– число нейронов на входном слое;
Output
– число нейронов на выходном слое (число выходных сигналов);
Hidden
– число нейронов на H>0 скрытых слоях;
N
– число входных сигналов
все входные сигналы подаются на все нейроны входного
слоя}
Cascad Net1(aSum : Block; Char : Real; Input, Output,
Hidden, H, N : Long)
{Под тремя разными псевдонимами используется одна и
та же подсеть с разными параметрами}
Contents
In: FullLay(aSum,N,Input,Char),
Hid1:
FullLay(aSum,Input,Hidden,Char)
Hid2:
FullLay(aSum,Hidden,Hidden,Char)[H-1] {Пусто при
H=1}
Out:
FullLay(aSum,Hidden,Output,Char)
InSignals N {Число
входных сигналов – N}
OutSignals Output {Один выходной
сигнал на нейрон}
{Число параметров определяется как сумма чисел
параметров всех подсетей}
Parameters NumberOf(Parameters, In)+ NumberOf(Parameters, Hid1)+
(H-1) * NumberOf(Parameters, Hid2)+ NumberOf(Parameters, Out)
Connections
{Входные сигналы – входному слою}
InSignals[1..N]<=> In.InSignals[1..N]
{Выходные сигналы нейронов - с выходного слоя сети}
OutSignals[1..Output] <=> Out.OutSignals[1.. Output]
{Параметры сети последовательно всем подсетям}
Parameters[1..NumberOf(Parameters,In)] <=>
In.Parameters[1.. NumberOf(Parameters, In)]
Parameters[NumberOf(Parameters,In)+1..NumberOf(Parameters,In)+
NumberOf(Parameters, Hid1)] <=>
Hid1.Parameters[1.. NumberOf(Parameters, Hid1)]
Parameters[NumberOf(Parameters,In)+ NumberOf(Parameters, Hid1)]+1
..NumberOf(Parameters,In)+NumberOf(Parameters, Hid1)+
(H-1) * NumberOf(Parameters, Hid2)] <=>
Hid2[1..H-1].Parameters[1.. NumberOf(Parameters, Hid2)]
Parameters[NumberOf(Parameters,In)+ NumberOf(Parameters, Hid1)]+
(H-1) * NumberOf(Parameters, Hid2)+1..NumberOf(Parameters,In)+
NumberOf(Parameters,Hid1)+(H-1)*NumberOf(Parameters,Hid2)+
NumberOf(Parameters, Out)] <=>
Out.Parameters[1.. NumberOf(Parameters, Out)]
{Передача сигналов от слоя к слою}
{От входного к первому скрытому слою}
In.OutSignals[1..Input]
<=> Hid1.InSignals[1..Input]
{От первого скрытого слоя}
Hid1.OutSignals[1..Hidden] <=> Hid2[1].InSignals[1..Hidden]
{Между скрытыми слоями. При H=1 эта запись пуста}
Hid2[1..H-2].OutSignals[1..
Hidden] <=> Hid2[2..H-1].InSignals[1..
Hidden]
{От скрытых – к выходному}
Hid2[H-1].OutSignals[1.. Hidden] <=> Out.InSignals[1.. Hidden]
End
{Полносвязная сеть с M сигмоидными нейронами на К
тактов функционирования с невыделенным входным слоем на M сигналов}
Contents
Net: FullLay(aSum,M,M,Char)
InSignals M {Число
входных сигналов – N}
OutSignals M {Один выходной
сигнал на нейрон}
{Число
параметров определяется слоем FullLay}
Parameters NumberOf(Parameters, Net)
Connections
InSignals[1..M]<=> Net.InSignals[1..M] {Входные сигналы – на вход слоя}
{Выходные сигналы – на выход слоя}
OutSignals[1..M] <=> Net.OutSignals[1.. M]
{Все параметры слою}
Parameters[1..NumberOf(Parameters,Net)] <=>
Net.Parameters[1.. NumberOf(Parameters,Net)]
Net.OutSignals[1..M] <=> Net.InSignals[1..M] {Замыкаем выход на вход}
End {Конец
описания слоя сигмоидных нейронов с произвольным сумматором}
{Полносвязная сеть с М сигмоидными нейронами на К
тактов функционирования с выделенным входным слоем на N сигналов. Все входные
сигналы подаются на вход каждого нейрона входного слоя. Все параметры ограничены
по абсолютному значению единицей}
Cascad Net2: (aSum : Block; Char : Real; M, K, N : Long)
Contents
In: FullLay(aSum,N,M,Char), {Входной слой}
Net: Circle(aSum,Char,M,K) {Полносвязная сеть}
InSignals N {Число
входных сигналов – N}
OutSignals M {Один
выходной сигнал на нейрон}
{Число параметров определяется как сумма чисел
параметров всех подсетей}
Parameters NumberOf(Parameters, In)+ NumberOf(Parameters, Net)
ParamDef
DefaultType -1 1
Connections
InSignals[1..N]<=> In.InSignals[1..N] {Входные сигналы – входному слою}
{Выходные сигналы нейронов - с выходного слоя сети}
OutSignals[1..M] <=> Net.OutSignals[1.. M]
{Параметры сети последовательно всем подсетям}
Parameters[1..NumberOf(Parameters, In)] <=>
In.Parameters[1.. NumberOf(Parameters, In)]
Parameters[NumberOf(Parameters,In)+1..
NumberOf(Parameters,In)+NumberOf(Parameters, Net)]
<=> Net.Parameters[1.. NumberOf(Parameters, Net)]
{Передача сигналов от слоя к слою}
In.OutSignals[1..M] <=> Net.InSignals[1..M] {От входного к циклу}
Net.OutSignals[1..M] <=> Net.InSignals[1..M] {От первого скрытого слоя}
End
{Нейрон сети Хопфилда из N нейронов}
Cascad Hopf(N : Long)
Contents Sum(N),Sign_Easy {Сумматор и пороговый элемент}
InSignals N {Число
входных сигналов – N}
OutSignals 1 {Число
выходных сигналов – 1}
Parameters NumberOf(Parameters,Sum(N)) {Число
параметров – N}
Connections
InSignals[1..N]<=> Sum.InSignals[1..N] {Входные сигналы – сумматору}
{Выходной сигнал нейрона – выходной сигнал
порогового элемета}
OutSignals <=> Sign_Easy.OutSignals
{Параметры нейрона – параметры сумматора}
Parameters[1..NumberOf(Parameters, Sum(N))]
<=>
Sum.Parameters[1.. NumberOf(Parameters, Sum(N))]
{Выход сумматора на вход порогового элемента}
Sum.OutSignals <=>
Sign_Easy.InSignals
End
{Слой нейронов Хопфилда}
Layer HLay(N : Long)
Contents Hop: Hopf(N)[N] {В состав слоя входит N нейронов}
InSignals N * N {N
нейронов по N входных сигналов}
OutSignals N {Один
выходной сигнал на нейрон}
Parameters N * NumberOf(Parameters, Hop)
Connections
{Первые NumberOf(InSignals, Hop) сигналов первому нейрону, и т.д.}
InSignals[1..Sqr(N)] <=> Hop[1..N].InSignals[1..N]
{Выходные сигналы нейронов - выходные сигналы сети}
OutSignals[1..N] <=> Hop[1..N].OutSignals
{Параметры слоя – параметры нейронов}
Parameters[1..N * NumberOf(Parameters, Hop)] <=>
Hop[1..N].Parameters[1.. NumberOf(Parameters, Hop)]
End
{Сеть Хопфилда из N нейронов}
Until Hopfield(N : Long) InSignals=OutSignals
Contents BLay(N,N),HLay(N) {Слой точек ветвления и слой нейронов}
InSignals N {Число
входных сигналов – N}
OutSignals N {Число
выходных сигналов – N}
Parameters N * NumberOf(Parameters,HLay(N)) {Число параметров – N*N}
Connections
{Входные сигналы – точкам ветвления}
InSignals[1..N]<=> BLay.InSignals[1..N]
{Выходные сигналы нейронов – выходные сигналы сети}
OutSignals[1..N] <=> HLay.OutSignals[1..N]
Parameters[1..N*NumberOf(Parameters, HLay(N))]
<=>
HLay.Parameters[1..N*NumberOf(Parameters, HLay(N))]
{Выход точек ветвления на
вход нейронов}
BLay.OutSignals[1..Sqr(N)] <=> HLay.InSignals[1..Sqr(N)]
{Замыкаем конец на начало}
HLay.OutSignals[1..N] <=> BLay.InSignals[1..N]
End
End NetLib
NetWork Hop Used SubNets; {Сеть Хопфилда на пять нейронов}
MainNet Hopfield(5)
Parameters 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0;
ParamMask -1, -1, -1, -1, -1, -1, -1,
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1;
End NetWork
Предложенный
в предыдущих разделах язык описания многословен. В большинстве случаев за счет
хорошей структуризации сети можно опустить все разделы описания блока кроме
раздела состава. В данном разделе описывается генерация по умолчанию разделов
описания сигналов и параметров, и описания связей. Использование механизмов
умолчания позволяет сильно сократить текст описания сети.
Для
всех видов блоков число параметров определяется как сумма чисел параметров всех
подсетей, перечисленных в разделе описания состава. Это может приводить к
лишним записям, но не повлияет на работу сети. Примером лишней записи может служить
генерируемая запись:
Parameters M * NumberOf(Parameters,Branch(N))
в описании слоя точек ветвления, поскольку точки
ветвления не имеют параметров.
Число
входных сигналов блока определяется по следующим правилам:
·
для слоя число входных сигналов равно сумме числа входных сигналов всех
подсетей, перечисленных в разделе описания состава;
·
для каскадов всех видов число входных сигналов блока равно числу
входных сигналов подсети, стоящей первой в списке подсетей в разделе описания
состава
Число
выходных сигналов блока определяется по следующим правилам:
·
для слоя число выходных сигналов равно сумме числа выходных сигналов
всех подсетей, перечисленных в разделе описания состава;
·
для каскадов всех видов число выходных сигналов блока равно числу
выходных сигналов подсети, стоящей последней в списке подсетей в разделе
описания состава;
Описания
всех сетей, приведенные в предыдущем разделе полностью соответствуют правилам
генерации. В качестве более общего примера приведем раздел описания сигналов и
параметров двух условных блоков.
Layer A
Contents Net1,
Net2[K], Net3
InSignals NumberOf(InSignals,Net1)+K*NumberOf(InSignals,Net2)
+NumberOf(InSignals,Net3)
OutSignals NumberOf(OutSignals,Net1)+K*NumberOf(OutSignals,Net2)
+NumberOf(OutSignals,Net3)
Parameters NumberOf(Parameters,Net1)+
K*NumberOf(Parameters,Net2)+NumberOf(Parameters,Net3)
Cascad B
Contents Net1,
Net2[K], Net3
InSignals NumberOf(InSignals,Net1)
OutSignals NumberOf(OutSignals,Net3)
Parameters NumberOf(Parameters,Net1)+
K*NumberOf(Parameters,Net2)+NumberOf(Parameters,Net3)
Раздел
описания связей может быть разбит на пять подразделов.
1. Установление связи входных
сигналов блока с входными сигналами подсетей.
2. Установление связи выходных
сигналов блока с выходными сигналами подсетей.
3. Установление связи
параметров блока с параметрами подсетей.
4. Установление связи между
выходными сигналами одних подсетей и входными сигналами других подсетей.
5. Замыкание выхода блока на
вход блока.
Для
слоя раздел описания связей строится по следующим правилам.
1. Все подсети получают входные
сигналы в порядке перечисления подсетей в разделе описания состава – первая
часть массива входных сигналов слоя отдается первой подсети, следующая – второй
и т.д. Если какая-либо подсеть в разделе описания состава указана с некоторым
не равным единице числом экземпляров, то считается, что экземпляры этой подсети
перечислены в списке в порядке возрастания номера.
2. Выходные сигналы подсетей
образуют массив выходных сигналов слоя также в порядке перечисления подсетей в
разделе описания состава – первая часть массива выходных сигналов слоя состоит
из выходных сигналов первой подсети, следующая – второй и т.д. Если какая-либо
подсеть в разделе описания состава указана с некоторым не равным единице числом
экземпляров, то считается, что экземпляры этой подсети перечислены в списке в
порядке возрастания номера.
3. Подразделы установления
связи между выходными сигналами одних подсетей и входными сигналами других подсетей
и замыкания выхода блока на вход для слоя отсутствуют.
Для
каскадов раздел описания связей строится по следующим правилам:
1. Входные сигналы блока
связываются с входными сигналами первой подсети в списке подсетей в разделе
описания состава. Если для первой подсети указано не единичное число
экземпляров, то все входные сигналы связываются с входными сигналами первого
экземпляра подсети.
2. Выходные сигналы блока
связываются с выходными сигналами последней подсети в списке подсетей в разделе
описания состава. Если для последней подсети указано не единичное число
экземпляров, то все выходные сигналы связываются с выходными сигналами последнего
(с максимальным номером) экземпляра подсети.
3. Массив параметров блока
образуется из массивов параметров подсетей в порядке перечисления подсетей в
разделе описания состава – первая часть массива параметров блока состоит из
параметров первой подсети, следующая – второй и т.д. Если какая-либо подсеть в
разделе описания состава указана с некоторым не равным единице числом экземпляров,
то считается, что экземпляры этой подсети перечислены в списке в порядке возрастания
номера.
4. Выходные сигналы каждой
подсети, кроме последней связываются с входными сигналами следующей подсети в
списке подсетей в разделе описания состава. Если какая-либо подсеть в разделе
описания состава указана с некоторым не равным единице числом экземпляров, то
считается, что экземпляры этой подсети перечислены в списке в порядке возрастания
номера.
5. Для блоков типа Cascad
замыкание выхода блока на вход блока отсутствует. Для блоков типов Loop и Until
замыкание выхода блока на вход блока достигается путем установления связей
между выходными сигналами последней подсети в списке подсетей в разделе описания
состава с входными сигналами первой подсети в списке подсетей в разделе
описания состава. Если какая-либо подсеть в разделе описания состава указана с
некоторым не равным единице числом экземпляров, то считается, что экземпляры
этой подсети перечислены в списке в порядке возрастания номера.
Описания
всех сетей, приведенные в предыдущем разделе полностью соответствуют правилам
генерации. В качестве более общего примера приведем раздел описания сигналов и
параметров трех условных блоков.
Layer A
Contents Net1, Net2[K], Net3
InSignals[1..NumberOf(InSignals,Net1)+K*NumberOf(InSignals,Net2)
+NumberOf(InSignals,Net3)]
<=>
Net1. InSignals[1..NumberOf(InSignals,Net1)],
Net2[1..K].InSignals[1..NumberOf(InSignals,Net2)],
Net3.InSignals[1..NumberOf(InSignals,Net3)]
OutSignals[1..NumberOf(OutSignals,Net1)+
K*NumberOf(OutSignals,Net2)+NumberOf(OutSignals,Net3)] <=>
Net1.
OutSignals[1..NumberOf(OutSignals,Net1)],
Net2[1..K].OutSignals[1..NumberOf(OutSignals,Net2)],
Net3.OutSignals[1..NumberOf(OutSignals,Net3)]
Parameters[1..NumberOf(Parameters,Net1)+
K*NumberOf(Parameters,Net2)+NumberOf(Parameters,Net3)] <=>
Net1.
Parameters[1..NumberOf(Parameters,Net1)],
Net2[1..K].Parameters[1..NumberOf(Parameters,Net2)],
Net3.Parameters[1..NumberOf(Parameters,Net3)]
Cascad B
Contents Net1,
Net2[K], Net3
InSignals[1..NumberOf(InSignals,Net1)] <=>
Net1.
InSignals[1..NumberOf(InSignals,Net1)]
OutSignals[1..NumberOf(OutSignals,Net3)]
<=>
Net3.OutSignals[1..NumberOf(OutSignals,Net3)]
Parameters[1..NumberOf(Parameters,Net1)+
K*NumberOf(Parameters,Net2)+NumberOf(Parameters,Net3)] <=>
Net1.
Parameters[1..NumberOf(Parameters,Net1)],
Net2[1..K].Parameters[1..NumberOf(Parameters,Net2)],
Net[3].Parameters[1..NumberOf(Parameters,Net3)]
Net1.
OutSignals[1..NumberOf(OutSignals,Net1)],
Net2[1..K].OutSignals[1..NumberOf(OutSignals,Net2)]
<=>
Net2[1..K].InSignals[1..NumberOf(InSignals,Net2)],
Net3.InSignals[1..NumberOf(InSignals,Net3)]
Loop C N
Contents Net1,
Net2[K], Net3
InSignals[1..NumberOf(InSignals,Net1)]
<=>
Net1.
InSignals[1..NumberOf(InSignals,Net1)]
OutSignals[1..NumberOf(OutSignals,Net3)]
<=>
Net3.OutSignals[1..NumberOf(OutSignals,Net3)]
Parameters[1..NumberOf(Parameters,Net1)+
K*NumberOf(Parameters,Net2)+NumberOf(Parameters,Net3)] <=>
Net1.
Parameters[1..NumberOf(Parameters,Net1)],
Net2[1..K].Parameters[1..NumberOf(Parameters,Net2)],
Net[3].Parameters[1..NumberOf(Parameters,Net3)]
Net1.
OutSignals[1..NumberOf(OutSignals,Net1)],
Net2[1..K].OutSignals[1..NumberOf(OutSignals,Net2)]
<=>
Net2[1..K].InSignals[1..NumberOf(InSignals,Net2)],
Net3.InSignals[1..NumberOf(InSignals,Net3)]
Net3.OutSignals[1..NumberOf(OutSignals,Net3)]
<=>
Net1.
InSignals[1..NumberOf(InSignals,Net1)]
Если
описываемый блок должен иметь связи, устанавливаемые не так, как описано в
разд. «Раздел описания связей», то соответствующий раздел описания блока может
быть описан явно полностью или частично. Если какой либо раздел описан
частично, то действует следующее правило: те сигналы, параметры и их связи,
которые описаны явно, берутся из явного описания, а те сигналы, параметры и их
связи, которые не фигурируют в явном описании берутся из описания по умолчанию.
Так, в приведенном в разд. «Пример описания блоков» описании слоя точек
ветвления BLay невозможно использование генерируемого по
умолчанию подраздела установления связи выходных сигналов блока с входными
сигналами подсетей. Возможно следующее сокращенное описание.
{Слой
точек ветвления}
Layer BLay( N,M : Long)
Contents Branch(N)[M] {В
состав слоя входит M точек ветвления}
Connections
{Выходные сигналы в порядке первый с каждой точки
ветвления, затем второй и т.д. }
OutSignals[1..N * M] <=> Branch[+:1..M].OutSignals[1..N]
End {Конец описания слоя точек
ветвления}
При
описании блоков используются элементы, описанные в библиотеке Elements,
приведенной в разд. "Пример описания элементов".
NetBibl SubNets Used Elements;
{Библиотека подсетей, использующая библиотеку Elements}
{Сигмоидный
нейрон с произвольным сумматором на N входов}
Cascad NSigm(aSum : Block; N : Long; Char : Real)
{В состав каскада входит произвольный сумматор на N
входов и сигмоидный нейрон с необучаемой характеристикой}
Contents aSum(N), S_NotTrain(Char)
End
{Слой сигмоидных нейронов с произвольными сумматорами
на N входов}
Layer Lay1(aSum : Block; N,M : Long; Char : Real)
Contents Sigm: NSigm(aSum,N,Char)[M] {В состав слоя входит M нейронов}
End
{Слой точек ветвления}
Layer BLay( N,M : Long)
Contents Branch(N)[M] {В состав
слоя входит M точек ветвления}
Connections
{Выходные сигналы в порядке первый с каждой точки
ветвления, затем второй и т.д. }
OutSignals[1..N * M] <=>
Branch[+:1..M].OutSignals[1..N]
End
{Полный слой сигмоидных нейронов с произвольными
сумматорами на N входов}
Cascad FullLay(aSum : Block; N,M : Long; Char
: Real)
Contents BLay1(M,N), Lay1(aSum,N,M,Char) {Слой точек ветвления и слой нейронов}
End {Конец
описания слоя сигмоидных нейронов с произвольным сумматором}
{Сеть с сигмоидными нейронами и произвольными
сумматорами, содержащая
Input
– число нейронов на входном слое;
Output
– число нейронов на выходном слое (число выходных сигналов);
Hidden
– число нейронов на H>0 скрытых слоях;
N
– число входных сигналов
все входные сигналы подаются на все нейроны входного
слоя}
Cascad Net1(aSum : Block; Char : Real; Input, Output, Hidden, H, N : Long)
{Под тремя разными псевдонимами используется одна и
таже подсеть с разными параметрами. Использование псевдонимов необходимо даже
при сокращенном описании}
Contents
In: FullLay(aSum,N,Input,Char),
Hid1: FullLay(aSum,Input,Hidden,Char)
Hid2:
FullLay(aSum,Hidden,Hidden,Char)[H-1] {Пусто при
H=1}
Out:
FullLay(aSum,Hidden,Output,Char)
End
{Полносвязная сеть с M сигмоидными нейронами на К
тактов функционирования с невыделенным входным слоем на M сигналов. Все
параметры ограничены по абсолютному значению единицей}
Loop Circle(aSum : Block; Char :
Real; M, K : Long) K
Contents
FullLay(aSum,M,M,Char)
ParamDef DefaultType -1 1
End
{Полносвязная сеть с М сигмоидными нейронами на К
тактов функционирования с выделенным входным слоем на N сигналов.
Cascad Net2: (aSum : Block; Char : Real; M, K, N : Long)
Contents
In: FullLay(aSum,N,M,Char), {Входной слой}
Net: Circle(aSum,Char,M,K) {Полносвязная сеть}
End
Cascad Hopf(N : Long) {Нейрон сети Хопфилда из N нейронов}
Contents Sum(N),Sign_Easy {Сумматор и пороговый элемент}
End
{Слой нейронов Хопфилда}
Layer HLay(N : Long)
Contents Hop: Hopf(N)[N] {В состав слоя входит N нейронов}
End
{Сеть Хопфилда из N нейронов}
Until Hopfield(N : Long) InSignals=OutSignals
Contents BLay(N,N),HLay(N) {Слой точек ветвления и слой нейронов}
End
End NetLib
В
данном разделе главы рассмотрены все запросы, исполняемые компонентом сеть. Прежде
чем приступать к описанию стандарта запросов компонента сеть следует выделить
выполняемые им функции. Что должен делать компонент сеть? Очевидно, что прежде
всего он должен уметь выполнять такие функции, как функционирование вперед
(работа обученной сети) и назад (вычисление вектора поправок или градиента для
обучения), модернизацию параметров (обучение сети) и входных сигналов (обучение
примера). Кроме того компонент сеть должен уметь читать сеть с диска и
записывать ее на диск. Необходимо так же предусмотреть возможность создавать
сеть и редактировать ее структуру. Эти две функциональные возможности не
связаны напрямую с работой (функционированием и обучением) сети. Таким образом,
необходимо выделить сервисную компоненту – редактор сетей. Компонент редактор
сетей позволяет создавать и изменять структуру сети, модернизировать обучаемые
параметры в «ручном» режиме.
Запросы
к компоненту сеть можно разбить на пять групп:
1. Функционирование.
2. Изменение параметров.
3. Работа со структурой.
4. Инициация редактора и
конструктора сетей.
5. Обработка ошибок.
Поскольку
компонент сеть может работать одновременно с несколькими сетями, большинство
запросов к сети содержат явное указание имени сети. Отметим, что при генерации
запросов в качестве имени сети можно указывать имя любой подсети. Таким образом,
иерархическая структура сети, описанная в стандарте языка описания сетей,
позволяет работать с каждым блоком или элементом сети как с отдельной сетью.
Ниже приведено описание всех запросов к компоненту сеть. Каждый запрос является
логической функцией, возвращающей значение истина, если запрос выполнен
успешно, и ложь – при ошибочном завершении исполнения запроса.
При вызове ряда запросов используются предопределенные константы. Их значения приведены в табл. 13.
Таблица 13.
Значения предопределенных
констант
Название |
Величина |
Значение |
InSignals |
0 |
Входные сигналы прямого функционирования |
OutSignals |
1 |
Выходные сигналы прямого функционирования |
Рarameters |
2 |
Параметры |
InSignalMask |
3 |
Маска обучаемости входных сигналов |
ParamMask |
4 |
Маска обучаемости параметров |
BackInSignals |
5 |
Входные сигналы обратного функционирования |
BackOutSignals |
6 |
Выходные сигналы обратного функционирования |
BackРarameters |
7 |
Поправки к параметрам |
Element |
0 |
Тип подсети – элемент |
Layer |
1 |
Тип подсети – слой |
Cascad |
2 |
Тип подсети – простой каскад |
CicleFor |
3 |
Тип подсети – цикл с заданным числом проходов |
CicleUntil |
4 |
Тип подсети – цикл по условию |
Два
запроса первой группы позволяют проводить прямое и обратное функционирование
сети. По сути эти запросы эквивалентны вызову методов Forw и Back сети или ее
элемента.
Описание
запроса:
Pascal:
Function Forw ( Net : PString; InSignals :
PRealArray ) : Logic;
C:
Logic Forw(PString Net, PRealArray InSignals)
Описание
аргумента:
Net – указатель на строку символов, содержащую имя
сети.
InSignals
– массив входных сигналов сети.
Назначение
– проводит прямое функционирование сети, указанной в параметре Net.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если в качестве аргумента Net дан
пустой указатель, или указатель на пустую строку, то исполняющим запрос
объектом является первая сеть в списке сетей компонента сеть.
3. Если список сетей компонента
сеть пуст или имя сети, переданное в аргументе Net в этом списке не найдено,
то возникает ошибка 301 – неверное имя сети, управление передается обработчику
ошибок, а обработка запроса прекращается.
4. Вызывается метод Forw
сети, имя которой было указано в аргументе Net.
5. Если во время выполнения
запроса возникает ошибка, то генерируется внутренняя ошибка 304 - ошибка
прямого функционирования. Управление передается обработчику ошибок. Выполнение
запроса прекращается. В противном случае выполнение запроса успешно завершается.
Описание
запроса:
Pascal:
Function Back( Net : PString; BackOutSignals : PRealArray) :
Logic;
C:
Logic Back(PString
Net, PRealArray BackOutSignals)
Описание
аргумента:
Net
– указатель на строку символов, содержащую имя сети.
BackOutSignals – массив производных функции оценки по
выходным сигналам сети.
Назначение
– проводит обратное функционирование
сети, указанной в параметре Net.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если в качестве аргумента Net дан
пустой указатель, или указатель на пустую строку, то исполняющим запрос
объектом является первая сеть в списке сетей компонента сеть.
3. Если список сетей компонента
сеть пуст или имя сети, переданное в аргументе Net в этом списке не найдено,
то возникает ошибка 301 – неверное имя сети, управление передается обработчику
ошибок, а обработка запроса прекращается.
4. Вызывается метод Back
сети, имя которой было указано в аргументе Net.
5. Если во время выполнения
запроса возникает ошибка, то генерируется внутренняя ошибка 305 - ошибка обратного функционирования. Управление
передается обработчику ошибок. Выполнение запроса прекращается. В противном
случае выполнение запроса успешно завершается.
Ко
второй группе запросов относятся четыре запроса: Modify – модификация параметров,
обычно называемая обучением, ModifyMask – модификация маски обучаемых синапсов,
NullGradient – обнуление градиента и RandomDirection – сгенерировать случайное
направление спуска.
Описание
запроса:
Pascal:
Function Modify( Net
: PString; OldStep, NewStep : Real; Tipe : Integer; Grad : PRealArray ) : Logic;
C:
Logic Modify(PString Net,
Real OldStep, Real NewStep,
Integer Tipe, PRealArray Grad)
Описание
аргументов:
Net
– указатель на строку символов, содержащую имя сети.
OldStep,
NewStep – параметры обучения.
Tipe
– одна из констант InSignals или Parameters.
Grad
– адрес массива поправок или пустой указатель.
Назначение
– проводит обучение параметров или входных сигналов сети, указанной в параметре
Net.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если в качестве аргумента Net дан
пустой указатель, или указатель на пустую строку, то исполняющим запрос
объектом является первая сеть в списке сетей компонента сеть.
3. Если список сетей компонента
сеть пуст или имя сети, переданное в аргументе Net в этом списке не найдено,
то возникает ошибка 301 – неверное имя сети, управление передается обработчику
ошибок, а обработка запроса прекращается.
4. Если аргумент Grad содержит
пустой указатель, то поправки берутся из массива Back.Parameters или
Back.InputSignals в зависимости от значения аргумента Tipe.
5. В зависимости от значения
аргумента Tipe для каждого параметра или входного сигнала P, при
условии, что соответствующий ему элемент маски обучаемости, соответствующей
аргументу Tipe равен -1 (значение истина) выполняется следующая процедура:
P1=P*OldStep+DP*NewStep.
Если
для типа, которым описан параметр P, заданы минимальное и максимальное
значения, то:
P2=Pmin,
при P1
P2=Pmax,
при P1>Pmax
P2=P1
в противном случае
Описание
запроса:
Pascal:
Function ModifyMask( Net : PString; Tipe : Integer; NewMask: PLogicArray
) : Logic;
C:
Logic Modify(PString Net, Integer Tipe, PLogicArray NewMask)
Описание
аргументов:
Net – указатель на строку символов, содержащую имя
сети.
Tipe – одна из констант InSignals или Parameters.
NewMask – новая маска обучаемости.
Назначение
– Заменяет маску обучаемости параметров или входных сигналов сети, указанной в
параметре Net.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если в качестве аргумента Net дан
пустой указатель, или указатель на пустую строку, то исполняющим запрос
объектом является первая сеть в списке сетей компонента сеть.
3. Если список сетей компонента
сеть пуст или имя сети, переданное в аргументе Net в этом списке не найдено, то
возникает ошибка 301 – неверное имя сети, управление передается обработчику
ошибок, а обработка запроса прекращается.
4. В зависимости от значения
параметра Tipe заменяет маску обучаемости параметров или входных сигналов на
переданную в параметре NewMask.
Описание
запроса:
Pascal:
Function NullGradient( Net : PString ) : Logic;
C:
Logic NullGradient(PString Net)
Описание аргументов:
Net – указатель на строку символов, содержащую имя
сети.
Назначение
– производит обнуление градиента сети, указанной в параметре Net.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если в качестве аргумента Net дан
пустой указатель, или указатель на пустую строку, то исполняющим запрос
объектом является первая сеть в списке сетей компонента сеть.
3. Если список сетей компонента
сеть пуст или имя сети, переданное в аргументе Net в этом списке не найдено,
то возникает ошибка 301 – неверное имя сети, управление передается обработчику
ошибок, а обработка запроса прекращается.
4. Обнуляются массивы
Back.Parameters и Back.OutSignals.
Описание
запроса:
Pascal:
Function RandomDirection( Net : PString; Range : Real ) : Logic;
C:
Logic RandomDirection(PString Net,
Описание
аргументов:
Net – указатель на строку символов, содержащую имя
сети.
Range – относительная ширина интервала, на котором должны
быть распределены значения случайной величины.
Назначение
– генерирует вектор случайных поправок к параметрам сети.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Если в качестве аргумента Net дан
пустой указатель, или указатель на пустую строку, то исполняющим запрос
объектом является первая сеть в списке сетей компонента сеть.
3. Если список сетей компонента
сеть пуст или имя сети, переданное в аргументе Net в этом списке не найдено,
то возникает ошибка 301 – неверное имя сети, управление передается обработчику
ошибок, а обработка запроса прекращается.
4. Замещают все значения
массива Back.Parameters на случайные величины. Интервал распределения случайной
величины зависит от типа параметра, указанного при описании сети (ParamType) и
аргумента Range. Полуширина интервала определяется как произведение
полуширины интервала допустимых значений параметра, указанных в разделе ParamDef
описания сети на величину Range. Интервал распределения
случайной величины определяется как [-Полуширина; Полуширина].
К
третьей группе относятся запросы, позволяющие изменять структуру сети. Часть
запросов этой группы описана в разд. "Остальные запросы".
Описание
запроса:
Pascal:
Function nwGetData(Net
: PString; DataType : Integer; Var Data : PRealArray) : Logic;
C:
Logic nwGetData(PString
Net, Integer DataType, PRealArray* Data)
Описание
аргументов:
Net
– указатель на строку символов, содержащую имя сети.
DataType
– одна из восьми предопределенных констант, описывающих тип
данных сети.
Data
– возвращаемый массив параметров сети.
Назначение
– возвращает параметры, входные или выходные сигналы сети, указанной в аргументе
Net.
Описание
исполнения.
1. Если в качестве аргумента Net дан
пустой указатель, или указатель на пустую строку, то исполняющим запрос
объектом является перавя сеть в списке сетей компонента сеть.
2. Если имя сети, переданное в
аргументе Net не найдено в списке сетей компонента сеть или этот
список пуст, то возникает ошибка 301 – неверное имя сети, управление передается
обработчику ошибок, а обработка запроса прекращается.
3. Если значение, переданное в
аргументе DataType больше семи или меньше нуля, то возникает ошибка 306 –
ошибочный тип параметра сети, управление передается обработчику ошибок, а
обработка запроса прекращается.
4. В массиве Data
возвращаются указанные в аргументе DataType параметры сети.
Описание
запроса:
Pascal:
Function nwSetData(Net
: PString; DataType : Integer; Var Data : RealArray) : Logic;
C:
Logic nwSetData(PString
Net, Integer DataType, RealArray* Data)
Описание
аргументов:
Net
– указатель на строку символов, содержащую имя сети.
DataType
– одна из восьми предопределенных констант, описывающих тип данных сети.
Data
– массив параметров для замещения текущего массива параметров сети.
Назначение
– замещает параметры, входные или выходные сигналы сети, указанной в аргументе Net на
значения из массива Data.
Описание
исполнения.
1. Если в качестве аргумента Net дан
пустой указатель, или указатель на пустую строку, то исполняющим запрос
объектом является первая сеть в списке сетей компонента сеть.
2. Если имя сети, переданное в
аргументе Net не найдено в списке сетей компонента сеть или этот
список пуст, то возникает ошибка 301 – неверное имя сети, управление передается
обработчику ошибок, а обработка запроса прекращается.
3. Если значение, переданное в
аргументе DataType больше семи или меньше нуля, то возникает ошибка 306 –
ошибочный тип параметра сети, управление передается обработчику ошибок, а
обработка запроса прекращается.
4. Значения параметров (входных
или выходных сигналов) сети заменяются на значения из массива Data. Если
длинны массива Data недостаточно для замены значений всех параметров
(входных или выходных сигналов), то замещаются только столько элементов массива
параметров (входных или выходных сигналов) сколько элементов в массиве Data. Если
длинна массива Data больше длинны массива параметров (входных или
выходных сигналов), то заменяются все элементы вектора параметров (входных или
выходных сигналов), а лишние элементы массива Data игнорируются.
Описание
запроса:
Pascal:
Function NormalizeNet(Net : PString) : Logic;
C:
Logic NormalizeNet(PString Net)
Описание
аргумента:
Net – указатель на строку символов, содержащую имя
сети.
Назначение
– нормализация сети, указанной в аргументе Net.
Описание
исполнения.
1. Если в качестве аргумента Net дан
пустой указатель, или указатель на пустую строку, то исполняющим запрос
объектом является первая сеть в списке сетей компонента сеть.
2. Если имя сети, переданное в
аргументе Net не найдено в списке сетей компонента сеть или этот
список пуст, то возникает ошибка 301 – неверное имя сети, управление передается
обработчику ошибок, а обработка запроса прекращается.
3. Из сети удаляются связи,
имеющие нулевой вес и исключенные из обучения. Нумерация сигналов и параметров
сохраняется.
4. Из структуры сети удаляются
«немые» участки – элементы и блоки, выходные сигналы которых не являются
выходными сигналами сети в целом и не используются в качестве входных сигналов
другими подсетями. Нумерация сигналов и параметров сохраняется.
5. Производится замена
элементов, ставших «прозрачными» – путем замыкания входного сигнала на
выходной, удаляются простые однородные сумматоры с одним входом и точки
ветвления с одним выходом; адаптивные однородные сумматоры с одним входом
заменяются синапсами. Нумерация сигналов и параметров сохраняется.
6. В каждом блоке производится
замена имен подсетей на псевдонимы.
7. Производится изменение
нумерации сигналов и параметров сети.
Ниже
приведен список запросов, исполнение которых описано в главе 1:
nwSetCurrent – Сделать сеть текущей
nwAdd – Добавление сети
nwDelete – Удаление сети
nwWrite – Запись сети
nwGetStructNames – Вернуть имена подсетей
nwGetType – Вернуть тип подсети
nwEdit – Редактировать компоненту сеть
OnError
– Установить обработчик ошибок
GetError
– Дать номер ошибки
FreeMemory
– Освободить память
В
запросе nwGetType в
переменной TypeId возвращается значение одной из предопределенных констант,
перечисленных в табл. 13.
Следует
заметить, что два запроса nwGetData (Получить параметры)
и nwSetData (Установить параметры) имеют название, совпадающее с
названием запросов, описанных в разделе "Общий стандарт", но они
имеют другой набор аргументов.
В табл. 14
приведен полный список ошибок, которые могут возникать при выполнении запросов
компонентом сеть, и действия стандартного обработчика ошибок.
Таблица 14
Ошибки компонента сеть и
действия стандартного обработчика ошибок.
№ |
Название ошибки |
Стандартная обработка |
301 |
Неверное имя сети |
Занесение номера в Error |
302 |
Ошибка считывания сети |
Занесение номера в Error |
303 |
Ошибка сохранения сети |
Занесение номера в Error |
304 |
Ошибка прямого функционирования |
Занесение номера в Error |
305 |
Ошибка обратного функционирования |
Занесение номера в Error |
306 |
Ошибочный тип параметра сети |
Занесение номера в Error |
Эта глава посвящена обзору различных видов оценок, способам их вычисления. В ней так же рассмотрен способ определения уровня уверенности сети в выданном ответе и приведен способ построения оценок, позволяющих определять уровень уверенности. Приведен основной принцип проектирования оценки: надо учить сеть тому, что мы хотим от нее получить. Приведенные в данной главе результаты впервые были опубликованы в работах [78, 82, 84, 145, 146, 149, 152].
Основные
функции, которые должна выполнять оценка:
1. Вычислять оценку решения,
выданного сетью.
2. Вычислять производные этой
оценки по выходным сигналам сети.
Кроме
оценок, в первом разделе этой главы рассмотрен другой, тесно связанный с ней
объект – интерпретатор ответа. Основное назначение этого объекта – интерпретировать
выходной вектор сети как ответ, понятный пользователю. Однако, при определенном
построении интерпретатора и правильно построенной по нему оценке, интерпретатор
ответа может также оценивать уровень уверенности сети в выданном ответе.
При
частичной аппаратной реализации нейрокомпьютера включение функции оценки в
аппаратную часть не эффективно, поскольку оценка является сложным устройством
(многие функции оценки включают в себя операции сортировки, и другие
аналогичные операции). Однако при аппаратной реализации обученной нейронной
сети (даже если предусматривается доучивание сети) аппаратная реализация
интерпретатора ответа может оказаться эффективной, поскольку для обученной сети
интерпретатор уже не меняется, и по сравнению с оценкой интерпретатор ответа
достаточно прост.
Как
было показано в главе «Описание нейронных сетей», ответ, выдаваемый нейронной
сетью, как правило, является числом, из диапазона . Если ответ выдается несколькими нейронами, то на выходе
сети мы имеем вектор, каждый компонент которого лежит в интервале . Если в качестве ответа требуется число из этого диапазона,
то мы можем его получить. Однако, в большинстве случаев это не так. Достаточно
часто требуемая в качестве ответа величина лежит в другом диапазоне. Например,
при предсказании температуры воздуха 25 июня в Красноярске ответ должен лежать
в интервале от 5 до 35 градусов Цельсия. Сеть не может дать на выходе такого
сигнала. Значит, прежде чем обучать сеть необходимо решить в каком виде будем
требовать ответ. В данном случае ответ можно требовать в виде , где T – требуемая
температура, и – минимальная и
максимальная температуры, a – ответ, который будем
требовать от сети. При интерпретации ответа необходимо проделать обратное
преобразование. Если сеть выдала сигнал a,
то ответом является величина . Таким образом, можно интерпретировать выдаваемый сетью
сигнал, как величину из любого, наперед заданного диапазона.
Если
при составлении обучающего множества ответ на примеры определялся с некоторой
погрешностью, то от сети следует требовать не точного воспроизведения ответа, а
попадания в интервал заданной ширины. В этом случае интерпретатор ответа может
выдать сообщение о правильности (попадании в интервал) ответа.
Другим,
часто встречающимся случаем, является предсказание сетью принадлежности
входного вектора одному из заданных классов. Такие задачи называют задачами классификации,
а решающие их сети – классификаторами. В простейшем случае задача классификации
ставится следующим образом: пусть задано N классов. Тогда нейросеть выдает
вектор из N сигналов. Однако, нет единого универсального правила интерпретации
этого вектора. Наиболее часто используется интерпретация по максимуму: номер
нейрона, выдавшего максимальный по величине сигнал, является номером класса, к
которому относится предъявленный сети входной вектор. Такие интерпретаторы
ответа называются интерпретаторами, кодирующими ответ номером канала (номер нейрона – номер класса). Все интерпретаторы,
использующие кодирование номером канала, имеют один большой недостаток – для
классификации на N классов требуется N выходных нейронов. При большом N требуется много выходных нейронов для
получения ответа. Однако существуют и другие виды интерпретаторов.
Двоичный интерпретатор. Основная идея двоичного
интерпретатора – получение на выходе нейронной сети двоичного кода номера
класса. Это достигается двухэтапной интерпретацией:
1. Каждый выходной сигнал
нейронной сети интерпретируется как 1, если он больше , и как 0 в противном случае.
2. Полученная
последовательность нулей и единиц интерпретируется как двоичное число.
Двоичный
интерпретатор позволяет интерпретировать N
выходных сигналов нейронной сети как номер одного из 2N классов.
Порядковый интерпретатор. Порядковый интерпретатор
кодирует номер класса подстановкой. Отсортируем вектор выходных сигналов по
возрастанию. Вектор, составленный из номеров нейронов последовательно расположенных
в отсортированном векторе выходных сигналов, будет подстановкой. Если каждой
подстановке приписать номер класса, то такой интерпретатор может закодировать N! классов используя N выходных сигналов.
Часто
при решении задач классификации с использованием нейронных сетей недостаточно
простого ответа «входной вектор принадлежит k-му классу». Хотелось бы также
оценить уровень уверенности в этом ответе. Для различных интерпретаторов вопрос
определения уровня уверенности решается по-разному. Однако, необходимо учесть,
что от нейронной сети нельзя требовать больше того, чему ее обучили. В этом
разделе будет рассмотрен вопрос об определении уровня уверенности для
нескольких интерпретаторов, а в следующем будет показано, как построить оценку
так, чтобы нейронная сеть позволяла его определить.
1. Кодирование номером канала.
Знаковый интерпретатор. Знаковый интерпретатор работает в два этапа.
1. Каждый выходной сигнал
нейронной сети интерпретируется как 1, если он больше , и как 0 в противном случае.
2. Если в полученном векторе
только одна единица, то номером класса считается номер нейрона, сигнал которого
интерпретирован как 1. В противном случае ответом считается неопределенный
номер класса (ответ «не знаю»).
Для
того чтобы ввести уровень уверенности для этого интерпретатора потребуем, чтобы
при обучении сети для всех примеров было верно неравенство: , где ; - i-ый выходной
сигнал. e – уровень надежности
(насколько сильно сигналы должны быть отделены от при обучении). В этом
случае уровень уверенности R определяется следующим образом: . Таким образом, при определенном ответе уровень уверенности
показывает, насколько ответ далек от неопределенного, а в случае
неопределенного ответа – насколько он далек от определенного.
2. Кодирование номером
канала. Максимальный интерпретатор. Максимальный интерпретатор в качестве номера класса
выдает номер нейрона, выдавшего максимальный сигнал. Для такого интерпретатора
в качестве уровня уверенности естественно использовать некоторую функцию от
разности между максимальным и вторым по величине сигналами. Для этого
потребуем, чтобы при обучении для всех примеров обучающего множества разность
между максимальным и вторым по величине сигналами была не меньше уровня
надежности e. В этом случае уровень
уверенности вычисляется по следующей формуле: , где – максимальный, а – второй по величине
сигналы.
3. Двоичный интерпретатор. Уровень надежности для двоичного
интерпретатора вводится так же, как и для знакового интерпретатора при кодировании
номером канала.
4. Порядковый интерпретатор.
При
использовании порядкового интерпретатора в качестве уровня уверенности
естественно брать функцию от разности двух соседних сигналов в упорядоченном по
возрастанию векторе выходных сигналов. Для этого потребуем, чтобы при обучении
для всех примеров обучающего множества в упорядоченном по возрастанию векторе
выходных сигналов разность между двумя соседними элементами была не меньше
уровня надежности e. В этом случае уровень уверенности можно вычислить по формуле , причем вектор выходных сигналов предполагается отсортированным
по возрастанию.
В
заключение заметим, что для ответа типа число, ввести уровень уверенности подобным
образом невозможно. Пожалуй, единственным способом оценки достоверности
результата является консилиум нескольких сетей – если несколько сетей обучены
решению одной и той же задачи, то в качестве ответа можно выбрать среднее
значение, а по отклонению ответов от среднего можно оценить достоверность
результата.
Если
в качестве ответа нейронная сеть должна выдать число, то естественной оценкой
является квадрат разности выданного сетью выходного сигнала и правильного
ответа. Все остальные оценки для обучения сетей решению таких задач являются
модификациями данной. Приведем пример такой модификации. Пусть при составлении
задачника величина , являющаяся ответом, измерялась с некоторой точностью e. Тогда нет смысла требовать от сети обучиться
выдавать в качестве ответа именно величину . Достаточно, если выданный сетью ответ попадет в интервал. Оценка, удовлетворяющая этому требованию, имеет вид:
Эту
оценку будем называть оценкой числа с допуском e.
Для
задач классификации также можно пользоваться оценкой типа суммы квадратов
отклонений выходных сигналов сети от требуемых ответов. Однако, эта оценка
плоха тем, что во-первых, требования при обучении сети не совпадают с
требованиями интерпретатора, во-вторых – такая оценка не позволяет оценить
уровень уверенности сети в выданном ответе. Достоинством такой оценки является
ее универсальность. Опыт работы с нейронными сетями, накопленный красноярской
группой НейроКомп, свидетельствует о том, что при использовании оценки,
построенной по интерпретатору, в несколько раз возрастает скорость обучения.
Рассмотрим построение оценок по интерпретатору для четырех рассмотренных в предыдущем
разделе интерпретаторов ответа.
В
ряде описаний оценки и ее производной, приведенных далее, используется следующая
функция и ее производная:
1. Кодирование номером
канала. Знаковый интерпретатор. Пусть для рассматриваемого примера правильным
ответом является k-ый класс. Тогда
вектор выходных сигналов сети должен удовлетворять следующей системе неравенств:
где e- уровень надежности.
Оценку,
вычисляющую расстояние от точки a в пространстве выходных
сигналов до множества точек, удовлетворяющих этой системе неравенств, можно
записать в виде:
Производная
оценки по i-му выходному сигналу
равна
.
2. Кодирование номером
канала. Максимальный интерпретатор. Пусть для рассматриваемого примера правильным
ответом является k-ый класс. Тогда
вектор выходных сигналов сети должен удовлетворять следующей системе
неравенств:при . Оценкой решения сетью данного примера является расстояние
от точки a в пространстве выходных
сигналов до множества точек, удовлетворяющих этой системе неравенств. Для
записи оценки, исключим из вектора выходных сигналов сигнал , а остальные сигналы отсортируем по убыванию. Обозначим величину через , а вектор отсортированных сигналов через . Система неравенств в этом случае приобретает вид , при i>1.
Множество точек удовлетворяющих этой системе неравенств обозначим через D.
Очевидно, что если , то точка b принадлежит множеству D.
Если , то найдем проекцию точки b на гиперплоскость . Эта точка имеет координаты . Если , то точка принадлежит множеству D.
Если нет, то точку b нужно проектировать на
гиперплоскость. Найдем эту точку. Ее координаты можно записать в следующем
виде . Эта точка обладает тем свойством, что расстояние от нее до
точки b минимально. Таким образом,
для нахождения величины b достаточно
взять производную от расстояния по b и
приравнять ее к нулю:
Из
этого уравнения находим b и
записываем координаты точки :
.
Эта
процедура продолжается дальше, до тех пор, пока при некотором l не выполнится неравенство или пока l не
окажется равной N-1. Оценкой является
расстояние от точки b до точки . Она равна следующей величине
.
Производная
оценки по выходному сигналу равна
Для
перехода к производным по исходным выходным сигналам необходимо обратить
сделанные на первом этапе вычисления оценки преобразования.
3. Двоичный интерпретатор. Оценка для двоичного
интерпретатора строится точно также как и для знакового интерпретатора при
кодировании номером канала. Пусть правильным ответом является k-ый класс, тогда обозначим через K множество номеров сигналов, которым в
двоичном представлении k соответствуют
единицы. При уровне надежности оценка задается формулой:
Производная
оценки по i-му выходному сигналу
равна:
.
4. Порядковый интерпретатор. Для построения оценки по
порядковому интерпретатору необходимо предварительно переставить компоненты
вектора a в соответствии с
подстановкой, кодирующей правильный ответ. Обозначим полученный в результате
вектор через . Множество точек,
удовлетворяющих условию задачи, описывается системой уравнений , где e – уровень надежности.
Обозначим это множество через D. Оценка задается расстоянием от
точки b до проекции этой точки на
множество D. Опишем процедуру вычисления проекции.
1. Просмотрев координаты точки , отметим те номера координат, для которых нарушается неравенство .
2. Множество отмеченных
координат либо состоит из одной последовательности последовательных номеров , или из нескольких таких последовательностей. Найдем точку , которая являлась бы проекцией точки на гиперплоскость, определяемую
уравнениями , где i пробегает
множество индексов отмеченных координат. Пусть множество отмеченных координат
распадается на n последовательностей,
каждая из которых имеет вид , где m – номер
последовательности. Тогда точка имеет вид:
1. Точка является проекцией, и
следовательно, расстояние от до должно быть
минимальным. Это расстояние равно . Для нахождения минимума этой функции необходимо приравнять
к нулю ее производные по . Получаем систему уравнений . Решая ее, находим .
2. Если точка удовлетворяет
неравенствам, приведенным в первом пункте процедуры, то расстояние от нее до
точки является оценкой. В
противном случае, повторяем первый шаг процедуры, используя точку вместо ; Объединяем полученный список отмеченных компонентов со
списком, полученным при поиске предыдущей точки; находим точку , повторяя все шаги процедуры, начиная со второго.
Отметим,
что в ходе процедуры число отмеченных последовательностей соседних индексов не
возрастает. Некоторые последовательности могут сливаться, но новые возникать не
могут. После нахождения проекции можно записать оценку:
.
Обозначим
через m-ую последовательность соседних координат, выделенную при
последнем исполнении первого шага процедуры вычисления оценки: . Тогда производную оценки по выходному сигналу можно записать в
следующем виде:
Таким
образом, построение оценки по интерпретатору сводится к следующей процедуре.
1. Определяем множество
допустимых точек, то есть таких точек в пространстве выходных сигналов, которые
интерпретатор ответа будет интерпретировать как правильный ответ со
стопроцентным уровнем уверенности.
2. Находим проекцию выданной
сетью точки на это множество. Проекцией является ближайшая точка из множества.
3. Записываем оценку как
расстояние от точки, выданной сетью, до ее проекции на множество допустимых
точек.
В
предыдущем разделе был рассмотрен ряд оценок, позволяющих оценить решение сетью
конкретного примера. Однако, ситуация, когда сеть хотят обучить решению только
одного примера, достаточно редка. Обычно сеть должна научиться решать все
примеры обучающего множества. Ряд алгоритмов обучения, которые будут
рассматриваться в главе "учитель", требуют возможности обучать сеть
решению всех примеров одновременно и, соответственно, оценивать решение сетью
всех примеров обучающего множества. Как уже отмечалось, обучение нейронной сети
– это процесс минимизации в пространстве обучаемых параметров функции оценки.
Большинство алгоритмов обучения используют способность нейронных сетей быстро
вычислять вектор градиента функции оценки по обучаемым параметрам. Обозначим
оценку отдельного примера через . а оценку всего обучающего множества через . Простейший способ получения из – простая сумма. При
этом вектор градиента вычисляется очень просто:
.
Таким
образом, используя способность сети вычислять градиент функции оценки решения
одного примера, можно получить градиент функции оценки всего обучающего
множества.
Обучение
по всему обучающему множеству позволяет задействовать дополнительные механизмы
ускорения обучения. Большинство этих механизмов будет рассмотрено в главе
«Учитель». В этом разделе будет рассмотрен только один из них – использование
весов примеров. Использование весов примеров может быть вызвано одной из
следующих причин.
1. Один из примеров плохо
обучается.
2. Число примеров разных
классов в обучающем множестве сильно отличаются друг от друга.
3. Примеры в обучающем
множестве имеют различную достоверность.
Рассмотрим
первую причину – пример плохо обучается. Под «плохо обучается» будем понимать
медленное снижение оценки данного примера по отношению к снижению оценки по
обучающему множеству. Для того чтобы ускорить обучение данного примера, ему
можно приписать вес, больший, чем у остальных примеров. При этом оценка по обучающему
множеству и ее градиент можно записать в следующем виде: . где – вес i-го примера. Эту функцию оценки будем называть
оценкой взвешенных примеров. При этом градиент, вычисленный по оценке решения
сетью этого примера, войдет в суммарный градиент с большим весом, и, следовательно,
сильнее повлияет на выбор направления обучения. Этот способ применим также и
для коррекции проблем, связанных со второй причиной – разное число примеров разных
классов. Однако в этом случае увеличиваются веса всем примерам того класса, в
котором меньше примеров. Опыт показывает, что использование весов в таких
ситуациях позволяет улучшить обобщающие способности сетей.
В случае
различной достоверности примеров в обучающем множестве функция взвешенных
примеров не применима. Действительно, если известно, что достоверность ответа в
k-ом примере в два раза ниже, чем в l-ом, хотелось бы, чтобы обученная сеть
выдавала для k-ого примера в два раза
меньший уровень уверенности. Этого можно достичь, если при вычислении оценки k-ого примера будет использоваться в два
раза меньший уровень надежности. Оценка обучающего множества в этом случае вычисляется
по формуле без весов, а достоверность учитывается непосредственно при
вычислении оценки по примеру. Такую оценку будем называть оценкой взвешенной
достоверности.
Таким
образом, каждый пример может иметь два веса: вес примера и достоверность
примера. Кроме того, при решении задач классификации каждый класс может
обладать собственным весом. Окончательно функцию оценки по обучающему множеству
и ее градиент можно записать в следующем виде:
где – вес примера, – его достоверность.
В
предыдущих разделах был рассмотрен ряд оценок. Эти оценки обладают одним общим
свойством – для вычисления оценки по примеру, предъявленному сети, достаточно
знать выходной вектор, выданный сетью при решении этого примера, и правильный
ответ. Такие оценки будем называть локальными. Приведем точное определение.
Определение. Локальной называется любая оценка, являющаяся
линейной комбинацией произвольных непрерывно дифференцируемых функций, каждая
из которых зависит от оценки только одного примера.
Использование
локальных оценок позволяет обучать сеть решению как отдельно взятого примера,
так и всего обучающего множества в целом. Однако существуют задачи, для которых
невозможно построить локальную оценку. Более того, для некоторых задач нельзя
построить даже обучающее множество. Использование нелокальных оценок возможно
даже при решении задач классификации.
Приведем
два примера нелокальных оценки.
Кинетическая оценка для
задачи классификации. Пусть в обучающее множество входят примеры k классов. Требуется обучить сеть так, чтобы в пространстве
выходных сигналов множества примеров разных классов были попарно линейно разделимы.
Пусть
сеть выдает N выходных сигналов. Для
решения задачи достаточно, чтобы в ходе обучения все точки в пространстве
выходных сигналов, соответствующие примерам одного класса, собирались вокруг
одной точки – центра концентрации класса, и чтобы центры концентрации разных
классов были как можно дальше друг от друга. В качестве центра концентрации
можно выбрать барицентр множества точек, соответствующих примерам данного
класса.
Таким
образом, функция оценки должна состоять из двух компонентов: первая реализует
притяжение между примерами одного класса и барицентром этого класса, а вторая
отвечает за отталкивание барицентров разных классов. Обозначим точку в
пространстве выходных сигналов, соответствующую m-му примеру, через , множество примеров i-го
класса через , барицентр точек, соответствующих примерам этого класса,
через (), число примеров в i-ом
классе через , а расстояние между точками a и b через . Используя эти обозначения, можно записать притягивающий
компонент функции оценки для всех примеров i-го
класса в виде:
Функция
оценки обеспечивает сильное
притяжение для примеров, находящихся далеко от барицентра. Притяжение
ослабевает с приближением к барицентру. Компонент функции оценки, отвечающий за
отталкивание барицентров разных классов, должен обеспечивать сильное отталкивание
близких барицентров и ослабевать с удалением барицентров друг от друга. Такими
свойствами обладает гравитационное отталкивание. Используя гравитационное
отталкивание можно записать второй компонент функции оценки в виде: . Таким образом, оценку, обеспечивающую сближение точек, соответствующих
примерам одного класса, и отталкивание барицентров, можно записать в виде:
Вычислим
производную оценки по j-му выходному
сигналу, полученному при решении i-го примера. Пусть i-ый пример принадлежит l-му
классу. Тогда производная имеет вид:
Эту
оценку будем называть кинетической. Существует одно основное отличие этой
оценки от всех других, ранее рассмотренных, оценок для решения задач
классификации. При использовании традиционных подходов, сначала выбирают
интерпретатор ответа, затем строят по выбранному интерпретатору функцию оценки,
и только затем приступают к обучению сети. Для кинетической оценки такой подход
не применим. Действительно, до того как будет закончено обучение сети
невозможно построить интерпретатор. Кроме того, использование кинетической
оценки, делает необходимым обучение сети решению всех примеров обучающего
множества одновременно. Это связанно с невозможностью вычислить оценку одного
примера. Кинетическая оценка, очевидно, не является локальной: для вычисления
производных оценки по выходным сигналам примера необходимо знать барицентры
всех классов, для вычисления которых, в свою очередь, необходимо знать выходные
сигналы, получаемые при решении всех
примеров обучающего множества.
Интерпретатор
для кинетической оценки строится следующим образом. Для построения разделителя i-го и j-го классов строим плоскость, перпендикулярную к вектору Уравнение этой
плоскости можно записать в виде
.
Для
определения константы D находим среди
точек i-го класса ближайшую к барицентру
j-го класса. Подставляя координаты
этой точки в уравнение гиперплоскости, получаем уравнение на D. Решив это уравнение, находим величину
. Используя ближайшую к барицентру i-го класса точку j-го
класса, находим величину . Искомая константа D находится
как среднее арифметическое между и . Для отнесения произвольного вектора к i-му или j-му классу
достаточно подставить его значения в левую часть уравнения разделяющей
гиперплоскости. Если значение левой части уравнения получается больше нуля, то
вектор относится к j-му классу, в
противном случае – к i-му.
Интерпретатор
работает следующим образом: если для i-го
класса все разделители этого класса с остальными классами выдали ответ i-ый класс, то окончательным ответом
является i-ый класс. Если такого
класса не нашлось, то ответ «не знаю». Ситуация, когда для двух различных классов
все разделители подтвердили принадлежность к этому классу, невозможна, так как
разделитель этих двух классов должен был отдать предпочтение одному из них.
Рассмотренный
пример решения задачи с использованием нелокальной оценки позволяет выделить основные
черты обучения с нелокальной оценкой:
1. Невозможность оценить
решение одного примера.
2. Невозможность оценить правильность
решения примера до окончания обучения.
3. Невозможность построения
интерпретатора ответа до окончания обучения.
Этот
пример является отчасти надуманным, поскольку его можно решить с использованием
более простых локальных оценок. Ниже приведен пример задачи, которую невозможно
решить с использованием локальных оценок.
Генератор случайных чисел. Необходимо обучить сеть
генерировать последовательность случайных чисел из диапазона с заданными k первыми моментами. Напомним, что для выборки
роль первого момента играет среднее значение, второго – средний квадрат,
третьего – средний куб и так далее. Есть два пути решения этой задачи. Первый –
используя стандартный генератор случайных чисел подготовить задачник и обучить
по нему сеть. Этот путь плох тем, что такой генератор будет просто воспроизводить
последовательность чисел, записанную в задачнике. Для получения такого
результата можно просто хранить задачник.
Второй
вариант – обучать сеть без задачника! Пусть нейросеть принимает один входной
сигнал и выдает один выходной. При использовании сети выходной сигнал первого
срабатывания сети (первое случайное число) будет служить входным сигналом для
второго срабатывания сети и так далее.
Для
построения оценки зададимся тремя наборами чисел: – необходимое значение
i-го момента, – длина
последовательности, на которой i-ый
момент сгенерированной последовательности должен не более чем на отличаться от . – точность вычисления i-го момента.
Выборочная
оценка совпадения i-го момента в
сгенерированной последовательности на отрезке, начинающемся с j-го случайного числа, вычисляется по
следующей формуле: где – выходной сигнал,
полученный на l-ом срабатывании сети.
Для оценки точности совпадения i-го
момента в сгенерированной последовательности на отрезке, начинающемся с j-го случайного числа, воспользуемся
оценкой числа с допуском :
Таким
образом, при обучении сети генерации последовательности из N случайных чисел оценку можно записать в следующем виде:
Производная
оценки по выходному сигналу l-го
срабатывания сети можно записать в следующем виде:
Используя
эту оценку можно обучать сеть генерировать случайные числа. Удобство этого
подхода к решению задачи обучения генератора случайных чисел в том, что можно
достаточно часто менять инициирующий сеть входной сигнал, что позволит сети
генерировать не одну, а много различных последовательностей, обладающих всеми
необходимыми свойствами.
При
использовании предложенной оценки нет никаких гарантий того, что в генерируемой
сетью последовательности не появятся сильно скоррелированные подпоследовательности.
Для удаления корреляций можно модифицировать оценку так, чтобы она возрастала
при появлении корреляций. Рассмотрим две подпоследовательности длинны L, первая из которых начинается с , а другая с . Коэффициент корреляции этих последовательностей записывается
в виде:
В
этой формуле приняты следующие обозначения: - среднее по последовательности, начинающейся с ; – средний квадрат
последовательности начинающейся с . Вычисление такого коэффициента корреляции довольно долгий
процесс. Однако вместо выборочных моментов в формулу можно подставить значения
моментов, которые последовательность должна иметь. В этом случае формула сильно
упрощается:
Добавку
для удаления корреляций последовательностей длиной от до и смещенных друг
относительно друга на смещения от до можно записать в виде:
При
необходимости можно ввести и другие поправки, учитывающие требования к
генератору случайных чисел.
При
использовании нейронных сетей для решения различных задач возникает необходимость
получать от сети не один ответ, а несколько. Например, при обучении сети решению
задачи диагностики отклонений в реакции на стресс нейронная сеть должна была
определить наличие или отсутствие тринадцати различных патологий. Если одна
сеть может выдавать только один ответ, то для решения задачи необходимо
задействовать тринадцать сетей. Однако в этом нет необходимости. Поскольку
каждый ответ, который должна выдавать сеть, имеет только два варианта, то можно
использовать для его получения классификатор на два класса. Для такого
классификатора необходимо два выходных сигнала. Тогда для решения задачи
достаточно получать 26 выходных сигналов: первые два сигнала – для определения
первой патологии, третий и четвертый – для второй и так далее. Таким образом,
интерпретатор ответа для этой задачи состоит из тринадцати интерпретаторов, а
оценка из тринадцати оценок. Более того, нет никаких ограничений на типы
используемых интерпретаторов или оценок. Возможна комбинация, например,
следующих ответов.
1. Число с допуском.
2. Классификатор на восемь
классов.
3. Случайное число.
При
использовании таких составных оценок и интерпретаторов каждый из этих компонентов
должен следить за тем, чтобы каждая частная оценка или интерпретатор получали
на вход те данные, которые им необходимы.
Запросы
к компоненту интерпретатор ответа можно разбить на пять групп:
1. Интерпретация.
2. Изменение параметров.
3. Работа со структурой.
4. Инициация редактора и
конструктора интерпретатора ответа.
5. Обработка ошибок.
Поскольку нейрокомпьютер может работать
одновременно с несколькими сетями, то и компонент интерпретатор ответа должен
иметь возможность одновременной работы с несколькими интерпретаторами. Поэтому
большинство запросов к интерпретатору содержат явное указание имени
интерпретатора ответа. Ниже приведено описание всех запросов к компоненту
интерпретатор ответа. Каждый запрос является логической функцией, возвращающей
значение истина, если запрос выполнен успешно, и ложь – при ошибочном
завершении исполнения запроса.
В запросах второй и третьей группы при
обращении к частным интерпретаторам используется следующий синтаксис:
<Полное имя частного
интерпретатора> ::= <Имя интерпретатора>.
<Псевдоним частного
интерпретатора> [[<Номер
экземпляра>]]
При
вызове ряда запросов используются предопределенные константы. Их значения
приведены в табл. 1.
Таблица 1
Значения предопределенных
констант компонентов интерпретатор ответа и оценка
Название |
Величина |
Значение |
Empty |
0 |
Интерпретирует один сигнал как действительное число. |
Binary |
1 |
Кодирование номером канала. Знаковый интерпретатор |
Major |
2 |
Кодирование номером канала. Максимальный интерпретатор. |
BynaryCoded |
3 |
Двоичный интерпретатор. |
UserType |
-1 |
Интерпретатор, определенный пользователем. |
Единственный
запрос первой группы выполняет основную функцию компонента интерпретатор ответа
– интерпретирует массив сигналов.
Описание
запроса:
Pascal:
Function Interpretate( IntName : PString; Signals : PRealArray;
Var Reliability, Answers : PRealArray ) : Logic;
C:
Logic Interpretate(PString IntName, PRealArray Signals, PRealArray*
Reliability, PRealArray* Answers)
Описание
аргумента:
IntName
– указатель на строку символов, содержащую имя интерпретатора ответа.
Signals – массив интерпретируемых сигналов.
Answers – массив ответов.
Reliability – массив коэффициентов уверенности в ответе.
Назначение
– интерпретирует массив сигналов Signals, используя интерпретатор ответа,
указанный в параметре IntName.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в качестве аргумента
IntName дан пустой указатель, или указатель на пустую строку, то исполняющим
запрос объектом является первый интерпретатор ответа в списке интерпретаторов
компонента интерпретатор.
3. Если список интерпретаторов
компонента интерпретатор пуст или имя интерпретатора ответа, переданное в
аргументе IntName в этом списке не найдено, то возникает ошибка 501 – неверное
имя интерпретатора ответа, управление передается обработчику ошибок, а обработка
запроса прекращается.
4. Производится интерпретация
ответа интерпретатором ответа, имя которого было указано в аргументе IntName.
5. Если во время выполнения запроса
возникает ошибка, то генерируется внутренняя ошибка 504 – ошибка интерпретации.
Управление передается обработчику ошибок. Выполнение запроса прекращается. В
противном случае выполнение запроса успешно завершается.
Ниже приведен список запросов, исполнение которых описано в разделе «Запросы общие для всех компонентов»:
aiSetCurrent – Сделать интерпретатор ответа текущим
aiAdd – Добавление нового интерпретатора ответа
aiDelete – Удаление интерпретатора ответа
aiWrite – Запись интерпретатора ответа
aiGetStructNames – Вернуть имена
частных интерпретаторов
aiGetType – Вернуть тип частного интерпретатора
aiGetData – Получить параметры частного интерпретатора
aiGetName – Получить имена
параметров частного интерпретатора
aiSetData – Установить параметры
частного интерпретатора
aiEdit – Редактировать интерпретатор ответа
OnError
– Установить обработчик ошибок
GetError
– Дать номер ошибки
FreeMemory
– Освободить память
В
запросе aiGetType в переменной TypeId возвращается значение одной
из предопределенных констант, перечисленных в табл. 1.
При
исполнении запроса aiSetData генерируется запрос
SetEstIntParameters к компоненте оценка. Аргументы генерируемого запроса
совпадают с аргументами исполняемого запроса
В
табл. 2 приведен полный список ошибок, которые могут возникать при выполнении
запросов компонентом интерпретатор ответа, и действия стандартного обработчика
ошибок.
Таблица 2.
Ошибки компонента
интерпретатор ответа и действия стандартного
обработчика ошибок.
№ |
Название ошибки |
Стандартная обработка |
501 |
Неверное имя интерпретатора ответа |
Занесение номера в Error |
502 |
Ошибка считывания интерпретатора ответа |
Занесение номера в Error |
503 |
Ошибка сохранения интерпретатора ответа |
Занесение номера в Error |
504 |
Ошибка интерпретации |
Занесение номера в Error |
Запросы
к компоненте оценка можно разбить на пять групп:
1. Оценивание.
2. Изменение параметров.
3. Работа со структурой.
4. Инициация редактора и
конструктора оценки.
5. Обработка ошибок.
Поскольку нейрокомпьютер может работать одновременно с несколькими сетями, то и компонент оценка должен иметь возможность одновременной работы с несколькими оценками. Поэтому большинство запросов к оценке содержат явное указание имени оценки. Ниже приведено описание всех запросов к компоненту оценка. Каждый запрос является логической функцией, возвращающей значение истина, если запрос выполнен успешно, и ложь – при ошибочном завершении исполнения запроса.
В
запросах второй и третьей группы при обращении к частным оценкам используется
следующий синтаксис:
<Полное имя частной
оценки> ::=
<Имя
оценки>.<Псевдоним частной оценки> [[<Номер экземпляра>]]
При
вызове ряда запросов используются предопределенные константы. Их значения
приведены в табл. 1.
Единственный
запрос первой группы выполняет основную функцию компонента оценка – вычисляет
оценку и, если требуется, массив производных оценки по оцениваемым сигналам.
Описание
запроса:
Pascal:
Function Estimate( EstName : PString; Signals, Back, Answers, Reliability: PRealArray;
Direv : Logic; Var Estim : Real ) : Logic;
C:
Logic Estimate(PString EstName, PRealArray Signals, PRealArray* Back, PRealArray Answers,
PRealArray Reliability, Logic Direv, Real* Estim)
Описание
аргумента:
EstName
– указатель на строку символов, содержащую имя оценки.
Signals
– указатель на массив оцениваемых сигналов.
Back
– указатель на массив производных оценки по оцениваемым сигналам.
Answers
– указатель на массив правильных ответов.
Reliability – указатель на массив правильных ответов.
Direv – признак необходимости вычисления производных (False – не
вычислять).
Estim – вычисленная оценка.
Назначение
– вычисляет оценку массива сигналов Signals, используя оценку, указанную в параметре
EstName.
Описание исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в качестве аргумента
EstName дан пустой указатель, или указатель на пустую строку, то исполняющим
запрос объектом является первая оценка в списке оценок компонента оценка.
3. Если список оценок
компонента оценка пуст или имя оценки, переданное в аргументе EstName, в этом
списке не найдено, то возникает ошибка 401 – неверное имя оценки, управление
передается обработчику ошибок, а обработка запроса прекращается.
4. Производится вычисление
оценки оценкой, имя которой было указано в аргументе EstName.
5. Если во время выполнения
запроса возникает ошибка, то генерируется внутренняя ошибка 404 – ошибка
оценивания. Управление передается обработчику ошибок. Выполнение запроса
прекращается. В противном случае выполнение запроса успешно завершается.
Ниже приведен список запросов, исполнение которых описано в разделе «Запросы общие для всех компонентов»:
esSetCurrent – Сделать оценку текущим
esAdd – Добавление новой оценки
esDelete – Удаление оценки
esWrite – Запись оценки
esGetStructNames – Вернуть имена
частных оценок
esGetType – Вернуть тип частной оценки
esGetData – Получить параметры частной оценки
esGetName – Получить имена
параметров частной оценки
esSetData – Установить параметры
частной оценки
esEdit – Редактировать оценку
OnError
– Установить обработчик ошибок
GetError
– Дать номер ошибки
FreeMemory
– Освободить память
В
запросе esGetType в переменной TypeId возвращается значение одной
из предопределенных констант, перечисленных в табл. 1.
Кроме
того, во второй группе запросов есть запрос SetEstIntParameters аналогичный
запросу esSetData, но определяющий частную
оценку, параметры которой изменяются, по полному имени связанного с ней
интерпретатора ответа.
Описание
запроса:
Pascal:
Function SetEstIntParameters( IntName : PString; Param : PRealArray ) :
Logic;
C:
Logic SetEstIntParameters(PString IntName, PRealArray Param)
Описание
аргументов:
IntName
– указатель на строку символов, содержащую полное имя частного интерпретатора ответа.
Param
– адрес массива параметров.
Назначение
– заменяет значения параметров частной оценки, связанной с интерпретатором
ответа, указанного в аргументе IntName, на значения, переданные, в аргументе
Param.
Описание
исполнения.
1. Запрос передается всем
частным оценкам всех оценок в списке оценок компонента оценка.
2. Если частная оценка связана
с частным интерпретатором ответа, имя которого указано в аргументе IntName, то
текущие значения параметров частной оценки заменяются на значения, хранящиеся в
массиве, адрес которого передан в аргументе Param,.
В табл. 3 приведен полный список ошибок, которые могут возникать при выполнении запросов компонентом оценка, и действия стандартного обработчика ошибок.
Таблица 3
Ошибки компонента оценка и
действия стандартного обработчика ошибок
№ |
Название ошибки |
Стандартная обработка |
401 |
Неверное имя оценки |
Занесение номера в Error |
402 |
Ошибка считывания оценки |
Занесение номера в Error |
403 |
Ошибка сохранения оценки |
Занесение номера в Error |
404 |
Ошибка вычисления оценки |
Занесение номера в Error |
Компонент
исполнитель является служебным. Это означает, что он универсален и невидим для
пользователя. В отличие от всех других компонентов исполнитель не выполняет ни
одной явной функции в обучении нейронных сетей, а является вспомогательным для
компонентов учитель и контрастер. Задача этого компонента – упростить работу компонентов
учитель и контрастер. Этот компонент выполняет всего несколько запросов,
преобразуя каждый из них в последовательность запросов к различным компонентам.
В данной главе содержательно рассмотрены алгоритмы исполнения всех запросов
исполнителя.
Таблица 1 Параметры запроса для позадачной работы
|
Как
было описано в главе «Функциональные компоненты», исполнитель выполняет четыре
вида запросов.
1. Тестирование решения
примера.
2. Оценивание решения примера.
3. Оценивание решения примера с
вычислением градиента.
4. Оценивание и тестирование
решения примера.
Все
перечисленные запросы работают с текущей сетью и текущим примером задачника. Однако
компоненту задачник необходимо указать, какой пример подлежит обработке. Кроме
того, в главе «Оценка и интерпретатор ответа» введен класс оценок, вычисляемых
по всему обучающему множеству. Такие оценки позволяют существенно улучшить
обучаемость сети и ускорить ее обучение. Нет смысла возлагать перебор примеров
на учителя, поскольку это снижает полезность компонента исполнитель. Таким
образом, возникает еще четыре вида запросов.
5. Тестирование решения всех
примеров обучающего множества.
6. Оценивание решения всех
примеров обучающего множества.
7. Оценивание решения всех
примеров обучающего множества с вычислением градиента.
8. Оценивание и тестирование
решения всех примеров обучающего множества.
Как
уже отмечалось в главе «Функциональные компоненты», каждую из приведенных
четверок запросов можно объединить в один запрос с параметрами. В табл. 1
приведен полный список параметров для первой четверки запросов, а в табл. 2 –
для второй.
Таблица 2 Параметры запроса для обучающего множества в целом
|
Символ
«+» означает, что в запросе, номер которого указан в первой строке колонки,
возможность, задаваемая данным параметром, должна быть использована. Символ «–»
– что связанная с данным параметром возможность не используется. Символы «+/–»
означают, что запрос может, как использовать, так и не использовать данную
возможность. Отметим, что подготовка к контрастированию может быть задействована,
только если производится вычисление градиента, а вычисление градиента невозможно
без вычисления оценки. Остальные параметры независимы.
Отбор
примеров в обучающее множество, открытие сеанса работы с задачником должны
выполняться учителем или контрастером. Исполнитель только организует перебор
примеров в обучающем множестве.
При
полной или частичной аппаратной реализации нейрокомпьютера компонент исполнитель
эффективно реализуется аппаратно, по следующим причинам.
Исполнитель
реализует исключительно связные функции по отношению к другим компонентам.
Исполняемые
им запросы постоянны и не зависят от реализаций других компонентов
нейрокомпьютера.
Этот
компонент работает чаще, чем любой другой, и, как следствие, ускорение в работе
исполнителя приводит к соизмеримому ускорению работы нейрокомпьютера.
В
данном разделе описаны запросы исполнителя с алгоритмами их исполнения. При
описании запросов используется аргумент Instruct, являющийся целым числом,
принимающим значение одной из предопределенных констант, приведенных в табл.
3., или суммы любого числа этих констант. Аргумент Instruct является совокупностью
шести битовых флагов.
Таблица 3
Предопределенные константы
компонента исполнитель
Название |
Иденти- |
Значение |
|
Десят. |
Шестн |
||
Вычислять оценку |
Estimate |
1 |
H0001 |
Интерпретировать ответ |
Interpret |
2 |
H0002 |
Вычислять градиент |
Gradient |
4 |
H0004 |
Подготовка к контрастированию |
Contrast |
8 |
H0008 |
Перейти к следующему примеру |
NextExample |
16 |
H0010 |
Остановиться в конце обучающего множества |
StopOnEnd |
32 |
H0020 |
Устанавливать ответы |
PutAnswers |
64 |
H0040 |
Устанавливать оценки |
PutEstimations |
128 |
H0080 |
Устанавливать уверенность в ответе |
PutReliability |
256 |
H0100 |
В
запросах не указываются используемые сеть, оценка и интерпретатор ответа, поскольку
компонент исполнитель всегда использует текущие сеть, оценку и интерпретатор
ответа.
Описание
запроса:
Pascal:
Function TaskWork(Instruct, Handle : Integer; Var Answers, Reliability :
PRealArray; Var Estim : Real) : Logic;
C:
Logic TaskWork(Integer Instruct, Integer Handle, PRealArray* Answers,
PRealArray* Reliability; Real* Estim)
Описание аргументов:
Instruct – содержит инструкции о способе исполнения.
Handle – номер сеанса в задачнике.
Answers – указатель на массив вычисленных ответов.
Reliability – указатель на массив коэффициентов уверенности
сети в ответах.
Estim – оценка решения примера.
Назначение
– производит обработку одного примера.
Переменные,
используемые при исполнении запроса
InArray, RelArray – адреса массивов для
обменов с задачником.
Back – адрес массива для обменов с оценкой.
Описание
исполнения.
Если
в любой момент исполнения запроса возникает ошибка при исполнении запросов к
другим компонентам, то исполнение запроса прекращается, возвращается значение
ложь, ошибка компонента исполнитель не генерируется.
1. Если в аргументе Instruct
установлен бит Gradient и не установлен бит Estimate, то выполнение запроса
прекращается, и генерируется ошибка 001 – Некорректное сочетание флагов в
аргументе Instruct.
2. Если в аргументе Instruct
установлен бит Gradient, то генерируется запрос к сети NullGradient с аргументом Null.
3. Если в аргументе Instruct
установлен бит NextExample, то генерируется запрос к задачнику Next с
аргументом Handle. (Переход к следующему примеру)
4. Генерируется запрос к
задачнику Last с аргументом Handle. (Проверка, существует ли
пример)
5. Если запрос Last
вернул значение истина, то
5.1.
Если в аргументе Instruct установлен бит StopOnEnd,
то исполнение запроса прекращается, возвращается значение ложь. (Примера нет,
переход на начало не нужен)
5.2.
Генерируется запрос к задачнику Home с аргументом Handle.
(Переход на начало обучающего множества)
6. Переменной InArray
присваивается значение Null и генерируется запрос к задачнику Get с аргументами
Handle, InArray, tbPrepared (Получает от задачника
предобработанные входные сигналы)
7. Генерируется запрос к сети Forw, с
аргументами Null, InArray (выполняется прямое
функционирование сети).
8. Освобождается массив InArray
9. Присваивает переменной Data
значение Null и генерирует запрос к сети GetNetData с аргументами Null, OutSignals,
Data (Получает от сети выходные сигналы).
10. Если в аргументе Instruct
установлен бит Interpret, то
10.1. Генерируется запрос к
интерпретатору ответа Interpretate с аргументами Data, Answers,
Reliability. (Производит интерпретацию ответа)
10.2. Если в аргументе Instruct
установлен бит PutAnswers, то генерируется запрос к задачнику Put с
аргументами Handle, Answers, tbCalcAnswers (Передает задачнику вычисленные
ответы)
10.3. Если в аргументе Instruct
установлен бит PutReliability, то генерируется запрос к задачнику Put с
аргументами Handle, Reliability, tbCalcReliability (Передает задачнику
вычисленные коэффициенты уверенности в ответе)
11. Если в аргументе Instruct
установлен бит Gradient, то создается массив Back того же размера, что и Data. В
противном случае переменной Back присваивается значение Null.
12. Если в аргументе Instruct
установлен бит Estimate, то
12.1. Переменной InArray присваивается
значение Null и генерируется запрос к задачнику Get с
аргументами Handle, InArray, tbAnswers (Получает от задачника
правильные ответы)
12.2. Переменной RelArray
присваивается значение Null и генерируется запрос к
задачнику Get с аргументами Handle, RelArray, tbCalcReliability (Получает от задачника достоверности
ответов)
12.3. Генерируется запрос к оценке
Estimate с аргументами Data, Back, InArray, RelArray, Direv, Estim. Вместо Direv передается
ноль, если в аргументе Instruct установлен бит Gradient, и 1 в противном случае.
(Вычисляет оценку примера и, возможно, производные)
12.4. Если в аргументе Instruct
установлен бит PutEstimations, то генерируется запрос к задачнику Put с
аргументами Handle, Estim, tbEstimations (Передает задачнику оценку
примера)
12.5. Освобождает массивы InArray
и RelArray.
13. Если в аргументе Instruct
установлен бит Gradient, то генерируется запрос к сети Back, с
аргументами Null, Back. Освобождает массив Back.
(Выполняется обратное функционирование сети)
14. Освобождается массив Data.
15. Если в аргументе Instruct
установлен бит Contrast, то генерируется запрос к контрастеру ContrastExample с аргументом истина.
16. Завершает исполнение,
возвращая значение истина
Описание
запроса:
Pascal:
Function TaskSetWork(Instruct, Handle : Integer; Var Tasks : Integer;
Var Correct : PRealArray; Var Estim : Real) : Logic;
C:
Logic TaskSetWork(Integer Instruct, Integer Handle, Integer* Tasks,
PRealArray* Correct, Real* Estim)
Описание
аргументов:
Instruct – содержит инструкции о способе исполнения.
Handle – номер сеанса в задачнике.
Tasks – число примеров в обучающем множестве.
Correct
– указатель на массив, первый элемент которого равен числу правильных ответов
на первую подзадачу и т.д.
Estim – средняя оценка решения всех примеров обучающего
множества.
Назначение
– производит обработку всех примеров обучающего множества.
Переменные,
используемые при исполнении запроса
InArray, AnsArray, RelArray – адреса массивов для
обменов с задачником.
Answers – указатель на массив вычисленных ответов.
Reliability – указатель на массив коэффициентов уверенности
сети в ответах.
Back – адрес массива для обменов с оценкой.
Work – рабочая переменная типа Real для подсчета суммарной оценки.
Weight – рабочая переменная типа Real для веса примера.
Описание
исполнения.
Если
в любой момент исполнения запроса возникает ошибка при исполнении запросов к
другим компонентам, то исполнение запроса прекращается, освобождаются все созданные
в нем массивы, возвращается значение ложь, ошибка компонента исполнитель не
генерируется.
Значение
бит NextExample и StopOnEnd в аргументе Instruct
игнорируются.
1. Если в аргументе Instruct
установлен бит Gradient и не установлен бит Estimate, то выполнение запроса
прекращается, и генерируется ошибка 001 – Некорректное сочетание флагов в
аргументе Instruct.
2. Если в аргументе Instruct
установлен бит Interpret, то создаются массивы Answers и Reliability того же размера, что и Correct
3. Выполняется следующий
фрагмент программы (Обнуление массива количеств правильных ответов)
3.1. For I = 1 To TLong(Correct[0]) Do
3.2. Correct[I] = 0
4. Обнуляем счетчик числа
примеров: Tasks = 0
5. Обнуляем суммарную оценку: Work = 0
6. Переменной Back
присваивается значение Null.
7. Присваивает переменной Data
значение Null и генерирует запрос к сети GetNetData с аргументами Null, OutSignals,
Data. (Получает от сети выходные сигналы, для выяснения размерности массива
Data. Сами значения сигналов не нужны)
8. Если в аргументе Instruct
установлен бит Gradient, то
8.1. Генерируется запрос к сети NullGradient с аргументом Null.
8.2. Создается массив Back
того же размера, что и Data.
9.
Генерируется запрос к задачнику Home с аргументом Handle.
(Переход на начало обучающего множества)
10. Переменной InArray
присваивается значение Null и генерируется запрос к
задачнику Get с аргументами Handle, InArray, tbPrepared (Создаем массив InArray
для получения от задачника предобработанных входных сигналов)
11. Переменной AnsArray
присваивается значение Null и генерируется запрос к
задачнику Get с аргументами Handle, AnsArray, tbAnswers (Создаем массив AnsArray
для получения от задачника правильных ответов)
12. Если в аргументе Instruct
установлен бит Estimate, то создается массив RelArray того же размера, что и AnsArray.
13. Генерируется запрос к
задачнику Last с аргументом Handle. (Проверка, существует ли
пример)
14. Если запрос Last
вернул значение ложь, то
14.1. Tasks = Tasks + 1
14.2. Генерируется запрос к
задачнику Get с аргументами Handle, InArray, tbPrepared (Получает от задачника
предобработанные входные сигналы)
14.3. Генерируется запрос к сети Forw, с
аргументами Null, InArray. (Выполняется прямое функционирование
сети)
14.4. Генерирует запрос к сети GetNetData
с аргументами Null, OutSignals, Data. (Получает от сети выходные
сигналы)
14.5. Если в аргументе Instruct
установлен бит Interpret, то
14.5.1. Генерируется запрос к
интерпретатору ответа Interpretate с аргументами Data, Answers,
Reliability. (Производит интерпретацию ответа)
14.5.2. Если в аргументе Instruct
установлен бит PutAnswers, то генерируется запрос к задачнику Put с
аргументами Handle, Answers, tbCalcAnswers (Передает задачнику
вычисленные ответы)
14.5.3. Если в аргументе Instruct
установлен бит PutReliability, то генерируется запрос к задачнику Put с
аргументами Handle, Reliability, tbCalcReliability (Передает задачнику вычисленные
коэффициенты уверенности в ответе)
14.5.4. Генерируется запрос к
задачнику Get с аргументами Handle, AnsArray, tbAnswers (Получает от задачника
правильные ответы)
14.5.5. Выполняется следующий
фрагмент программы (Подсчитываются правильно полученные ответы)
14.5.5.1.For I = 1 To TLong(Correct[0]) Do
14.5.5.2.If Answers[I] = AnsArray[I] Then TLong(Correct[I]) = TLong(Correct[I]) +
1
14.6. Если в аргументе Instruct
установлен бит Estimate, то
14.6.1. Если в аргументе Instruct
не установлен бит Interpret, то генерируется запрос к задачнику Get с
аргументами Handle, AnsArray, tbAnswers (Получает от задачника
правильные ответы)
14.6.2. Генерируется запрос к
задачнику Get с аргументами Handle, RelArray, tbCalcReliability (Получает от задачника достоверности
ответов)
14.6.3. Генерируется запрос к оценке
Estimate с аргументами Data, Back, AnsArray, RelArray, Direv, Estim. Вместо Direv
передается ноль, если в аргументе Instruct установлен бит Gradient,
и 1 в противном случае. (Вычисляет оценку примера и, возможно, производные)
14.6.4. Генерируется запрос к
задачнику Get с аргументами Handle, Weight, tbWeight (Получает от задачника вес
примера)
14.6.5. Work = Work + Estim * Weight
(Подсчитываем суммарную оценку)
14.6.6. Если в аргументе Instruct
установлен бит PutEstimations, то генерируется запрос к задачнику Put с
аргументами Handle, Estim, tbEstimations (Передает задачнику оценку
примера)
14.7. Если в аргументе Instruct
установлен бит Gradient, то генерируется запрос к сети Back, с
аргументами Null, Back. (Выполняется обратное
функционирование сети)
14.8. Если в аргументе Instruct
установлен бит Contrast, то генерируется запрос к контрастеру ContrastExample с аргументом ложь.
14.9. Генерируется запрос к
задачнику Next с аргументом Handle. (Переход к следующему примеру)
14.10.Переход к шагу 13 алгоритма.
15. Вычисляем среднюю оценку: If Tasks = 0 Then Estim = 0 Else Estim = Work /
Task
16. Если в аргументе Instruct
установлен бит Contrast, то генерируется запрос к контрастеру ContrastExample с аргументом истина.
17. Освобождаются массивы Data, AnsArray
è InArray.
18. Если в аргументе Instruct
установлен бит Estimate, то освобождается массив и RelArray.
19. Если в аргументе Instruct
установлен бит Interpret, то освобождаются массивы Answers и Reliability.
20. Если Back
<> Null освобождается массив Back.
21. Завершает исполнение,
возвращая значение истина
В
табл. 4 приведен полный список ошибок, которые могут возникать при выполнении
запросов компонентом исполнитель, и действия стандартного обработчика ошибок.
Таблица 4.
Ошибки компонента
исполнитель
и действия стандартного обработчика ошибок.
№ |
Название ошибки |
Стандартная обработка |
001 |
Некорректное сочетание флагов в Instruct. |
Занесение номера в Error |
Этот
компонент не является столь универсальным как задачник, оценка или нейронная
сеть, поскольку существует ряд алгоритмов обучения жестко привязаны к
архитектуре нейронной сети. Примерами таких алгоритмов могут служить обучение
(формирование синаптической карты) сети Хопфилда [316], обучение сети Кохонена
[130, 131] и ряд других аналогичных сетей. Однако в главе «Описание нейронных
сетей» приводится способ формирования сетей, позволяющий обучать сети Хопфилда
[316] и Кохонена [130, 131] методом обратного распространения ошибки. Существуют
также альтернативные способы вычисления градиента функции оценки по обучаемым
параметрам нейронной сети и входным сигналам (см. например, [30, 285]).
Описываемый в этой главе стандарт компонента учитель ориентирован в первую
очередь на обучение двойственных сетей (сетей обратного распространения
ошибки). Подробный обзор существующих методов обучения нейронных сетей приведен
в [243, 251, 283].
Как
правило, метод двойственности (обратного распространения ошибки) используют для
подстройки параметров нейронной сети. Однако, как было показано в главе «Описание
нейронных сетей», сеть может вычислять не только градиент функции оценки по
обучаемым параметрам сети, но и по входным сигналам сети. Используя градиент
функции оценки по входным сигналам сети можно решать задачу, обратную по
отношению к обучению нейронной сети.
Рассмотрим
следующий пример. Пусть есть сеть, обученная предсказывать по текущему
состоянию больного и набору применяемых лекарств состояние больного через некоторый
промежуток времени. Поступил новый больной. Его параметры ввели сети и она
выдала прогноз. Из прогноза следует ухудшение некоторых параметров состояния
больного. Возьмем выданный сетью прогноз, заменим значения параметров, по
которым наблюдается ухудшение, на желаемые значения. Полученный вектор ответов
объявим правильным ответом. Имея правильный ответ и ответ, выданный сетью,
вычислим градиент функции оценки по входным сигналам сети. В соответствии со
значениями элементов градиента изменим значения входных сигналов сети так,
чтобы оценка уменьшилась. Проделав эту процедуру несколько раз, получим вектор
входных сигналов, порождающих правильный ответ. Далее врач должен определить,
каким способом (какими лекарствами или процедурами) перевести больного в
требуемое (полученное в ходе обучения входных сигналов) состояние. В большинстве
случаев часть входных сигналов не подлежит изменению (например пол или возраст
больного). В этом случае эти входные сигналы должны быть помечены как не
обучаемые (см. использование маски обучаемости входных сигналов в главе
«Описание нейронных сетей»).
Таким
образом, способность сетей вычислять градиент функции оценки по входным
параметрам сети позволяет решать вполне осмысленную обратную задачу: так
подобрать входные сигналы сети, чтобы выходные сигналы удовлетворяли заданным
требованиям.
Кроме
того, использование нейронных сетей позволяет ставить новые вопросы перед
исследователем. В практике группы «НейроКомп» был следующий случай. Была
поставлена задача обучить сеть ставить диагноз вторичного иммунодефицита по
данным анализов крови и клеточного метаболизма. Вся обучающая выборка была
разбита на два класса: больные и здоровые. При анализе базы данных стандартными
статистическими методами значимых отличий обнаружить не удалось. Сеть оказалась
не способна обучиться. Далее у исследователя было два пути: либо увеличить
число нейронов в сети, либо определить, что мешает обучению. Исследователи
выбрали второй путь. При обучении сети была применена следующая процедура: как
только обучение сети останавливалось из-за невозможности дальнейшего уменьшения
оценки, пример, имеющий наихудшую оценку, исключался из обучающего множества.
После того, как сеть обучилась решению задачи на усеченном обучающем множестве,
был проведен анализ исключенных примеров. Выяснилось, что исключено около половины
больных. Тогда множество больных было разбито на два класса – больные1
(оставшиеся в обучающем множестве) и больные2 (исключенные). При таком разбиении
обучающей выборки стандартные методы статистики показали значимые различия в
параметрах классов. Обучение сети классификации на три класса быстро завершилось
полным успехом. При содержательном анализе примеров, составляющих классы
больные1 и больные2, было установлено, что к классу болные1 относятся больные
на завершающей стадии заболевания, а к классу больные2 – на начальной. Ранее
такое разбиение больных не проводилось. Таким образом, обучение нейронной сети
решению прикладной задачи поставило перед исследователем содержательный вопрос,
позволивший получить новое знание о предметной области.
Подводя
итоги этого раздела, можно сказать, что, используя метод двойственности в
обучении нейронных сетей можно:
1. Обучать сеть решению задачи.
2. Подбирать входные данные
так, чтобы на выходе нейронной сети был заданный ответ.
3. Ставить вопросы о
соответствии входных данных задачника постановке нейросетевой задачи.
С
точки зрения математики, задача обучения нейронной сети является задачей минимизации
множества функций многих переменных. Речь идет именно о неструктурированном
множестве функций, зависящих от одних и тех же переменных. Под переменными понимаются
обучаемые параметры сети, а под функциями – оценки решения сетью отдельных
примеров. Очевидно, что сформулированная выше задача является как минимум
трудно разрешимой, а часто и просто некорректной.
Основная
проблема состоит в том, что при оптимизации первой функции, значения других
функций не контролируются. И наоборот, при оптимизации всех других функций не
контролируется значение первой функции. Если обучение устроено по циклу –
сначала оптимизация первой функции, потом второй и т.д., то после завершения
цикла значение любой из функций может оказаться не меньше, а больше чем до
начала обучения. Такой подход к обучению нейронных сетей привел к появлению
различных методов «коррекции» данной трудности. Так, например, появилось
правило, что нельзя «сильно» оптимизировать оценку отдельного примера, для
того, чтобы при оптимизации сеть «не сильно» забывала остальные примеры.
Возникли различные правила «правильного» перебора примеров и т.д. Наиболее
ярким примером такого правила является случайный перебор примеров,
рекомендованный для обучения сетей, обучаемых без учителя (сетей Кохонена [130,
131]). Однако все эти правила не гарантировали быстрого достижения результата.
Более того, часто результат вообще не достигался за обозримое время.
Альтернативой всем правилам «малой оптимизации» и «правильного перебора
примеров» является выработка единой функции оценки всего обучающего множества.
Правила построения оценки обучающего множества из оценок отдельных примеров
приведены в главе «Оценка и интерпретатор ответа».
В
случае использования оценки обучающего множества, математическая интерпретация
задачи приобретает классический вид задачи минимизации функции в пространстве
многих переменных. Для этой классической задачи существует множество известных
методов решения [48, 104, 144, 183, 240]. Особенностью обучения нейронных сетей
является их способность быстро вычислять градиент функции оценки. Под быстро,
понимается тот факт, что на вычисления градиента тратится всего в два-три раза
больше времени, чем на вычисление самой функции. Именно этот факт делает
градиентные методы наиболее полезными при обучении нейронных сетей. Большая
размерность пространства обучаемых параметров нейронной сети (102-106)
делает практически неприменимыми все методы, явно использующие матрицу вторых
производных.
Все
алгоритмы обучения сетей методом обратного распространения ошибки опираются на
способность сети вычислять градиент функции ошибки по обучающим параметрам.
Даже правило Хебба использует вектор псевдоградиента, вычисляемый сетью при использовании
зеркального порогового элемента (см. раздел «Пороговый элемент» главы «Описание
нейронных сетей»). Таким образом, акт обучения состоит из вычисления градиента
и собственно обучения сети (модификации параметров сети). Однако, существует
множество не градиентных методов обучения, таких, как метод покоординатного
спуска, метод случайного поиска и целое семейство методов Монте-Карло. Все эти
методы могут использоваться при обучении нейронных сетей, хотя, как правило,
они менее эффективны, чем градиентные методы. Некоторые варианты методов
обучения описаны далее в этой главе.
Поскольку
обучение двойственных сетей с точки зрения используемого математического
аппарата эквивалентно задаче многомерной оптимизации, то в данной главе рассмотрены
только несколько методов обучения, наиболее используемых при обучении сетей.
Более полное представление о методах оптимизации, допускающих использование в
обучении нейронных сетей, можно получить из книг по методам оптимизации (см.
например [48, 104, 144]).
При
описании методов используется набор макросов, приведенный в табл. 2. В табл. 2
дано пояснение выполняемых макросами действий. Все макрокоманды могут оперировать
с данными как пространства параметров, так и пространства входных сигналов
сети. В первой части главы полагается, что объект обучения установлен заранее.
В макросах используются понятия и аргументы, приведенные в табл. 1. Список
макрокоманд приведен в табл. 2. При описании методов обучения все аргументы
имеют тип, определяемый типом аргумента макрокоманды. Если в описании макрокоманды
в табл. 2 тип аргумента не соответствует ни одному из типов, приведенных в
табл. 1, то эти аргументы имеют числовой тип.
Таблица 1
Понятия и аргументы макрокоманд, используемых при описании учителя
Название |
Смысл |
Точка |
Точка в пространстве параметров или входных сигналов. Аналогична вектору. |
Вектор |
Вектор в пространстве параметров или входных сигналов. Аналогичен точке. |
Вектор_минимумов |
Вектор минимальных значений параметров или входных сигналов. |
Вектор_максимумов |
Вектор максимальных значений параметров или входных сигналов. |
Указатель_на_вектор |
Адрес вектора. Используется для передачи векторов в макрокоманды. |
Пустой_указатель |
Указатель на отсутствующий вектор. |
Таблица 2
Список макрокоманд, используемых для описания учителя
Название |
Аргументы (типы) |
Выполняемые действия |
Модификация_вектора |
Указатель_на_вектор Старый_Шаг Новый_Шаг |
Генерирует запрос на модификацию вектора (см. раздел «Провести обучение (Modify)» приложения). |
Вычислить_градиент |
|
Вычисляет градиент функции оценки. |
Установить_параметры |
Указатель_на_вектор |
Скопировать вектор, указанный в аргументе Указатель_на_вектор, в текущий вектор. |
Таблица 2
Список макрокоманд, используемых для описания учителя (Продолжение)
Название |
Аргументы (типы) |
Выполняемые действия |
Создать_вектор |
Указатель_на_вектор |
Создает экземпляр вектора с неопределенными
значениями. Адрес вектора помещается в Указатель_на_вектор. |
Освободить_вектор |
Указатель_на_вектор |
Освобождает память занятую вектором, расположенным по адресу Указатель_на_вектор. |
Случайный_вектор |
Указатель_на_вектор |
В векторе, на который указывает Указатель_на_вектор, генерируется вектор, каждая из координат которого является случайной величиной, равномерно распределенной на интервале между значениями соответствующих координат векторов Вектор_минимумов и Вектор_максимумов. |
Оптимизация_шага |
Указатель_на_вектор Начальный_Шаг |
Производит подбор оптимального шага (см. рис. 3). |
Сохранить_вектор |
Указатель_на_вектор |
Скопировать текущий вектор в вектор, указанный в аргументе Указатель_на_вектор. |
Вычислить_оценку |
Оценка |
Вычисляет оценку текущего вектора. Вычисленную
величину складывает в аргумент Оценка. |
1.
Создать_вектор В1 2.
Создать_вектор В2 3.
Вычислить_оценку О1 4.
Сохранить_вктор В1 5.
Установить_параметры В1 6.
Случайный_вектор В2 7.
Модификация_вектора В2, 0, 1 8.
Вычислить_оценку О2 9.
Если О2<О1 то переход к шагу 11 10. Переход к шагу 5 11. О1=О2 12. Переход к шагу 4 13. Установить_параметры В1 14. Освободить_вектор В1 15. Освободить_вектор В2 Рис. 1. Простейший алгоритм метода случайной
стрельбы |
Среди
неградиентных методов рассмотрим следующие методы, каждый из которых является
представителем целого семейства методов оптимизации:
1. Метод случайной стрельбы
(представитель семейства методов Монте-Карло).
2. Метод покоординатного спуска
(псевдоградиентный метод).
3. Метод случайного поиска
(псевдоградиентный метод).
4. Метод Нелдера-Мида.
Идея
метода случайной стрельбы [48] состоит в генерации большой последовательности
случайных точек и вычисления оценки в каждой из них. При достаточной длине
последовательности минимум будет найден. Запись этой процедуры на макроязыке
приведена на рис. 1
Остановка
данной процедуры производится по команде пользователя или при выполнении
условия, что О1 стало меньше некоторой заданной величины. Существует огромное
разнообразие модификаций этого метода. Наиболее простой является метод случайной
стрельбы с уменьшением радиуса. Пример процедуры, реализующей этот метод,
приведен на рис. 2. В этом методе есть два параметра, задаваемых пользователем:
Число_попыток
– число неудачных пробных генераций вектора при одном радиусе.
1.
Создать_вектор В1 2.
Создать_вектор В2 3.
Вычислить_оценку О1 4.
Число_Смен_Радиуса=1 5.
Радиус=1/ Число_Смен_Радиуса 6.
Попытка=0 7.
Сохранить_вктор В1 8.
Установить_параметры В1 9.
Случайный_вектор В2 10. Модификация_вектора В2, 1,
Радиус 11. Вычислить_оценку О2 12. Попытка=Попытка+1 13. Если О2<О1 то переход к
шагу 16 14. Если
Попытка<=Число_попыток то 15. Переход к шагу 18 16. О1=О2 17. Переход к шагу 6 18. Число_Смен_Радиуса=
Число_Смен_Радиуса+1 19. Радиус=1/
Число_Смен_Радиуса 20. Если радиус>= Минимальный_радиус 21. Установить_параметры В1 22. Освободить_вектор В1 23. Освободить_вектор В2 Рис. 2. Алгоритм метода случайной стрельбы
с уменьшением радиуса |
Минимальный_радиус
– минимальное значение радиуса, при котором продолжает работать алгоритм.
Идея
этого метода состоит в следующем. Зададимся начальным состоянием вектора параметров.
Новый вектор параметров будем искать как сумму начального и случайного, умноженного
на радиус, векторов. Если после Число_попыток случайных генераций не произошло
уменьшения оценки, то уменьшаем радиус. Если произошло уменьшение оценки, то
полученный вектор объявляем начальным и продолжаем процедуру с тем же шагом.
Важно, чтобы последовательность уменьшающихся радиусов образовывала
расходящийся ряд. Примером такой последовательности может служить использованный
в примере на рис. 2 ряд .
Отмечен
ряд случаев, когда метод случайной стрельбы с уменьшением радиуса работает
быстрее градиентных методов, но обычно это не так.
Идея
этого метода [48, 183] состоит в том, что если в задаче сложно или долго
вычислять градиент, то можно построить вектор, обладающий приблизительно теми
же свойствами, что и градиент следующим путем. Даем малое положительное
приращение первой координате вектора. Если оценка при этом увеличилась, то
пробуем отрицательное приращение. Далее так же поступаем со всеми остальными
координатами. В результате получаем вектор, в направлении которого оценка убывает.
Для вычисления такого вектора потребуется, как минимум, столько вычислений функции
оценки, сколько координат у вектора. В худшем случае потребуется в два раза
большее число вычислений функции оценки. Время же необходимое для вычисления
градиента в случае использования двойственных сетей можно оценить как 2-3 вычисления
функции оценки. Таким образом, учитывая способность двойственных сетей быстро
вычислять градиент, можно сделать вывод о нецелесообразности применения метода
покоординатного спуска в обучении нейронных сетей.
Данный
раздел посвящен описанию макрокоманды Оптимизация_Шага. Эта макрокоманда часто
используется в описании процедур обучения и не столь очевидна как другие
макрокоманды. Поэтому ее текст приведен на рис. 3. Идея подбора оптимального
шага состоит в том, что при наличии направления в котором производится спуск
(изменение параметров) задача многомерной оптимизации в пространстве параметров
сводится к одномерной оптимизации – подбору шага. Пусть заданы начальный шаг
(Ш2) и направление спуска (антиградиент
или случайное) (Н). Тогда вычислим величину О1 – оценку в текущей точке
пространства параметров. Изменив параметры на вектор направления, умноженный на
величину пробного шага, вычислим величину оценки в новой точке – О2. Если О2
оказалось меньше либо равно О1, то увеличиваем шаг и снова вычисляем оценку.
Продолжаем эту процедуру до тех пор, пока не получится оценка, большая
предыдущей. Зная три последних значения величины шага и оценки, используем
квадратичную оптимизацию – по трем точкам построим параболу и следующий шаг
сделаем в вершину параболы. После нескольких шагов квадратичной оптимизации
получаем приближенное значение оптимального шага.
Рис. 3. Алгоритм
оптимизации шага |
Если
после первого пробного шага получилось О2 большее О1, то уменьшаем шаг до тех
пор, пока не получим оценку, меньше чем О1. После этого производим квадратичную
оптимизацию.
Этот
метод [48] похож на метод случайной стрельбы с уменьшением радиуса, однако в
его основе лежит другая идея – сгенерируем случайный вектор и будем
использовать его вместо градиента. Этот метод использует одномерную оптимизацию
– подбор шага. Одномерная оптимизация описана в разделе «Одномерная
оптимизация». Процедура случайного поиска приведена на рис. 4. В этом методе
есть два параметра, задаваемых пользователем.
Число_попыток
– число неудачных пробных генераций вектора при одном радиусе.
Минимальный_радиус
– минимальное значение радиуса, при котором продолжает работать алгоритм.
1.
Создать_вектор Н 2.
Число_Смен_Радиуса=1 3.
Попытка=0 4.
Радиус=1/ Число_Смен_Радиуса 5.
Случайный_вектор Н 6.
Оптимизация шага Н Радиус 7.
Попытка=Попытка+1 8.
Если Радиус=0 то Попытка=0 9.
Если Попытка<=Число_попыток то переход к шагу 4 10. Число_Смен_Радиуса=
Число_Смен_Радиуса+1 11. Радиус=1/
Число_Смен_Радиуса 12. Если Радиус>=
Минимальный_радиус то переход к шагу 3 13. Освободить_вектор Н Рис. 4. Алгоритм метода
случайного поиска |
Идея
этого метода состоит в следующем. Зададимся начальным состоянием вектора параметров.
Новый вектор параметров будем искать как сумму начального и случайного, умноженного
на радиус, векторов. Если после Число_попыток случайных генераций не произошло
уменьшения оценки, то уменьшаем радиус. Если произошло уменьшение оценки, то
полученный вектор объявляем начальным и продолжаем процедуру с тем же шагом.
Важно, чтобы последовательность уменьшающихся радиусов образовывала расходящийся
ряд. Примером такой последовательности может служить использованный в примере
на рис. 4 ряд .
Этот метод [48] является одним из наиболее быстрых и наиболее надежных не градиентных методов многомерной оптимизации. Идея этого метода состоит в следующем. В пространстве оптимизируемых параметров генерируется случайная точка. Затем строится n-мерный симплекс с центром в этой точке, и длиной стороны l. Далее в каждой из вершин симплекса вычисляется значение оценки. Выбирается вершина с наибольшей оценкой. Вычисляется центр тяжести остальных n вершин. Проводится оптимизация шага в направлении от наихудшей вершины к центру тяжести остальных вершин. Эта процедура повторяется до тех пор, пока не окажется, что оптимизация не изменяет положения вершины. После этого выбирается вершина с наилучшей оценкой и вокруг нее снова строится симплекс с меньшими размерами (например ). Процедура продолжается до тех пор, пока размер симплекса, который необходимо построить, не окажется меньше требуемой точности.
Однако,
несмотря на свою надежность, применение этого метода к обучению нейронных сетей
затруднено большой размерностью пространства параметров.
Изучению
градиентных методов обучения нейронных сетей посвящено множество работ [47, 65,
92] (сослаться на все работы по этой теме не представляется возможным, поэтому
дана ссылка на работы, где эта тема исследована наиболее детально). Кроме того,
существует множество публикаций, посвященных градиентным методам поиска
минимума функции [48, 104] (как и в предыдущем случае, ссылки даны только на
две работы, которые показались наиболее удачными). Данный раздел не претендует
на какую-либо полноту рассмотрения градиентных методов поиска минимума. В нем
приведены только несколько методов, применявшихся в работе группой «НейроКомп».
Все градиентные методы объединены использованием градиента как основы для
вычисления направления спуска.
Наиболее
известным [48, 104, 183] среди градиентных методов является метод наискорейшего
спуска. Идея этого метода проста: поскольку вектор градиента указывает направление
наискорейшего возрастания функции, то минимум следует искать в обратном
направлении. Последовательность действий приведена на рис. 5.
1.
Вычислить_оценку О2 2.
О1=О2 3.
Вычислить_градиент 4.
Оптимизация шага Пустой_указатель Шаг 5.
Вычислить_оценку О2 6.
Если О1-О2<Точность то переход к шагу 2 Рис. 5. Метод наискорейшего спуска |
Этот
метод работает, как правило, на порядок быстрее методов случайного поиска. Он
имеет два параметра – Точность, показывающий, что если изменение оценки за шаг
метода меньше чем Точность, то обучение останавливается; Шаг – начальный шаг
для оптимизации шага. Заметим, что шаг постоянно изменяется в ходе оптимизации
шага.
а) Рис. 6. Траектории спуска
при различных конфигурациях окрестности минимума и разных методах оптимизации. |
Остановимся
на основных недостатках этого метода. Во-первых, эти методом находится тот минимум,
в область притяжения которого попадет начальная точка. Этот минимум может не
быть глобальным. Существует несколько способов выхода из этого положения. Наиболее
простой и действенный – случайное изменение параметров с дальнейшим повторным
обучение методом наискорейшего спуска. Как правило, этот метод позволяет за
несколько циклов обучения с последующим случайным изменением параметров найти
глобальный минимум.
1.
Создать_вектор В1 2.
Создать_вектор В2 3.
Шаг=1 4.
Вычислить_оценку О2 5.
Сохранить_вектор В1 6.
О1=О2 7.
N=0 8.
Вычислить_градиент 9.
Оптимизация_шага Пустой_указатель Шаг 10. N=N+1 11. Если N 12. Сохранить_вектор В2 13. В2=В2-В1 14. ШагParTan=1 15. Оптимизация шага В2 ШагParTan 16. Вычислить_оценку О2 17. Если О1-О2<Точность то
переход к шагу 5 Рис. 7. Метод kParTan |
Вторым
серьезным недостатком метода наискорейшего спуска является его чувствительность
к форме окрестности минимума. На рис. 6а проиллюстрирована траектория спуска при
использовании метода наискорейшего спуска, в случае, если в окрестности минимума
линии уровня функции оценки являются кругами (рассматривается двумерный случай).
В этом случае минимум достигается за один шаг. На рис. 6б приведена траектория
метода наискорейшего спуска в случае эллиптических линий уровня. Видно, что в
этой ситуации за один шаг минимум достигается только из точек, расположенных на
осях эллипсов. Из любой другой точки спуск будет происходить по ломаной, каждое
звено которой ортогонально к соседним звеньям, а длина звеньев убывает. Легко
показать что для точного достижения минимума потребуется бесконечное число
шагов метода градиентного спуска. Этот эффект получил название овражного, а
методы оптимизации, позволяющие бороться с этим эффектом – антиовражных.
Одним
из простейших антиовражных методов [48, 104, 183] является метод kParTan. Идея
метода состоит в том, чтобы запомнить начальную точку, затем выполнить k шагов
оптимизации по методу наискорейшего спуска, затем сделать шаг оптимизации по
направлению из начальной точки в конечную. Описание метода приведено на рис 7.
На рис 6в приведен один шаг оптимизации по методу 2ParTan. Видно, что после
шага вдоль направления из первой точки в третью траектория спуска привела в минимум.
К сожалению, это верно только для двумерного случая. В многомерном случае
направление kParTan не ведет прямо в точку минимума, но спуск в этом
направлении, как правило, приводит в окрестность минимума меньшего радиуса, чем
при еще одном шаге метода наискорейшего спуска (см. рис. 6б). Кроме того,
следует отметить, что для выполнения третьего шага не потребовалось вычислять
градиент, что экономит время при численной оптимизации.
Существует
большое семейство квазиньютоновских методов [48], позволяющих на каждом шаге
проводить минимизацию в направлении минимума квадратичной формы. Идея этих
методов состоит в том, что функция оценки приближается квадратичной формой.
Зная квадратичную форму, можно вычислить ее минимум и проводить оптимизацию шага
в направлении этого минимума. Одним из наиболее часто используемых методов из
семейства одношаговых квазиньютоновских методов является BFGS метод. Этот метод
хорошо зарекомендовал себя при обучении нейронных сетей (см. [34]). Подробно
ознакомиться с методом BFGS и другими квазиньютоновскими
методами можно в работе [48].
Компонент
учитель одновременно работает только с одним учителем. Запросы к компоненту
учитель можно разбить на следующие группы.
1. Обучение сети.
2. Чтение/запись учителя.
3. Инициация редактора учителя.
4. Работа с параметрами
учителя.
К
данной группе относятся три запроса – обучить сеть (InstructNet), провести N шагов
обучения (NInstructSteps) и прервать обучение (CloseInstruction).
Описание
запроса:
Pascal:
Function InstructNet
: Logic;
C:
Logic InstructNet()
Аргументов
нет.
Назначение
– производит обучение сети.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса учитель не загружен, то возникает ошибка 601 – неверное имя компонента,
управление передается обработчику ошибок, а обработка запроса прекращается.
3. Выполняется главная
процедура загруженного учителя.
4. Если во время выполнения
запроса возникает ошибка, а значение переменной Error равно нулю, то генерируется
внутренняя ошибка 605 – ошибка исполнения учителя, управление передается
обработчику ошибок, а обработка запроса прекращается.
5. Если во время выполнения
запроса возникает ошибка, а значение переменной Error не равно нулю, то обработка
запроса прекращается.
Описание
запроса:
Pascal:
Function NInstructNet( N : Integer ) : Logic;
C:
Logic NInstructNet(Integer N)
Описание
аргумента:
N – число выполнений блока одного шага обучения сети.
Назначение
– производит обучение сети.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса учитель не загружен, то возникает ошибка 601 – неверное имя компонента,
управление передается обработчику ошибок, а обработка запроса прекращается.
3. Выполняется блок инициации
главной процедуры загруженного учителя, N раз выполняется блок одного
шага обучения, выполняется блок завершения обучения.
4. Если во время выполнения
запроса возникает ошибка, а значение переменной Error равно нулю, то генерируется
внутренняя ошибка 605 – ошибка исполнения учителя, управление передается
обработчику ошибок, а обработка запроса прекращается.
5. Если во время выполнения
запроса возникает ошибка, а значение переменной Error не равно нулю, то обработка
запроса прекращается.
Описание
запроса:
Pascal:
Function CloseInstruction: Logic;
C:
Logic CloseInstruction()
Аргументов
нет.
Назначение
– прерывает обучение сети.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса учитель не загружен, то возникает ошибка 601 – неверное имя компонента,
управление передается обработчику ошибок, а обработка запроса прекращается.
3. Если в момент получения запроса
не выполняется ни один из запросов обучить сеть (InstructNet) или провести N шагов
обучения (NInstructSteps), то возникает ошибка 606 – неверное
использование запроса на прерывание обучения, управление передается обработчику
ошибок, а обработка запроса прекращается.
4. Завершается выполнение
текущего шага обучения сети.
5. Выполняется блок завершения
обучения сети.
6. Если во время выполнения
запроса возникает ошибка, а значение переменной Error равно нулю, то генерируется
внутренняя ошибка 605 – ошибка исполнения учителя, управление передается
обработчику ошибок, а обработка запроса прекращается.
7. Если во время выполнения
запроса возникает ошибка, а значение переменной Error не равно нулю, то обработка
запроса прекращается.
В
данном разделе описаны запросы, позволяющие загрузить учителя с диска или из
памяти, выгрузить учителя и сохранить текущего учителя на диске или в памяти.
Описание запроса:
Pascal:
Function inAdd( CompName :
PString ) : Logic;
C:
Logic inAdd(PString CompName)
Описание
аргумента:
CompName
– указатель на строку символов, содержащую имя файла компонента или адрес описания
компонента.
Назначение
– читает учителя с диска или из памяти.
Описание
исполнения.
1. Если в качестве аргумента
CompName дана строка, первые четыре символа которой составляют слово File, то
остальная часть строки содержит имя компонента и после пробела имя файла,
содержащего компоненту. В противном случае считается, что аргумент CompName
содержит указатель на область памяти, содержащую описание компонента в формате
для записи на диск. Если описание не вмещается в одну область памяти, то
допускается включение в текст описания компонента ключевого слова Continue, за
которым следует четыре байта, содержащие адрес следующей области памяти.
2. Если в данный момент
загружен другой учитель, то выполняется запрос inDelete. Учитель считывается из
файла или из памяти.
3. Если считывание завершается
по ошибке, то возникает ошибка 602 – ошибка считывания учителя, управление
передается обработчику ошибок, а обработка запроса прекращается.
Описание
запроса:
Pascal:
Function inDelete : Logic;
C:
Logic inDelete()
Аргументов
нет.
Назначение
– удаляет загруженного в память учителя.
Описание
исполнения.
1. Если список в момент получения
запроса учитель не загружен, то возникает ошибка 601 – неверное имя учителя,
управление передается обработчику ошибок, а обработка запроса прекращается.
Описание
запроса:
Pascal:
Function inWrite(Var FileName : PString) : Logic;
C:
Logic inWrite(PString* FileName)
Описание
аргументов:
CompName
– указатель на строку символов, содержащую имя компонента.
FileName
– имя файла или адрес памяти, куда надо записать компонент.
Назначение
– сохраняет учителя в файле или в памяти.
Описание исполнения.
1. Если в момент получения
запроса учитель не загружен, то возникает ошибка 601 – неверное имя компонента,
управление передается обработчику ошибок, а обработка запроса прекращается.
2. Если в качестве аргумента
FileName дана строка, первые четыре символа которой составляют слово File, то
остальная часть строки содержит имя файла для записи компонента. В противном
случае FileName должен содержать пустой указатель. В этом случае запрос вернет
в нем указатель на область памяти, куда будет помещено описание компонента в
формате для записи на диск. Если описание не вмещается в одну область памяти,
то в текст будет включено ключевое слово Continue, за которым следует четыре
байта, содержащие адрес следующей области памяти.
3. Если во время сохранения
компонента возникнет ошибка, то возникает ошибка 603 – ошибка сохранения
компонента, управление передается обработчику ошибок, а обработка запроса прекращается.
К
этой группе запросов относится запрос, который инициирует работу не рассматриваемого
в данной работе компонента – редактора учителя.
Описание
запроса:
Pascal:
Procedure inEdit(CompName
: PString);
C:
void inEdit(PString CompName)
Описание
аргумента:
CompName
– указатель на строку символов – имя файла или адрес памяти, содержащие
описание учителя.
Если
в качестве аргумента CompName дана строка, первые четыре символа которой
составляют слово File, то остальная часть строки содержит имя учителя и после
пробела имя файла, содержащего описание учителя. В противном случае считается,
что аргумент CompName содержит указатель на область памяти, содержащую описание
учителя в формате для записи на диск. Если описание не вмещается в одну область
памяти, то допускается включение в текст описания ключевого слова Continue, за
которым следует четыре байта, содержащие адрес следующей области памяти.
Если
в качестве аргумента CompName передан пустой указатель или указатель на пустую
строку, то редактор создает нового учителя.
В
данном разделе описаны запросы, позволяющие изменять параметры учителя.
Описание
запроса:
Pascal:
Function inGetData(Var Param
: PRealArray ) : Logic;
C:
Logic inGetData(PRealArray*
Param)
Описание
аргумента:
Param
– адрес массива параметров.
Назначение
– возвращает вектор параметров учителя.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса учитель не загружен, то возникает ошибка 601 – неверное имя компонента,
управление передается обработчику ошибок, а обработка запроса прекращается.
3. В массив, адрес которого
передан в аргументе Param, заносятся значения параметров. Параметры заносятся в
массив в порядке описания в разделе описания статических переменных.
Описание запроса:
Pascal:
Function inGetName(Var Param
: PRealArray ) : Logic;
C:
Logic inGetName(PRealArray*
Param)
Описание
аргумента:
Param
– адрес массива указателей на названия параметров.
Назначение
– возвращает вектор указателей на названия параметров учителя.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса учитель не загружен, то возникает ошибка 601 – неверное имя компонента,
управление передается обработчику ошибок, а обработка запроса прекращается.
3. В массив, адрес которого
передан в аргументе Param, заносятся адреса символьных строк, содержащих
названия параметров.
Описание
запроса:
Pascal:
Function inSetData(Param
: PRealArray ) : Logic;
C:
Logic inSetData(PRealArray
Param)
Описание
аргументов:
Param
– адрес массива параметров.
Назначение
– заменяет значения параметров учителя на значения, переданные, в аргументе
Param.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса учитель не загружен, то возникает ошибка 601 – неверное имя компонента,
управление передается обработчику ошибок, а обработка запроса прекращается.
3. Параметры, значения которых
хранятся в массиве, адрес которого передан в аргументе Param, передаются
учителю.
В
табл. 3 приведен полный список ошибок, которые могут возникать при выполнении
запросов компонентом учитель, и действия стандартного обработчика ошибок.
Таблица 3
Ошибки компонента учитель и
действия стандартного обработчика ошибок.
№ |
Название ошибки |
Стандартная обработка |
601 |
Несовместимость сети и учителя |
Занесение номера в Error |
602 |
Ошибка считывания учителя |
Занесение номера в Error |
603 |
Ошибка сохранения учителя |
Занесение номера в Error |
604 |
Некорректная работа с памятью |
Занесение номера в Error |
605 |
Ошибка исполнения учителя |
Занесение номера в Error |
606 |
Неверное использование запроса на прерывание обучения |
Занесение номера в Error |
Компонент
контрастер предназначен для контрастирования нейронных сетей. Первые работы,
посвященные контрастированию (скелетонизации) нейронных сетей появились в
начале девяностых годов [63, 330, 347]. Однако, задача контрастирования
нейронных сетей не являлась центральной, поскольку упрощение сетей может
принести реальную пользу только при реализации обученной нейронной сети в виде
электронного (оптоэлектронного) устройства. Только в работе А.Н. Горбаня и Е.М.
Миркеса «Логически прозрачные нейронные сети» [81] (более полный вариант работы
см. [79, 82, 150]), опубликованной в 1995 году задаче контрастирования
нейронных сетей был придан самостоятельный смысл – впервые появилась реальная
возможность получать новые явные знания из данных. Различные вариации методов
контрастирования описаны в [32, 41, 45, 63, 81, 152, 330, 347]
Из
анализа литературы и опыта работы группы НейроКомп можно сформулировать
следующие задачи, решаемые с помощью контрастирования нейронных сетей.
1. Упрощение архитектуры
нейронной сети.
2. Уменьшение числа входных
сигналов.
3. Сведение параметров
нейронной сети к небольшому набору выделенных значений.
4. Снижение требований к
точности входных сигналов.
5. Получение явных знаний из
данных.
Далее
в этом разделе все перечисленные выше задачи рассмотрены более подробно.
Стремление
к упрощению архитектуры нейронных сетей возникло из попытки ответить на
следующие вопрос: «Сколько нейронов нужно использовать и как они должны быть
связаны друг с другом?» При ответе на этот вопрос существует две противоположные
точки зрения. Одна из них утверждает, что чем больше нейронов использовать, тем
более надежная сеть получится. Сторонники этой позиции ссылаются на пример
человеческого мозга. Действительно, чем больше нейронов, тем больше число связей
между ними, и тем более сложные задачи способна решить нейронная сеть. Кроме
того, если использовать заведомо большее число нейронов, чем необходимо для
решения задачи, то нейронная сеть точно обучится. Если же начинать с небольшого
числа нейронов, то сеть может оказаться неспособной обучиться решению задачи, и
весь процесс придется повторять сначала с большим числом нейронов. Эта точка
зрения (чем больше – тем лучше) популярна среди разработчиков нейросетевого
программного обеспечения. Так, многие из них как одно из основных достоинств
своих программ называют возможность использования любого числа нейронов.
Рис. 1. Аппроксимация табличной функции |
Вторая
точка зрения опирается на такое «эмпирическое» правило: чем больше подгоночных
параметров, тем хуже аппроксимация функции в тех областях, где ее значения были
заранее неизвестны. С математической точки зрения задачи обучения нейронных
сетей сводятся к продолжению функции заданной в конечном числе точек на всю
область определения. При таком подходе входные данные сети считаются аргументами
функции, а ответ сети – значением функции. На рис. 1 приведен пример
аппроксимации табличной функции полиномами 3-й (рис. 1.а) и 7-й (рис. 1.б)
степеней. Очевидно, что аппроксимация, полученная с помощью полинома 3-ей
степени, больше соответствует внутреннему представлению о «правильной»
аппроксимации. Несмотря на свою простоту, этот пример достаточно наглядно
демонстрирует суть проблемы.
Второй
подход определяет нужное число нейронов как минимально необходимое. Основным
недостатком является то, что это, минимально необходимое число, заранее неизвестно,
а процедура его определения путем постепенного наращивания числа нейронов
весьма трудоемка. Опираясь на опыт работы группы НейроКомп в области
медицинской диагностики [18, 49 – 52, 73, 93, 94, 163, 164, 168, 188 – 192, 195
– 214, 261, 300 – 302, 321, 322, 351 – 355, 361, 371], космической навигации и
психологии можно отметить, что во всех этих задачах ни разу не потребовалось
более нескольких десятков нейронов.
Подводя
итог анализу двух крайних позиций, можно сказать следующее: сеть с минимальным
числом нейронов должна лучше («правильнее», более гладко) аппроксимировать
функцию, но выяснение этого минимального числа нейронов требует больших интеллектуальных
затрат и экспериментов по обучению сетей. Если число нейронов избыточно, то
можно получить результат с первой попытки, но существует риск построить
«плохую» аппроксимацию. Истина, как всегда бывает в таких случаях, лежит
посередине: нужно выбирать число нейронов большим, чем необходимо, но не
намного. Это можно осуществить путем удвоения числа нейронов в сети после
каждой неудачной попытки обучения. Наиболее надежным способом оценки
минимального числа нейронов является использование процедуры контрастирования.
Кроме того, процедура контрастирования позволяет ответить и на второй вопрос:
какова должна быть структура сети.
Как
уже отмечалось ранее, основная сложность в аппаратной реализации нейронных
сетей – большое число связей между элементами. В связи с этим, задача
уменьшения числа связей (упрощения архитектуры нейронной сети) приобретает
особенную важность. Во многих приложениях, выполненных группой НейроКомп [18,
49 – 52, 73, 93, 94, 163, 164, 168, 188 – 192, 195 – 214, 261, 291, 295, 300 – 306,
321, 322, 351 – 355, 361, 371, 374] в ходе процедуры контрастирования число
связей уменьшалось в 5-10 раз. Кроме того, при этом уменьшалось общее число
элементов. Такое кардинальное упрощение архитектуры нейронной сети резко
упрощает ее аппаратную реализацию.
Однако
существует и обратный подход. Основная идея этого подхода – начинать с одного
или нескольких нейронов, а потом, по мере необходимости, наращивать их число
(см., например, [24 – 26]). К сожалению, эффективные алгоритмы наращивания
существуют только для сетей, решающих некоторые конкретные задачи.
При
постановке задачи для нейронной сети не всегда удается точно определить сколько
и каких входных данных нужно подавать на вход. В случае недостатка данных сеть
не сможет обучиться решению задачи. Однако гораздо чаще на вход сети подается
избыточный набор входных параметров. Например, при обучении сети постановке
диагноза в задачах медицинской диагностики на вход сети подаются все данные,
необходимые для постановки диагноза в соответствии с существующими методиками.
Следует учесть, что стандартные методики постановки диагнозов разрабатываются
для использования на большой территории (например, на территории России). Как
правило, при диагностике заболеваний населения какого-нибудь небольшого региона
(например города) можно обойтись меньшим набором исходных данных. Причем этот
усеченный набор будет варьироваться от одного малого региона к другому.
Требуется определить, какие данные необходимы для решения конкретной задачи,
поставленной для нейронной сети. Кроме того, в ходе решения этой задачи определяются
значимости входных сигналов. Следует заметить, что умение определять значимость
входных сигналов представляет самостоятельную ценность.
При
обучении нейронных сетей на универсальных компьютерах параметры сети являются
действительными числами из заданного диапазона. При аппаратной реализации
нейронной сети не всегда возможно реализовать веса связей с высокой точностью
(в компьютерном представлении действительных чисел хранятся первые 6-7 цифр
мантиссы). Опыт показывает, что в обученной сети веса многих синапсов можно
изменять в довольно широком диапазоне (до полуширины интервала изменения веса)
не изменяя качество решения сетью поставленной перед ней задачи. Исходя из
этого, умение решать задачу замены значений параметров сети на значения из
заданного набора приобретает важный практический смысл.
При
обработке экспериментальных данных полезно знать, что измерение с высокой
точностью, как правило, дороже измерения с низкой точностью. Причем достаточно
часто получение очередной значащей цифры измеряемого параметра стоит на
несколько порядков дороже. В связи с этим задача снижения требований к точности
измерения входных параметров сети приобретает смысл. Первые работы, в которых
рассматриваются методы решения данной задачи – [132
– 135].
Одной
из главных загадок мышления является то, как из совокупности данных об объекте,
появляется знание о нем. До недавнего времени наибольшим достижением в области
искусственного интеллекта являлось либо воспроизведение логики
человека-эксперта (классические экспертные системы), либо построение
регрессионных зависимостей и определение степени зависимости одних параметров
от других.
С
другой стороны, одним из основных недостатков нейронных сетей, с точки зрения
многих пользователей, является то, что нейронная сеть решает задачу, но не
может рассказать как. Иными словами из обученной нейронной сети нельзя извлечь
алгоритм решения задачи. Таким образом, нейронные сети позволяют получать неявные
знания из данных.
В
домашнем задании I Всесоюзной олимпиады по нейрокомпьютингу,
проходившей в мае 1991 года в городе Омске, в исследовательской задаче участникам
было предложено определить, как нейронная сеть решает задачу распознавания пяти
первых букв латинского алфавита (полный текст задания и наиболее интересные
варианты решения приведены в [171]). Это была первая попытка извлечения
алгоритма решения задачи из обученной нейронной сети.
В
1995 году была сформулирована идея логически прозрачных сетей, то есть сетей,
на основе структуры которых можно построить вербальное описание алгоритма
получения ответа. Это достигается при помощи специальным образом построенной
процедуры контрастирования.
Получение
явных знаний из данных позволяет решить часть проблем, встающих перед
разработчиками экспертных систем [101, 124, 125, 178, 223, 241, 250, 282, 364,
375].
В
приложении 1 приведен пример логически прозрачной нейронной сети для реальной
задачи – постановки диагноза заболевания шизофренией.
Зададимся
классом сетей, которые будем считать логически прозрачными (то есть такими,
которые решают задачу понятным для нас способом, для которого легко сформулировать
словесное описания в виде явного алгоритма). Например потребуем, чтобы все
нейроны имели не более трех входных сигналов.
Зададимся
нейронной сетью у которой все входные сигналы подаются на все нейроны входного
слоя, а все нейроны каждого следующего слоя принимают выходные сигналы всех
нейронов предыдущего слоя. Обучим сеть безошибочному решению задачи.
После
этого будем производить контрастирование в несколько этапов. На первом этапе
будем удалять только входные связи нейронов входного слоя. Если после этого у некоторых
нейронов осталось больше трех входных сигналов, то увеличим число входных
нейронов. Затем аналогичную процедуру выполним поочередно для всех остальных
слоев. После завершения описанной процедуры будет получена логически прозрачная
сеть. Можно произвести дополнительное контрастирование сети, чтобы получить
минимальную сеть. На рис. 2 приведены восемь минимальных сетей. Если под логически
прозрачными сетями понимать сети, у которых каждый нейрон имеет не более трех
входов, то все сети кроме пятой и седьмой являются логически прозрачными. Пятая
и седьмая сети демонстрируют тот факт, что минимальность сети не влечет за
собой логической прозрачности.
Рис. 2. Набор минимальных сетей для решения задачи о предсказании
результатов выборов президента США. В рисунке использованы следующие
обозначения: буквы «П» и «О» – обозначают вид ответа, выдаваемый нейроном:
«П» – положительный сигнал означает победу правящей партии, а отрицательный –
оппозиционной; «О» – положительный сигнал означает победу оппозиционной
партии, а отрицательный – правящей; |
После
получения логически прозрачной нейронной сети наступает этап построения вербального
описания. Принцип построения вербального описания достаточно прост. Используемая
терминология заимствована из медицины. Входные сигналы будем называть
симптомами. Выходные сигналы нейронов первого слоя – синдромами первого уровня.
Очевидно, что синдромы первого уровня строятся из симптомов. Выходные сигналы
нейронов k-о слоя будем называть
синдромами k-о уровня. Синдромы k-о первого уровня строятся
из симптомов и синдромов более низких уровней. Синдром последнего уровня
является ответом.
В
качестве примера приведем интерпретацию алгоритма рассуждений, полученного по
второй сети приведенной на рис. 2. Постановка задачи: по ответам на 12 вопросов
необходимо предсказать победу правящей или оппозиционной партии на выборах
Президента США. Ниже приведен список вопросов.
1. Правящая партия была у
власти более одного срока?
2. Правящая партия получила больше
50% голосов на прошлых выборах?
3. В год выборов была активна
третья партия?
4. Была серьезная конкуренция
при выдвижении от правящей партии?
5. Кандидат от правящей партии
был президентом в год выборов?
6. Год выборов был временем
спада или депрессии?
7. Был ли рост среднего
национального валового продукта на душу населения больше 2.1%?
8. Произвел ли правящий президент
существенные изменения в политике?
9. Во время правления были
существенные социальные волнения?
10. Администрация правящей
партии виновна в серьезной ошибке или скандале?
11. Кандидат от правящей партии
– национальный герой?
12. Кандидат от оппозиционной
партии – национальный герой?
Ответы
на вопросы описывают ситуацию на момент, предшествующий выборам. Ответы
кодировались следующим образом: «да» – единица, «нет» – минус единица. Отрицательный
сигнал на выходе сети интерпретируется как предсказание победы правящей партии.
В противном случае, ответом считается победа оппозиционной партии. Все нейроны
реализовывали пороговую функцию, равную 1, если алгебраическая сумма входных
сигналов нейрона больше либо равна 0, и -1 при сумме меньшей 0.
Проведем
поэтапно построение вербального описания второй сети, приведенной на рис. 2.
После автоматического построения вербального описания получим текст, приведенный
на рис. 3. Заменим все симптомы на тексты соответствующих вопросов. Заменим
формулировку восьмого вопроса на обратную. Подставим вместо Синдром1_Уровня2 название
ответа сети при выходном сигнале 1. Текст, полученный в результате этих преобразований
приведен на рис. 4.
Синдром1_Уровня1
равен 1, если выражение Симптом4 + Симптом6 – Симптом 8 больше либо равно
нулю, и –1 – в противном случае. Синдром2_Уровня1
равен 1, если выражение Симптом3 + Симптом4 + Симптом9 больше либо равно
нулю, и –1 – в противном случае. Синдром1_Уровня2
равен 1, если выражение Синдром1_Уровня1 + Синдром2_Уровня1 больше либо равно
нулю, и –1 – в противном случае. Рис. 3. Автоматически построенное вербальное описание |
Синдром1_Уровня1
равен 1, если выражение «Была серьезная конкуренция при выдвижении от
правящей партии?» + «Год выборов был временем спада или депрессии?» +
«Правящий президент не произвел существенных изменений в политике?» больше
либо равно нулю, и –1 – в противном случае. Синдром2_Уровня1
равен 1, если выражение «В год выборов была активна третья партия?» + «Была
серьезная конкуренция при выдвижении от правящей партии?» + «Во время правления
были существенные социальные волнения?» больше либо равно нулю, и –1 – в
противном случае. Оппозиционная
партия победит, если выражение Синдром1_Уровня1 + Синдром2_Уровня1 больше
либо равно нулю. Рис. 4. Вербальное описание после элементарных преобразований |
Заметим,
что все три вопроса, ответы на которые формируют Синдром1_Уровня1, относятся к
оценке качества правления действующего президента. Поскольку положительный
ответ на любой из этих вопросов характеризует недостатки правления, то этот синдром
можно назвать синдромом плохой политики. Аналогично, три вопроса, ответы на которые
формируют Синдром2_Уровня1, относятся к характеристике политической стабильности.
Этот синдром назовем синдромом политической нестабильности.
Тот
факт, что оба синдрома первого уровня принимают значение 1, если истинны ответы
хотя бы на два из трех вопросов, позволяет избавиться от математических
действий с ответами на вопросы. Окончательный ответ может быть истинным только
если оба синдрома имеют значение –1.
Используя
приведенные соображения, получаем окончательный текст решения задачи о
предсказании результатов выборов президента США, приведенный на рис. 5.
Таким
образом, использовав идею логически прозрачных нейронных сетей и минимальные
интеллектуальные затраты на этапе доводки вербального описания, был получен
текст решения задачи. Причем процедура получения логически прозрачных нейронных
сетей сама отобрала значимые признаки, сама привела сеть к нужному виду. Далее
элементарная программа построила по структуре сети вербальное описание.
Правление
плохое, если верны хотя бы два из следующих высказываний: «Была серьезная
конкуренция при выдвижении от правящей партии», «Год выборов был временем
спада или депрессии», «Правящий президент не произвел существенных изменений
в политике». Ситуация
политически нестабильна, если верны хотя бы два из следующих высказываний: «В
год выборов была активна третья партия», «Была серьезная конкуренция при выдвижении
от правящей партии», «Во время правления были существенные социальные волнения». Оппозиционная
партия победит, если правление плохое или ситуация политически нестабильна. Рис. 5. Окончательный вариант вербального описания |
На
рис. 2 приведены структуры шести логически прозрачных нейронных сетей, решающих
задачу о предсказании результатов выборов президента США [303 – 305]. Все сети,
приведенные на этом рисунке минимальны в том смысле, что из них нельзя удалить
ни одной связи так, чтобы сеть могла обучиться правильно решать задачу. По
числу нейронов минимальна пятая сеть.
Заметим,
что все попытки авторов обучить нейронные сети со структурами, изображенными на
рис. 2, и случайно сгенерированными начальными весами связей закончились
провалом. Все сети, приведенные на рис. 2, были получены из существенно больших
сетей с помощью процедуры контрастирования. Сети 1, 2, 3 и 4 были получены из
трехслойных сетей с десятью нейронами во входном и скрытом слоях. Сети 5, 6, 7
и 8 были получены из двухслойных сетей с десятью нейронами во входном слое.
Легко заметить, что в сетях 2, 3, 4 и 5 изменилось не только число нейронов в
слоях, но и число слоев. Кроме того, почти все веса связей во всех восьми сетях
равны либо 1, либо -1.
Алгоритмы
контрастирования, рассматриваемые в данной главе, позволяют выделить минимально
необходимое множество входных сигналов. Использование минимального набора
входных сигналов позволяет более экономично организовать работу нейркомпьютера.
Однако у минимального множества есть свои недостатки. Поскольку множество минимально,
то информация, несомая одним из сигналов, как правило не подкрепляется другими
входными сигналами. Это приводит к тому, что при ошибке в одном входном сигнале
сеть ошибается с большой степенью вероятности. При избыточном наборе входных
сигналов этого, как правило, не происходит, поскольку информация каждого
сигнала подкрепляется (дублируется) другими сигналами [72].
Таким
образом возникает противоречие – использование исходного избыточного множества
сигналов неэкономично, а использование минимального набора сигналов приводит к
повышению риска ошибок. В этой ситуации правильным является компромиссное
решение – необходимо найти такое минимальное множество, в котором вся
информация дублируется. В данном разделе рассматриваются методы построения
таких множеств, повышенной надежности. Кроме того, построение дублей второго
рода позволяет установить какие из входных сигналов не имеют дублей в исходном
множестве сигналов. Попадание такого «уникального» сигнала в минимальное
множество является сигналом о том, что при использовании нейронной сети для
решения данной задачи следует внимательно следить за правильностью значения
этого сигнала.
Пусть
дана таблица данных, содержащая N записей,
каждая из которых содержит M+1 поле.
Обозначим значение i-о поля j-й записи через, где , . Обозначим через задачник, в котором
ответы заданы в полях с номерами , а входные данные содержатся в полях с номерами . Множество А будем называть множеством ответов, а
множество S – множеством входных
данных. Минимальное множество входных сигналов, полученное при обучении сети на
задачнике , обозначим через . В случае, когда сеть не удалось обучить решению задачи
будем считать, что . Число элементов в множестве A будем обозначать через . Через будем обозначать сеть,
обученную решать задачу предсказания всех полей (ответов), номера которых
содержатся в множестве A, на основе
входных сигналов, номера которых содержатся в множестве S.
Задача. Необходимо построить набор
входных параметров, который позволяет надежно решать задачу .
Решение
задачи будем называть множеством повышенной надежности, и обозачать .
Для
решения этой задачи необходимо определит набор параметров, дублирующих
минимальный набор . Возможно несколько подходов к определению дублирующего
набора. В следующих разделах рассмотрены некоторые из них.
Возможно
два типа дублей – набор входных сигналов, способный заменить определенный
входной сигнал или множество сигналов при получении ответа первоначальной
задачи, и набор входных сигналов, позволяющий вычислить дублируемый сигнал
(множество дублируемых сигналов). Дубли первого типа будем называть прямыми, а
дубли второго типа – косвенными.
Возможна
другая классификация, не зависящая от ранее рассмотренной. Дубли первого и
второго рода будем различать по объекту дублирования. Дубль первого рода дублирует
все множество вцелом, а дубль второго рода дублирует конкретный сигнал.
Очевидно,
что возможны все четыре варианта дублей: прямой первого рода, косвенный первого
рода, прямой второго рода и косвенный второго рода. В следующих разделах будут
описаны алгоритмы получения дублей всех вышеперечисленных видов.
Для
нахождения прямого дубля первого рода требуется найти такое множество сигналов D что существует сеть и . Решение этой задачи очевидно. Удалим из множества входных
сигналов те их них, которые вошли в первоначальное минимальное множество
входных сигналов . Найдем минимальное
множество входных сигналов среди оставшихся. Найденное множество и будет
искомым дублем.
Формально
описанную выше процедуру можно записать следующей формулой:
.
Множество
повышенной надежности в этом случае можно записать в следующем виде:
.
Очевидно,
что последнюю формулу можно обобщить, исключив из первоначального множества
входных сигналов найденное ранее множество повышенной надежности и попытавшись
найти минимальное множество среди оставшихся входных сигналов. С другой
стороны, для многих нейросетевых задач прямых дублей первого рода не
существует. Примером может служить одна из классических тестовых задач – задача
о предсказании результатов выборов президента США.
Для
нахождения косвенного дубля первого рода необходимо найти такое множество
входных сигналов D что существует
сеть и . Другими словами, среди множества входных сигналов, не
включающем начальное минимальное множество, нужно найти такие входные сигналы,
по которым можно восстановит значения входных сигналов начального минимального
множества. Формально описанную выше процедуру можно записать следующей
формулой:
.
Множество
повышенной надежности в этом случае можно записать в следующем виде:
Эта
формула так же допускает обобщение. Однако, следует заметить, что косвенные
дубли первого рода встречаются еще реже чем прямые дубли первого рода.
Соотношение между косвенным и прямым дублем первого рода описываются следующей
теоремой.
Теорема 1. Если множество D является косвенным дублем первого
рода, то оно является и прямым дублем первого рода.
Доказательство.
Построим нейронную сеть, состоящую из последовательно соединенных сетей и , как показано на рис. 6. Очевидно, что на выходе первой сети
будут получены те сигналы, которые, будучи поданы на вход второй сети, приведут
к получению на выходе второй сети правильного ответа. Таким образом сеть,
полученная в результате объединения двух сетей и , является сетью . Что и требовалось доказать.
Рис. 6. Сеть для получения ответа из косвенного
дубля. |
Следствие. Если у множества нет прямого дубля
первого рода, то у нее нет и косвенного дубля первого рода
Доказательство.
Пусть это не так. Тогда существует
косвенный дубль первого рода. Но по теореме 1 он является и прямым дублем
первого рода, что противоречит условию теоремы. Полученное противоречие доказывает
следствие.
Перенумеруем
входные сигналы из множества . Множество сигналов, являющееся прямым дублем второго рода
для сигнала можно получить найдя минимальное
множество для получения ответа, если из исходного множества входных сигналов
исключен сигнал . Таким образом прямые дубли второго рода получаются следующим
образом:
.
Полный
прямой дубль второго рода получается объединением всех дублей для отдельных
сигналов . Множество повышенной надежности для прямого дубля второго
рода можно записать в следующем виде:
Заметим,
что при построении прямого дубля второго рода не требовалось отсутствия в нем
всех элементов множества , как это было при построении прямого дубля первого
рода. Такое снижение требований приводит
к тому, что прямые дубли второго рода встречаются чаще, чем прямые дубли
первого рода. Более того, прямой дубль первого рода очевидно является прямым
дублем второго рода. Более точное соотношение между прямыми дублями первого и
второго родов дает следующая теорема.
Теорема 2. Полный прямой дубль второго
рода является прямым дублем первого рода тогда, и только тогда, когда
. (1)
Доказательство.
Построим сеть, состоящую из параллельно работающих сетей, , за которыми следует элемент, выдающтй на выход среднее
арифметическое своих входов. Такая сеть очевидно будет решать задачу, а в силу
соотношения (1) она будет сетью . Таким образом, если соотношение (1) верно, то прямой дубль
второго рода является прямым дублем первого рода. Необходимость следует
непосредственно из определения прямого дубля первого рода.
Косвенный
дубль второго рода для сигнала является минимальным
множеством входных сигналов, для которых существует сеть . Полный косвенный дубль второго рода строится как
объединение косвенных дублей второго рода для всех сигналов первоначального
минимального множества:
.
Соотношения
между косвенными дублями второго рода и другими видами дублей первого и второго
рода задаются теоремами 1, 2 и следующими двумя теоремами.
Теорема 3. Косвенный дубль второго
рода всегда является прямым дублем второго рода.
Доказательство
данной теоремы полностью аналогично доказательству теоремы 1.
Теорема 4. Полный косвенный дубль
второго рода является косвенным дублем первого рода тогда, и только тогда, когда
верно соотношение
Доказателство
данной теоремы полностью аналогично доказательству теоремы 2.
Последним
рассматриваемым в данной работе видом дубля является косвенный супердубль.
Косвенным супердублем будем называть минимальное множество входных сигналов,
которое позволяет восстановит все входные сигналы. Косвенный супердубль формально
описывается следующей формулой:
Очевидно,
что косвенный супердубль является полным косвенным дублем второго рода. Также
очевидно, что косвенный супердубль встречается гораздо реже, чем наиболее
редкий из ранее рассматриваемых косвенный дубль первого рода.
Существует
два типа процедуры контрастирования – контрастирование по значимости параметров
и не ухудшающее контрастирование. В данном разделе описаны оба типа процедуры
контрастирования.
С
помощью этой процедуры можно контрастировать, как входные сигналы, так и параметры
сети. Далее в данном разделе будем предполагать, что контрастируются параметры
сети. При контрастировании входных сигналов процедура остается той же, но
вместо показателей значимости параметров сети используются показатели
значимости входных сигналов. Обозначим через – показатель значимости p-о параметра; через – текущее значение p-о параметра; через – ближайшее выделенное
значение для p-о параметра.
Используя
введенные обозначения процедуру контрастирования можно записать следующим
образом:
1. Вычисляем показатели
значимости.
2. Находим минимальный среди
показателей значимости – .
3. Заменим соответствующий
этому показателю значимости параметр на , и исключаем его из процедуры обучения.
4. Предъявим сети все примеры
обучающего множества. Если сеть не допустила ни одной ошибки, то переходим ко
второму шагу процедуры.
5. Пытаемся обучить полученную
сеть. Если сеть обучилась безошибочному решению задачи, то переходим к первому
шагу процедуры, в противном случае переходим к шестому шагу.
6. Восстанавливаем сеть в
состояние до последнего выполнения третьего шага. Если в ходе выполнения шагов
со второго по пятый был отконтрастирован хотя бы один параметр, (число
обучаемых параметров изменилось), то переходим к первому шагу. Если ни один параметр
не был отконтрастирован, то получена минимальная сеть.
Возможно
использование различных обобщений этой процедуры. Например, контрастировать за
один шаг процедуры не один параметр, а заданное пользователем число параметров.
Наиболее радикальная процедура состоит в контрастировании половины параметров
связей. Если контрастирование половины параметров не удается, то пытаемся контрастировать
четверть и т.д. Другие варианты обобщения процедуры контрастирования будут
описаны при описании решения задач. Результаты первых работ по контрастированию
нейронных сетей с помощью описанной процедуры опубликованы в [171, 306, 307].
Пусть
нам дана только обученная нейронная сеть и обучающее множество. Допустим, что
вид функции оценки и процедура обучения нейронной сети неизвестны. В этом
случае так же возможно контрастирование сети. Предположим, что данная сеть
идеально решает задачу. В этом случае возможно контрастирование сети даже при
отсутствии обучающей выборки, поскольку ее можно сгенерировать используя сеть
для получения ответов. Задача не ухудшающего контрастирования ставится
следующим образом: необходимо так провести контрастирование параметров, чтобы
выходные сигналы сети при решении всех примеров изменились не более чем на
заданную величину. Для решения задача редуцируется на отдельный адаптивный
сумматор: необходимо так изменить параметры, чтобы выходной сигнал адаптивного
сумматора при решении каждого примера изменился не более чем на заданную величину.
Обозначим
через p-й входной сигнал сумматора
при решении q-о примера; через – выходной сигнал
сумматора при решении q-о
примера; через – вес p-о входного сигнала
сумматора; через – требуемую точность;
через n – число входных сигналов
сумматора; через m – число примеров. Очевидно,
что при решении примера выполняется равенство . Требуется найти такой набор индексов , что , где – новый вес p-о входного сигнала
сумматора. Набор индексов будем строить по следующему алгоритму.
1. Положим , , , , k=0.
2. Для всех векторов таких, что , проделаем следующее преобразование: если , то исключаем p из
множества обрабатываемых векторов – , в противном случае нормируем вектор на единичную длину – .
3. Если или , то переходим к шагу 10.
4. Находим – номер вектора,
наиболее близкого к из условия
.
5. Исключаем из множества индексов
обрабатываемых векторов: .
6. Добавляем в множество индексов
найденных векторов:
7. Вычисляем не
аппроксимированную часть (ошибку аппроксимации) вектора выходных сигналов:
8. Преобразуем обрабатываемые
вектора к промежуточному представлению – ортогонализуем их к вектору , для чего каждый вектор , у которого преобразуем по
следующей формуле: .
9. Увеличиваем k на единицу и переходим к
шагу 2.
10. Если ,
то весь сумматор удаляется из сети и работа алгоритма завершается.
11. Если , то контрастирование невозможно и сумматор остается неизменным.
12. В противном случае полагаем и вычисляем новые веса связей () решая систему уравнений .
13. Удаляем из сети связи с
номерами , веса оставшихся связей полагаем равными ().
Данная
процедура позволяет производить контрастирование адаптивных сумматоров. Причем
значения, вычисляемые каждым сумматором после контрастирования, отличаются от
исходных не более чем на заданную величину. Однако, исходно была задана только
максимально допустимая погрешность работы сети в целом. Способы получения
допустимых погрешностей для отдельных сумматоров исходя из заданной допустимой
погрешности для всей сети описаны в ряде работ [97, 98, 170, 215 – 219, 362].
Можно
упростить процедуру контрастирования, описанную в разд. «Контрастирование без
ухудшения». Предлагаемая процедура годится только для контрастирования весов
связей адаптивного сумматора (см. разд. «Составные элементы»). Контрастирование
весов связей производится отдельно для каждого сумматора. Адаптивный сумматор
суммирует входные сигналы нейрона, умноженные на соответствующие веса связей.
Для работы нейрона наименее значимым будем считать тот вес, который при решении
примера даст наименьший вклад в сумму. Обозначим через входные сигналы
рассматриваемого адаптивного сумматора при решении q-го примера. Показателем значимости веса назовем следующую величину:
. Усредненный по всем примерам обучающего множества
показатель значимости имеет вид . Производим контрастирование по процедуре, приведенной в
разд. «Контрастирование на основе показателей значимости». В самой процедуре
контрастирования есть только одно отличие – вместо проверки на наличие ошибок
при предъявлении всех примеров проверяется, что новые выходные сигналы сети
отличаются от первоначальных не более чем на заданную величину.
Существует
еще один способ контрастирования нейронных сетей. Идея этого способа состоит в
том, что функция оценки модернизируется таким способом, чтобы для снижения
оценки было выгодно привести сеть к заданному виду. Рассмотрим решение задачи
приведения параметров сети к выделенным значениям. Используя обозначения из
предыдущих разделов требуемую добавку к функции оценки, являющуюся штрафом за отклонение
значения параметра от ближайшего выделенного значения:, можно записать в виде .
Для
решения других задач вид добавок к функции оценки много сложнее.
В
данном разделе описан способ определения показателей значимости параметров и
сигналов. . Далее будем говорить об определении значимости параметров.
Показатели значимости сигналов сети определяются по тем же формулам с заменой параметров
на сигналы.
Нейронная
сеть двойственного функционирования может вычислять градиент функции оценки по
входным сигналам и обучаемым параметрам сети
Показателем
значимости параметра при решении q-о
примера будем называть величину, которая показывает насколько изменится
значение функции оценки решения сетью q-о примера если текущее значение параметра заменить на выделенное значение . Точно эту величину можно определить произведя замену и
вычислив оценку сети. Однако учитывая большое число параметров сети вычисление
показателей значимости для всех параметров будет занимать много времени. Для
ускорения процедуры оценки параметров значимости вместо точных значений
используют различные оценки [32, 65, 93]. Рассмотрим простейшую и наиболее используемую
линейную оценку показателей значимости. Разложим функцию оценки в ряд Тейлора с
точностью до членов первого порядка: ,где – значение функции
оценки решения q-о примера при . Таким образом показатель значимости p-о параметра при решении q-о примера определяется по
следующей формуле:
(2)
Показатель
значимости (2) может вычисляться для различных объектов. Наиболее часто его
вычисляют для обучаемых параметров сети. Однако показатель значимости вида (2)
применим и для сигналов. Как уже отмечалось в главе «Описание нейронных сетей»
сеть при обратном функционировании всегда вычисляет два вектора градиента –
градиент функции оценки по обучаемым параметрам сети и по всем сигналам сети.
Если показатель значимости вычисляется для выявления наименее значимого нейрона,
то следует вычислять показатель значимости выходного сигнала нейрона.
Аналогично, в задаче определения наименее значимого входного сигнала нужно
вычислять значимость этого сигнала, а не сумму значимостей весов связей, на которые
этот сигнал подается.
Показатель
значимости параметра зависит от точки в
пространстве параметров, в которой он вычислен и от примера из обучающего
множества. Существует два принципиально разных подхода для получения показателя
значимости параметра, не зависящего от примера. При первом подходе считается,
что в обучающей выборке заключена полная информация о всех возможных примерах.
В этом случае, под показателем значимости понимают величину, которая показывает
насколько изменится значение функции оценки по обучающему множеству, если
текущее значение параметра заменить на выделенное значение . Эта величина вычисляется по следующей формуле:
. (3)
В
рамках другого подхода обучающее множество рассматривают как случайную выборку
в пространстве входных параметров. В этом случае показателем значимости по всему
обучающему множеству будет служить результат некоторого усреднения по обучающей
выборке.
Существует
множество способов усреднения. Рассмотрим два из них. Если в результате
усреднения показатель значимости должен давать среднюю значимость, то такой показатель
вычисляется по следующей формуле:
. (4)
Если
в результате усреднения показатель значимости должен давать величину, которую
не превосходят показатели значимости по отдельным примерам (значимость этого параметра
по отдельному примеру не больше чем ), то такой показатель вычисляется по следующей формуле:
. (5)
Показатель
значимости (5) хорошо зарекомендовал себя при использовании в работах группы
НейроКомп.
Все
показатели значимости зависят от точки в пространстве параметров сети, в которой
они вычислены, и могут сильно изменяться при переходе от одной точки к другой.
Для показателей значимости, вычисленных с использованием градиента эта
зависимость еще сильнее, поскольку при обучении по методу наискорейшего спуска
(см. раздел «Метод наискорейшего спуска») в двух соседних точках пространства
параметров, в которых вычислялся градиент, градиенты ортогональны. Для снятия
зависимости от точки пространства используются показатели значимости, вычисленные
в нескольких точках. Далее они усредняются по формулам аналогичным (4) и (5).
Вопрос о выборе точек в пространстве параметров в которых вычислять показатели
значимости обычно решается просто. В ходе нескольких шагов обучения по любому
из градиентных методов при каждом вычислении градиента вычисляются и показатели
значимости. Число шагов обучения, в ходе которых накапливаются показатели значимости,
должно быть не слишком большим, поскольку при большом числе шагов обучения первые вычисленные показатели
значимости теряют смысл, особенно при использовании усреднения по формуле (5).
Компонента
контрастер одновременно работает только с одним контрастером. Запросы к
компоненте контрастер можно разбить на следующие группы.
1. Контрастирование сети.
2. Чтение/запись контрастера.
3. Инициация редактора
контрастера.
4. Работа с параметрами
контрастера.
К
данной группе относятся три запроса – контрастировать сеть (ContrastNet),
прервать контрастирование (CloseContrast) и контрастировать пример (ContrastExample).
Описание
запроса:
Pascal:
Function ContrastNet:
Logic;
C:
Logic ContrastNet()
Аргументов
нет.
Назначение
– производит контрастирование сети.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса контрастер не загружен, то возникает ошибка 701 – неверное имя
компонента, управление передается обработчику ошибок, а обработка запроса
прекращается.
3. Выполняется главная
процедура загруженного контрастера.
4. Если во время выполнения
запроса возникает ошибка, а значение переменной Error равно нулю, то генерируется
внутренняя ошибка 705 – ошибка исполнения контрастера, управление передается
обработчику ошибок, а обработка запроса прекращается.
5. Если во время выполнения
запроса возникает ошибка, а значение переменной Error не равно нулю, то обработка
запроса прекращается.
Описание
запроса:
Pascal:
Function CloseContrast: Logic;
C:
Logic CloseContrast()
Аргументов
нет.
Назначение
– прерывает контрастирование сети.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса контрастер не загружен, то возникает ошибка 701 – неверное имя
компонента, управление передается обработчику ошибок, а обработка запроса
прекращается.
3. Если в момент получения
запроса не выполняется запрос ContrastNet, то возникает ошибка 706 –
неверное использование запроса на прерывание контрастирования, управление
передается обработчику ошибок, а обработка запроса прекращается.
4. Завершается выполнение
текущего шага контрастирования сети.
5. Если во время выполнения
запроса возникает ошибка, а значение переменной Error равно нулю, то генерируется
внутренняя ошибка 705 – ошибка исполнения контрастера, управление передается
обработчику ошибок, а обработка запроса прекращается.
6. Если во время выполнения
запроса возникает ошибка, а значение переменной Error не равно нулю, то обработка
запроса прекращается.
Описание
запроса:
Pascal:
Function ContrastExample( TheEnd : Logic) : Logic;
C:
Logic ContrastExample(Logic TheEnd )
Описание аргумента:
TheEnd – значение аргумента имеет следующий смысл: ложь –
обработан еще один пример обучающего множества при обучении по всему задачнику
в целом.
Назначение
– извлекает из сети необходимые для вычисления показателей значимости параметры.
Описание
исполнения.
1. Если Error
<> 0, то выполнение запроса прекращается.
2. Вызывает функцию, адрес
которой хранится в переменной ContrastFunc, передавая ей аргумент TheEnd в
качестве аргумента.
3. Если функция ContrastFunc возвращает значение ложь, а значение переменной Error
равно нулю, то генерируется внутренняя ошибка 705 – ошибка исполнения контрастера,
управление передается обработчику ошибок, а обработка запроса прекращается.
4. Если функция ContrastFunc возвращает значение ложь, а значение переменной Error не
равно нулю, то обработка запроса прекращается.
5. Запрос в качестве результата
возвращает возвращенное функцией ContrastFunc значение.
В
данном разделе описаны запросы позволяющие, загрузить контрастер с диска или из
памяти, выгрузить контрастера и сохранить текущего контрастера на диске или в
памяти.
Описание
запроса:
Pascal:
Function cnAdd( CompName :
PString ) : Logic;
C:
Logic cnAdd(PString CompName)
Описание
аргумента:
CompName
– указатель на строку символов, содержащую имя файла компонента или адрес описания
компонента.
Назначение
– читает контрастера с диска или из памяти.
Описание
исполнения.
1. Если в качестве аргумента
CompName дана строка, первые четыре символа которой составляют слово File, то
остальная часть строки содержит имя компонента и после пробела имя файла,
содержащего компонент. В противном случае считается, что аргумент CompName
содержит указатель на область памяти, содержащую описание компонента в формате
для записи на диск. Если описание не вмещается в одну область памяти, то
допускается включение в текст описания компонента ключевого слова Continue, за
которым следует четыре байта, содержащие адрес следующей области памяти.
2. Если в данный момент
загружен другой контрастер, то выполняется запрос cnDelete. Контрастер считывается из
файла или из памяти.
3. Если считывание завершается
по ошибке, то возникает ошибка 702 – ошибка считывания контрастера, управление
передается обработчику ошибок, а обработка запроса прекращается.
Описание
запроса:
Pascal:
Function cnDelete : Logic;
C:
Logic cnDelete()
Аргументов
нет.
Назначение
– удаляет загруженного в память контрастера.
Описание
исполнения.
1. Если список в момент
получения запроса контрастер не загружен, то возникает ошибка 701 – неверное
имя контрастера, управление передается обработчику ошибок, а обработка запроса
прекращается.
Описание
запроса:
Pascal:
Function cnWrite(Var FileName : PString) : Logic;
C:
Logic cnWrite(PString* FileName)
Описание
аргументов:
CompName
– указатель на строку символов, содержащую имя контрастера.
FileName
– имя файла или адрес памяти, куда надо записать контрастера.
Назначение
– сохраняет контрастера в файле или в памяти.
Описание
исполнения.
1. Если в момент получения
запроса контрастер не загружен, то возникает ошибка 701 – неверное имя
контрастера, управление передается обработчику ошибок, а обработка запроса
прекращается.
2. Если в качестве аргумента
FileName дана строка, первые четыре символа которой составляют слово File, то
остальная часть строки содержит имя файла, для записи компонента. В противном
случае FileName должен содержать пустой указатель. В этом случае запрос вернет
в нем указатель на область памяти, куда будет помещено описание компонента в
формате для записи на диск. Если описание не вмещается в одну область памяти,
то в текст будет включено ключевое слово Continue, за которым следует четыре
байта, содержащие адрес следующей области памяти.
3. Если во время сохранения
компонента возникнет ошибка, то возникает ошибка 703 – ошибка сохранения
контрастера, управление передается обработчику ошибок, а обработка запроса прекращается.
К
этой группе запросов относится запрос, который инициирует работу не рассматриваемого
в данной работе компонента – редактора контрастера.
Описание
запроса:
Pascal:
Procedure cnEdit(CompName
: PString);
C:
void cnEdit(PString
CompName)
Описание
аргумента:
CompName
– указатель на строку символов – имя файла или адрес памяти, содержащие
описание контрастера.
Если
в качестве аргумента CompName дана строка, первые четыре символа которой
составляют слово File, то остальная часть строки содержит имя контрастера и
после пробела имя файла, содержащего описание контрастера. В противном случае
считается, что аргумент CompName содержит указатель на область памяти,
содержащую описание контрастера в формате для записи на диск. Если описание не
вмещается в одну область памяти, то допускается включение в текст описания
ключевого слова Continue, за которым следует четыре байта, содержащие адрес
следующей области памяти.
Если
в качестве аргумента CompName передан пустой указатель или указатель на пустую
строку, то редактор создает нового контрастера.
В
данном разделе описаны запросы, позволяющие изменять параметры контрастера.
Описание
запроса:
Pascal:
Function cnGetData(Var Param
: PRealArray ) : Logic;
C:
Logic cnGetData(PRealArray*
Param)
Описание
аргумента:
Param
– адрес массива параметров.
Назначение
– возвращает вектор параметров контрастера.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса контрастер не загружен, то возникает ошибка 701 – неверное имя
компонента, управление передается обработчику ошибок, а обработка запроса
прекращается.
3. В массив, адрес которого
передан в аргументе Param, заносятся значения параметров. Параметры заносятся в
массив в порядке описания в разделе описания статических переменных.
Описание
запроса:
Pascal:
Function cnGetName(Var Param
: PRealArray ) : Logic;
C:
Logic cnGetName(PRealArray*
Param)
Описание
аргумента:
Param
– адрес массива указателей на названия параметров.
Назначение
– возвращает вектор указателей на названия параметров контрастера.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса контрастер не загружен, то возникает ошибка 701 – неверное имя
компонента, управление передается обработчику ошибок, а обработка запроса
прекращается.
3. В массив, адрес которого
передан в аргументе Param, заносятся адреса символьных строк, содержащих
названия параметров.
Описание
запроса:
Pascal:
Function cnSetData(Param
: PRealArray ) : Logic;
C:
Logic cnSetData(PRealArray
Param)
Описание
аргументов:
Param
– адрес массива параметров.
Назначение
– заменяет значения параметров контрастера на значения, переданные, в аргументе
Param.
Описание
исполнения.
1. Если Error <> 0, то
выполнение запроса прекращается.
2. Если в момент получения
запроса контрастер не загружен, то возникает ошибка 701 – неверное имя
компонента, управление передается обработчику ошибок, а обработка запроса
прекращается.
3. Параметры, значения которых
хранятся в массиве, адрес которого передан в аргументе Param, передаются
контрастеру.
В
табл. 1 приведен полный список ошибок, которые могут возникать при выполнении
запросов компонентом контрастер, и действия стандартного обработчика ошибок.
Таблица 1
Ошибки компонента контрастер
и действия стандартного обработчика ошибок.
№ |
Название ошибки |
Стандартная обработка |
701 |
Несовместимость сети и контрастера |
Занесение номера в Error |
702 |
Ошибка считывания контрастера |
Занесение номера в Error |
703 |
Ошибка сохранения контрастера |
Занесение номера в Error |
704 |
Некорректная работа с памятью |
Занесение номера в Error |
705 |
Ошибка исполнения контрастера |
Занесение номера в Error |
706 |
Неверное использование запроса на прерывание контрастирования |
Занесение номера в Error |
В
данной главе проиллюстрирована эффективность математического подхода к нейронным
сетям (теоретическое поднаправление инженерного направления в нейроинформатике).
Нейронные сети ассоциативной памяти – сети восстанавливающие по искаженному
и/или зашумленному образу ближайший к нему эталонный. Исследована
информационная емкость сетей и предложено несколько путей ее повышения, в том
числе – ортогональные тензорные (многочастичные) сети. Описаны способы предобработки,
позволяющие конструировать нейронные сети ассоциативной памяти для обработки
образов, инвариантной относительно групп преобразований. Описан численный
эксперимент по использованию нейронных сетей для декодирования различных кодов.
Доказана теорема об информационной емкости тензорных сетей.
Прежде
чем заниматься конструированием сетей ассоциативной памяти необходимо ответить
на следующие два вопроса: «Как устроена ассоциативная память?» и «Какие задачи
она решает?». Когда мы задаем эти вопросы, имеется в виду не устройство отделов
мозга, отвечающих за ассоциативную память, а наше представление о
макропроцессах, происходящих при проявлении ассоциативной памяти.
Принято
говорить, что у человека возникла ассоциация, если при получении некоторой
неполной информации он может подробно описать объект, к которому по его мнению
относится эта информация. Достаточно хорошим примером может служить описание малознакомого
человека. К примеру, при высказывании: «Слушай, а что за парень, с которым ты
вчера разговаривал на вечеринке, такой высокий блондин?»– у собеседника возникает
образ вчерашнего собеседника, не ограничивающийся ростом и цветом волос. В
ответ на заданный вопрос он может рассказать об этом человеке довольно много.
При этом следует заметить, что содержащейся в вопросе информации явно
недостаточно для точной идентификации собеседника. Более того, если вчерашний
собеседник был случайным, то без дополнительной информации его и не вспомнят.
Подводя
итог описанию можно сказать, что ассоциативная память позволяет по неполной и
даже частично недостоверной информации восстановить достаточно полное описание знакомого объекта. Слово знакомого является очень важным,
поскольку невозможно вызвать ассоциации с незнакомыми объектами. При этом
объект должен быть знаком тому, у кого возникают ассоциации.
Одновременно
рассмотренные примеры позволяют сформулировать решаемые ассоциативной памятью
задачи:
1. Соотнести входную информацию
со знакомыми объектами, и дополнить ее до точного описания объекта.
2. Отфильтровать из входной
информации недостоверную, а на основании оставшейся решить первую задачу.
Очевидно,
что под точным описанием объекта следует понимать всю информацию, которая
доступна ассоциативной памяти. Вторая задача решается не поэтапно, а одновременно
происходит соотнесение полученной информации с известными образцами и отсев
недостоверной информации.
Нейронным
сетям ассоциативной памяти посвящено множество работ (см. например, [75, 77,
82, 86, 114, 130, 131, 153, 231, 247, 296, 316, 329]). Сети Хопфилда являются
основным объектом исследования в модельном направлении нейроинформатики.
Пусть
задан набор из эталонов – -мерных векторов . Требуется построить сеть, которая при предъявлении на вход
произвольного образа – вектора – давала бы на выходе
“наиболее похожий” эталон.
Всюду
далее образы и, в том числе, эталоны – -мерные векторы с координатами . Примером понятия эталона «наиболее похожего» на x может служить ближайший к x вектор . Легко заметить, что это требование эквивалентно требованию
максимальности скалярного произведения векторов и : . Первые два слагаемых в правой части совпадают для любых
образов и , так как длины всех векторов-образов равны . Таким образом, задача поиска ближайшего образа сводится к
поиску образа, скалярное произведение с которым максимально. Этот простой факт
приводит к тому, что сравнивать придется линейные функции от образов, тогда как
расстояние является квадратичной функцией.
Наиболее
известной сетью ассоциативной памяти является сеть Хопфилда [316]. В основе
сети Хопфилда лежит следующая идея – запишем систему дифференциальных уравнений
для градиентной минимизации «энергии» H
(функции Ляпунова). Точки равновесия такой системы находятся в точках минимума
энергии. Функцию энергии будем строить из следующих соображений:
1. Каждый эталон должен быть
точкой минимума.
2. В точке минимума все
координаты образа должны иметь значения .
Функция
не удовлетворяет этим требованиям строго, но можно
предполагать, что первое слагаемое обеспечит притяжение к эталонам (для вектора
x фиксированной длины максимум
квадрата скалярного произведения достигается при ), а второе слагаемое – приблизит к единице
абсолютные величины всех координат точки минимума). Величина a характеризует соотношение между этими двумя
требованиями и может меняться со временем.
Используя
выражение для энергии, можно записать систему уравнений, описывающих
функционирование сети Хопфилда [316]:
. (1)
Сеть
Хопфилда в виде (1) является сетью с непрерывным временем. Это, быть может, и
удобно для некоторых вариантов аналоговой реализации, но для цифровых
компьютеров лучше воспользоваться сетями, функционирующими в дискретном времени
– шаг за шагом.
Построим
сеть Хопфилда [316] с дискретным
временем. Сеть должна осуществлять преобразование входного вектора так, чтобы выходной
вектор был ближе к тому эталону,
который является правильным ответом. Преобразование сети будем искать в следующем
виде:
, (2)
где – вес -го эталона, характеризующий его близость к вектору , Sign - нелинейный оператор, переводящий вектор с
координатами yi в вектор с координатами sign yi .
Сеть
работает следующим образом:
1. На вход сети подается образ , а на выходе снимается образ .
2. Если , то полагаем и возвращаемся к шагу
1.
3. Полученный вектор является ответом.
Таким
образом, ответ всегда является неподвижной точкой преобразования сети (2) и
именно это условие (неизменность при обработке образа сетью) и является
условием остановки.
Пусть
– номер эталона, ближайшего к образу . Тогда, если выбрать веса пропорционально близости эталонов
к исходному образу , то следует ожидать, что образ будет ближе к эталону , чем , а после нескольких итераций он станет совпадать с эталоном .
Наиболее простой сетью вида (2) является дискретный вариант сети Хопфилда [316] с весами равными скалярному произведению эталонов на предъявляемый образ:
. (3)
Рис. 1. а, б, в – эталоны, г – ответ сети на предъявление
любого эталона |
О
сетях Хопфилда (3) известно [53, 231, 247, 316], что они способны запомнить и
точно воспроизвести «порядка слабо коррелированных
образов». В этом высказывании содержится два ограничения:
· число эталонов не превосходит .
· эталоны слабо коррелированны.
Наиболее
существенным является второе ограничение, поскольку образы, которые сеть должна
обрабатывать, часто очень похожи. Примером могут служить буквы латинского
алфавита. При обучении сети Хопфилда (3) распознаванию трех первых букв (см.
рис. 1 а, б, в), при предъявлении на вход сети любого их эталонов в качестве
ответа получается образ, приведенный на рис. 1 г (все образы брались в рамке 10
на 10 точек).
В связи с такими примерами первый вопрос о качестве работы сети ассоциативной
памяти звучит тривиально: будет ли сеть правильно обрабатывать сами эталонные
образы (т.е. не искажать их)?
Мерой
коррелированности образов будем называть следующую величину:
Зависимость
работы сети Хопфилда от степени коррелированности образов можно легко
продемонстрировать на следующем примере. Пусть даны три эталона таких, что
(4)
Для
любой координаты существует одна из четырех возможностей:
В
первом случае при предъявлении сети -го эталона в силу формулы (3) получаем , так как все скалярные произведения положительны по условию
(4). Аналогично получаем в четвертом случае .
Во
втором случае рассмотрим отдельно три варианта
так как скалярный квадрат любого образа равен , а сумма двух любых скалярных произведений эталонов больше , по условию (4). Таким образом, независимо от предъявленного
эталона получаем . Аналогично в третьем случае получаем .
Окончательный вывод таков: если эталоны удовлетворяют условиям (4), то
при предъявлении любого эталона на выходе всегда будет один образ. Этот образ может
быть эталоном или «химерой», составленной, чаще всего, из узнаваемых фрагментов
различных эталонов (примером «химеры» может служить образ, приведенный на рис.
1 г). Рассмотренный ранее пример с буквами детально иллюстрирует такую ситуацию.
Приведенные
выше соображения позволяют сформулировать требование, детализирующие понятие
«слабо коррелированных образов». Для правильного распознавания всех эталонов
достаточно (но не необходимо) потребовать, чтобы выполнялось следующее неравенство
. Более простое и наглядное, хотя и более сильное условие
можно записать в виде . Из этих условий видно, что, чем больше задано эталонов, тем
более жесткие требования предъявляются к степени их коррелированности, тем
ближе они должны быть к ортогональным.
Рассмотрим
преобразование (3) как суперпозицию двух преобразований:
(5)
Обозначим
через – линейное пространство,
натянутое на множество эталонов. Тогда первое преобразование в (5) переводит
векторы из в . Второе преобразование в (5) переводит результат первого
преобразования в одну из вершин
гиперкуба образов. Легко показать, что второе преобразование в (5) переводит
точку в ближайшую вершину
гиперкуба. Действительно, пусть и две различные вершины
гиперкуба такие, что – ближайшая к , а . Из того, что и различны следует, что
существует множество индексов, в которых координаты векторов и различны. Обозначим
это множество через . Из второго преобразования в (5) и того, что , следует, что знаки координат вектора всегда совпадают со знаками
соответствующих координат вектора . Учитывая различие знаков i-х координат векторов и при можно записать . Совпадение знаков i-х координат векторов и при позволяет записать
следующее неравенство . Сравним расстояния от вершин и до точки
Полученное
неравенство противоречит тому, что
– ближайшая к . Таким образом, доказано, что второе преобразование в (5)
переводит точку в ближайшую вершину
гиперкуба образов.
Для
обеспечения правильного воспроизведения эталонов вне зависимости от степени их
коррелированности достаточно потребовать, чтобы первое преобразование в (5)
было таким, что [67]. Очевидно, что если проектор является ортогональным, то
это требование выполняется, поскольку при , а по определению
множества .
Для
обеспечения ортогональности проектора воспользуемся дуальным множеством
векторов. Множество векторов называется дуальным к
множеству векторов , если все векторы этого множества удовлетворяют
следующим требованиям:
1.
2..
Преобразование
является ортогональным
проектором на линейное пространство .
Ортогональная
сеть ассоциативной памяти преобразует образы по формуле
. (6)
Дуальное
множество векторов существует тогда и только тогда, когда множество векторов линейно независимо.
Если множество эталонов линейно зависимо, то
исключим из него линейно зависимые образы и будем рассматривать полученное
усеченное множество эталонов как основу для построения дуального множества и
преобразования (6). Образы, исключенные из исходного множества эталонов, будут
по-прежнему сохраняться сетью в исходном виде (преобразовываться в самих себя).
Действительно, пусть эталон является линейно
зависимым от остальных эталонов. Тогда его
можно представить в виде . Подставив полученное выражение в преобразование (6) и учитывая
свойства дуального множества получим:
(7)
Рассмотрим
свойства сети (6) [65]. Во-первых, количество запоминаемых и точно
воспроизводимых эталонов не зависит от степени их коррелированности. Во-вторых,
формально сеть способна работать без искажений при любом возможном числе
эталонов (всего их может быть до ). Однако, если число линейно независимых эталонов (т.е. ранг
множества эталонов) равно , сеть становится прозрачной – какой бы образ не предъявили
на ее вход, на выходе окажется тот же образ. Действительно, как было показано в
(7), все образы, линейно зависимые от эталонов, преобразуются проективной
частью преобразования (6) сами в себя. Значит, если в множестве эталонов есть линейно независимых,
то любой образ можно представить в виде линейной комбинации эталонов (точнее линейно независимых
эталонов), а проективная часть преобразования (6) в силу формулы (7) переводит
любую линейную комбинацию эталонов в саму себя.
Если
число линейно независимых эталонов меньше n,
то сеть преобразует поступающий образ, отфильтровывая помехи, ортогональные
всем эталонам.
Отметим,
что результаты работы сетей (3) и (6) эквивалентны, если все эталоны попарно
ортогональны.
Остановимся
несколько подробнее на алгоритме вычисления дуального множества векторов.
Обозначим через матрицу Грама множества
векторов . Элементы матрицы Грама имеют вид (-ый элемент матрицы Грама равен скалярному произведению -го эталона на -ый). Известно, что векторы дуального множества можно записать
в следующем виде:
, (8)
где – элемент матрицы . Поскольку определитель матрицы Грама равен нулю, если
множество векторов линейно зависимо, то матрица, обратная к матрице Грама, а следовательно
и дуальное множество векторов существует только тогда, когда множество эталонов
линейно независимо.
Для работ сети (6) необходимо хранить эталоны и
матрицу .
Рассмотрим процедуру добавления нового эталона к
сети (6). Эта операция часто называется дообучением сети. Важным критерием
оценки алгоритма формирования сети является соотношение вычислительных затрат
на обучение и дообучение. Затраты на дообучение не должны зависеть от числа
освоенных ранее эталонов.
Для сетей Хопфилда это, очевидно, выполняется –
добавление еще одного эталона сводится к прибавлению к функции H одного слагаемого , а модификация связей в сети – состоит в прибавлении к весу ij-й связи числа – всего операций.
Для рассматриваемых сетей с ортогональным
проектированием также возможно простое дообучение. На первый взгляд, это может
показаться странным – если добавляемый эталон линейно независим от старых эталонов,
то вообще говоря необходимо пересчитать матрицу Грама и обратить ее. Однако
симметричность матрицы Грама позволяет не производить заново процедуру
обращения всей матрицы. Действительно, обозначим через – матрицу Грама для
множества из векторов ; через – единичную матрицу
размерности . При обращении матриц методом Гаусса используется следующая
процедура:
1. Запишем матрицу размерности следующего вида: .
2. Используя операции сложения
строк и умножения строки на ненулевое число преобразуем левую квадратную
подматрицу к единичной. В результате получим .
Пусть известна – обратная к матрице
Грама для множества из m векторов . Добавим к этому множеству вектор . Тогда матрица для обращения матрицы методом Гауса будет
иметь вид:
.
После приведения к единичной матрице главного минора
ранга m получится следующая матрица:
,
где – неизвестные
величины, полученные в ходе приведения главного минора к единичной матрице. Для
завершения обращения матрицы необходимо привести к
нулевому виду первые m элементов
последней строки и -о столбца. Для обращения в ноль i-о элемента последней строки необходимо умножить i-ю строку на и вычесть из последней
строки. После проведения этого преобразования получим
,
где , . только если новый
эталон является линейной комбинацией первых m
эталонов. Следовательно . Для завершения обращения необходимо разделить последнюю
строку на и затем вычесть из
всех предыдущих строк последнюю, умноженную на соответствующее номеру строки . В результате получим следующую матрицу
,
где . Поскольку матрица, обратная к симметричной, всегда симметрична
получаем при всех i. Так как следовательно .
Обозначим через вектор , через – вектор . Используя эти обозначения можно записать . Матрица записывается в виде
.
Таким
образом, при добавлении нового эталона требуется произвести следующие операции:
1. Вычислить вектор ( скалярных произведений – операций, ).
2. Вычислить вектор (умножение вектора на
матрицу – операций).
3. Вычислить (два скалярных
произведения – операций).
4. Умножить матрицу на число и
добавить тензорное произведение вектора на себя ( операций).
5. Записать .
Таким
образом эта процедура требует операций. Тогда как
стандартная схема полного пересчета потребует:
1. Вычислить всю матрицу Грама
( операций).
2. Методом Гаусса привести левую
квадратную матрицу к единичному виду ( операций).
3. Записать .
Всего
операций, что в раз больше.
Используя
ортогональную сеть (6), удалось добиться независимости способности сети к
запоминанию и точному воспроизведению эталонов от степени коррелированности
эталонов. Так, например, ортогональная сеть смогла правильно воспроизвести все
буквы латинского алфавита в написании, приведенном на рис. 1.
Основным
ограничением сети (6) является малое число эталонов – число линейно независимых
эталонов должно быть меньше размерности системы .
Для
увеличения числа линейно независимых эталонов, не приводящих к прозрачности
сети, используется прием перехода к тензорным или многочастичным сетям [75, 86,
93, 294].
В
тензорных сетях используются тензорные степени векторов. -ой тензорной степенью вектора будем называть тензор , полученный как тензорное произведение векторов . Поскольку в данной работе тензоры используются только как
элементы векторного пространства, далее будем использовать термин вектор вместо
тензор. Вектор является -мерным вектором. Однако пространство имеет размерность, не
превышающую величину , где – число сочетаний из по . Обозначим через множество -х тензорных степеней всех возможных образов.
Теорема. При в множестве линейно независимыми являются векторов. Доказательство теоремы приведено в последнем разделе данной главы.
|
2 |
|
|||||||||||||||||
|
3 |
4 |
|
||||||||||||||||
|
4 |
7 |
8 |
|
|||||||||||||||
|
5 |
11 |
15 |
16 |
|
||||||||||||||
|
6 |
16 |
26 |
31 |
32 |
|
|||||||||||||
|
7 |
22 |
42 |
57 |
63 |
64 |
|
||||||||||||
|
8 |
29 |
64 |
99 |
120 |
127 |
128 |
|
|||||||||||
|
9 |
37 |
93 |
163 |
219 |
247 |
255 |
256 |
|
||||||||||
|
10 |
46 |
130 |
256 |
382 |
466 |
502 |
511 |
512 |
|
|||||||||
|
|
|
|
|
|
|
|
|
|
||||||||||
Рис. 2. “Тензорный”
треугольник Паскаля |
|||||||||||||||||||
Небольшая модернизация треугольника Паскаля, позволяет легко вычислять эту величину. На рис. 2 приведен «тензорный» треугольник Паскаля. При его построении использованы следующие правила:
1. Первая строка содержит двойку, поскольку при n=2 в множестве X всего два неколлинеарных
вектора.
Таблица 1.
|
2. При переходе к новой строке, первый элемент
получается добавлением единицы к первому элементу предыдущей строки, второй –
как сумма первого и второго элементов предыдущей строки, третий – как сумма второго
и третьего элементов и т.д. Последний элемент получается удвоением последнего
элемента предыдущей строки.
В табл. 1 приведено сравнение трех оценок
информационной емкости тензорных сетей для некоторых значений n и
k. Первая оценка – – заведомо завышена,
вторая – – дается формулой
Эйлера для размерности пространства симметричных тензоров и третья – точное
значение
Как легко видеть из таблицы, уточнение при переходе
к оценке является весьма
существенным. С другой стороны, предельная информационная емкость тензорной
сети (число правильно воспроизводимых образов) может существенно превышать
число нейронов, например, для 10 нейронов тензорная сеть валентности 8 имеет
предельную информационную емкость 511.
Легко
показать, что если множество векторов не содержит противоположно
направленных, то размерность пространства равна числу векторов в
множестве
.
Сеть (2) для случая тензорных сетей имеет вид
, (9)
а ортогональная тензорная сеть
, (10)
где – элемент матрицы .
Рассмотрим
как изменяется степень коррелированности эталонов при переходе к тензорным
сетям (9)
.
Таким
образом при использовании сетей (9) сильно снижается ограничение на степень
коррелированности эталонов. Для эталонов, приведенных на рис.1, данные о
степени коррелированности эталонов для нескольких тензорных степеней приведены
в табл. 2.
Таблица 2
Степени коррелированности эталонов, приведенных на рис. 1, для различных тензорных степеней.
Тензорная степень |
Степень коррелированности |
Условия |
||||
|
|
|
|
|
|
|
1 |
0.74 |
0.72 |
0.86 |
1.46 |
1.60 |
1.58 |
2 |
0.55 |
0.52 |
0.74 |
1.07 |
1.29 |
1.26 |
3 |
0.41 |
0.37 |
0.64 |
0.78 |
1.05 |
1.01 |
4 |
0.30 |
0.26 |
0.55 |
0.56 |
0.85 |
0.81 |
5 |
0.22 |
0.19 |
0.47 |
0.41 |
0.69 |
0.66 |
6 |
0.16 |
0.14 |
0.40 |
0.30 |
0.56 |
0.54 |
7 |
0.12 |
0.10 |
0.35 |
0.22 |
0.47 |
0.45 |
8 |
0.09 |
0.07 |
0.30 |
0.16 |
0.39 |
0.37 |
Анализ данных, приведенных в табл. 2, показывает,
что при тензорных степенях 1, 2 и 3 степень коррелированности эталонов не
удовлетворяет первому из достаточных условий (), а при степенях меньше 8 – вторму ().
Таким
образом, чем выше тензорная степень сети (9), тем слабее становится ограничение
на степень коррелированности эталонов. Сеть (10) не чувствительна к степени
коррелированности эталонов.
Для
того, чтобы при обработке переводить визуальные образов, отличающиеся только
положением в рамке изображения, в один эталон, применяется следующий прием [93].
Преобразуем исходное изображение в некоторый вектор величин, не изменяющихся
при сдвиге (вектор инвариантов). Простейший набор инвариантов дают
автокорреляторы – скалярные произведения образа на сдвинутый образ,
рассматриваемые как функции вектора сдвига.
В
качестве примера рассмотрим вычисление сдвигового автокоррелятора для
черно-белых изображений. Пусть дан двумерный образ размером . Обозначим точки образа как . Элементами автокоррелятора будут величины , где при выполнении любого
из неравенств . Легко проверить, что автокорреляторы любых двух образов,
отличающихся только расположением в рамке, совпадают. Отметим, что при всех , и при выполнении любого
из неравенств . Таким образом, можно считать, что размер автокоррелятора
равен .
Автокорреляторная
сеть имеет вид
. (11)
Сеть
(11) позволяет обрабатывать различные визуальные образы, отличающиеся только
положением в рамке, как один образ.
Подводя
итоги, можно сказать, что все сети ассоциативной памяти типа (2) можно
получить, комбинируя следующие преобразования:
1. Произвольное преобразование.
Например, переход к автокорреляторам, позволяющий объединять в один выходной
образ все образы, отличающиеся только положением в рамке.
2. Тензорное преобразование,
позволяющее сильно увеличить способность сети запоминать и точно воспроизводить
эталоны.
3. Переход к ортогональному
проектору, снимающий зависимость надежности работы сети от степени
коррелированности образов.
Наиболее
сложная сеть будет иметь вид:
, (12)
где – элементы матрицы,
обратной матрице Грама системы векторов , – произвольное
преобразование.
Возможно
применение и других методов предобработки. Некоторые из них рассмотрены в
работах [68, 93, 278]
Работа
ортогональных тензорных сетей при наличии помех сравнивалась с возможностями
линейных кодов, исправляющих ошибки. Линейным кодом, исправляющим k ошибок, называется линейное подпространство
в n-мерном пространстве над GF2, все вектора которого
удалены друг от друга не менее чем на 2k+1.
Линейный код называется совершенным, если для любого вектора n-мерного пространства существует
кодовый вектор, удаленный от данного не более, чем на k. Тензорной сети в качестве эталонов подавались все кодовые
векторы избранного для сравнения кода. Численные эксперименты с совершенными
кодами показали, что тензорная сеть минимально необходимой валентности правильно
декодирует все векторы. Для несовершенных кодов картина оказалась хуже – среди
устойчивых образов тензорной сети появились «химеры» – векторы, не принадлежащие
множеству эталонов.
Таблица 3
Результаты численного
эксперимента.
МР – минимальное расстояние между эталонами, ЧЭ – число эталонов
№ |
Раз- мер- ность |
Число векто- ров |
МР |
ЧЭ |
Валент-ность |
Число химер |
Число ответов |
После обработки сетью расстояние до правильного ответа стало |
|||
верн. |
неверн. |
меньше |
то же |
больше |
|||||||
1 |
10 |
1024 |
3 |
64 |
3¸5 |
896 |
128 |
896 |
0 |
856 |
0 |
2 |
|
|
|
|
7¸21 |
384 |
640 |
384 |
0 |
348 |
0 |
3 |
10 |
1024 |
5 |
8 |
3 |
260 |
464 |
560 |
240 |
260 |
60 |
4 |
|
|
|
|
5¸15 |
230 |
494 |
530 |
240 |
230 |
60 |
5 |
|
|
|
|
17¸21 |
140 |
532 |
492 |
240 |
182 |
70 |
6 |
15 |
32768 |
7 |
32 |
3 |
15456 |
17312 |
15456 |
0 |
15465 |
0 |
7 |
|
|
|
|
5¸21 |
14336 |
18432 |
14336 |
0 |
14336 |
0 |
Таблица 4.
Результаты численного эксперимента
№ |
Число химер, удаленных от ближайшего эталона на: |
Число
неверно распознанных векторов, удаленных от ближайшего эталона на: |
||||||||
|
1 |
2 |
3 |
4 |
5 |
1 |
2 |
3 |
4 |
5 |
1 |
640 |
256 |
0 |
0 |
0 |
896 |
0 |
0 |
0 |
0 |
2 |
384 |
0 |
0 |
0 |
0 |
384 |
0 |
0 |
0 |
0 |
3 |
0 |
210 |
50 |
0 |
0 |
0 |
210 |
290 |
60 |
0 |
4 |
0 |
180 |
50 |
0 |
0 |
0 |
180 |
290 |
60 |
0 |
5 |
0 |
88 |
50 |
2 |
0 |
0 |
156 |
290 |
60 |
0 |
6 |
0 |
0 |
1120 |
13440 |
896 |
0 |
0 |
1120 |
13440 |
896 |
7 |
0 |
0 |
0 |
13440 |
896 |
0 |
0 |
0 |
13440 |
896 |
В случае n=10,
k=1 (см. табл. 3 и 4, строка 1) при
валентностях 3 и 5 тензорная сеть работала как единичный оператор – все входные
вектора передавались на выход сети без изменений. Однако уже при валентности 7
число химер резко сократилось и сеть правильно декодировала более 60% сигналов.
При этом были правильно декодированы все векторы, удаленные от ближайшего
эталона на расстояние 2, а часть векторов, удаленных от ближайшего эталона на
расстояние 1, остались химерами. В случае n=10,
k=2 (см. табл. 3 и 4, строки 3, 4, 5)
наблюдалось уменьшение числа химер с ростом валентности, однако часть химер,
удаленных от ближайшего эталона на расстояние 2 сохранялась. Сеть правильно декодировала
более 50% сигналов. Таким образом при малых размерностях и кодах, далеких от совершенных,
тензорная сеть работает довольно плохо. Однако, уже при n=15, k=3 и валентности,
большей 3 (см. табл. 3 и 4, строки 6, 7), сеть правильно декодировала все
сигналы с тремя ошибками. В большинстве экспериментов число эталонов было
больше числа нейронов.
Подводя
итог можно сказать, что качество работы сети возрастает с ростом размерности
пространства и валентности и по эффективности устранения ошибок сеть приближается
к коду, гарантированно исправляющему ошибки.
В данном разделе приведено доказательство теоремы о числе линейно независимых образов в пространстве k-х тензорных степеней эталонов.
При
построении тензорных сетей используются тензоры валентности k следующего вида:
, (13)
где – n-мерные вектора над полем действительных чисел.
Если
все вектора , то будем говорить о k-й
тензорной степени вектора a, и использовать
обозначение . Для дальнейшего важны следующие элементарные свойства
тензоров вида (13).
1. Пусть и , тогда скалярное произведение этих векторов может быть
вычислено по формуле
. (14)
Доказательство
этого свойства следует непосредственно из свойств тензоров общего вида.
2. Если в условиях свойства 1 вектора
являются тензорными степенями, то скалярное произведение имеет вид:
. (15)
Доказательство
непосредственно вытекает из свойства 1.
3.
Если вектора a и b ортогональны, то есть то и их тензорные степени
любой положительной валентности ортогональны.
Доказательство
вытекает из свойства 2.
4. Если вектора a и b коллинеарны, то
есть , то .
Следствие. Если множество векторов содержит хотя бы одну
пару противоположно направленных векторов, то система векторов будет линейно зависимой
при любой валентности k.
5. Применение к множеству векторов невырожденного линейного
преобразования в пространстве эквивалентно
применению к множеству векторов линейного
невырожденного преобразования, индуцированного преобразованием , в пространстве .
Сюръективным мультииндексом над конечным
множеством L назовем k-мерный вектор, обладающий следующими
свойствами:
1.
для любого существует такое, что ;
2.
для любого существует такое, что .
Обозначим
через число компонент сюръективного
мультииндекса равных i, через – число элементов
множества L, а через – множество всех сюръективных
мультииндексов над множеством L.
Предложение 1. Если вектор a представлен в виде где – произвольные
действительные коэффициенты, то верно следующее равенство
(16)
Доказательство
предложения получается возведением в тензорную степень k и раскрытием скобок с учетом
линейности операции тензорного умножения.
В множестве , выберем множество X следующим образом: возьмем все (n-1)-мерные вектора с координатами ±1, а в качестве n-й координаты во всех векторах возьмем единицу.
Предложение 2. Множество X является
максимальным множеством n-мерных векторов
с координатами равными ±1 и не содержит пар противоположно
направленных векторов.
Доказательство. Из равенства единице последней
координаты всех векторов множества X следует отсутствие пар противоположно
направленных векторов. Пусть x –
вектор с координатами ±1, не входящий в множество
X, следовательно последняя координата вектора x равна минус единице. Так как в множество X включались все (n-1)-мерные вектора с координатами ±1, то среди них найдется вектор, первые n-1 координата которого равны
соответствующим координатам вектора x
со знаком минус. Поскольку последние координаты также имеют противоположные
знаки, то в множестве X нашелся вектор противоположно направленный по отношению
к вектору x. Таким образом множество
X максимально.
Таким образом в множестве X содержится ровно вектор. Каждый вектор можно представить в виде , где . Для нумерации векторов множества X будем использовать мультииндекс I. Обозначим через число элементов в мультииндексе I. Используя введенные обозначения можно разбить множество X на n непересекающихся подмножеств: , .
Теорема. При в множестве линейно независимыми являются
векторов.
Для доказательства этой теоремы потребуется следующая интуитивно очевидная, но не встреченная в литературе лемма.
Лемма. Пусть дана
последовательность векторов
таких, что при всех и при всех i, тогда все вектора множества линейно независимы.
Доказательство. Известно, что процедура ортогонализации Грама приводит к построению ортонормированного множества векторов, а все вектора линейно зависящие от предыдущих векторов последовательности обращаются в нулевые. Проведем процедуру ортогонализации для заданной последовательности векторов.
1.
2. . Причем , так как , и .
...
j. . Причем , так как , при всех , и .
...
Доказательство
теоремы. Произведем линейное преобразование векторов множества
X с матрицей . Легко заметить, что при этом преобразовании все единичные
координаты переходят в единичные, а координаты со значением -1 в нулевые. Таким
образом . По пятому свойству заключаем, что число линейно независимых
векторов в множествах X и Y совпадает. Пусть . Докажем, что при содержит компоненту,
ортогональную всем . Из предложения 1 имеем
. (17)
Представим (17) в виде двух слагаемых:
(18)
Обозначим первую сумму в (18) через . Докажем, что ортогонален ко всем , и второй сумме в (18). Так как , существует . Из свойств сюръективного мультииндекса следует, что все
слагаемые, входящие в содержат в качестве
тензорного сомножителя , не входящий ни в одно тензорное произведение, составляющие
в сумме . Из свойства 2 получаем, что . Аналогично, из того, что в каждом слагаемом второй суммы следует
ортогональность каждому слагаемому второй
суммы в (18) и, следовательно, всей сумме.
Таким образом содержит компоненту ортогональную ко всем и . Множество тензоров удовлетворяет условиям
леммы, и следовательно все тензоры в линейно независимы.
Таким образом, число линейно независимых тензоров в множестве не меньше чем .
Для того, чтобы показать, что число линейно независимых тензоров в множестве не превосходит этой величины достаточно показать, что добавление любого тензора из Y к приводит к появлению линейной зависимости. Покажем, что любой при может быть представлен в виде линейной комбинации тензоров из . Ранее было показано, что любой тензор может быть представлен в виде (17). Разобьем (17) на три суммы:
(19)
Рассмотрим первое слагаемое в (19) отдельно.
.
Заменим в последнем равенстве внутреннюю сумму в
первом слагаемом на тензоры из:
. (20)
Преобразуем второе слагаемое в (19).
(21)
Преобразуя аналогично (21) второе слагаемое в (20) и
подставив результаты преобразований в (19) получим
(22)
В (22) все не замененные на тензоры из слагаемые содержат суммы
по подмножествам множеств мощностью меньше k.
Проводя аналогичную замену получим выражение, содержащее суммы по подмножествам
множеств мощностью меньше k-1 и так
далее. После завершения процедуры в выражении останутся только суммы содержащие
вектора из , то есть будет представлен в
виде линейной комбинации векторов из . Теорема доказана.
В
работе получены следующие основные результаты:
1. Разработана функциональная
модель идеального нейрокомпьютера. Определены принципы выделения функциональных
компонентов. Произведена декомпозиция нейрокомпьютера на функциональные компоненты
в соответствии с предложенными принципами.
2. Разработан принцип
построения нового типа оценок, названный эффективной функцией оценки.
Эффективность предложенного типа оценок состоит в том, что их использование
позволяет ускорить обучение нейронной сети, оценить уровень уверенности нейронной
сети в полученном ответе, обучить с малой надежностью сеть решению тех задач, которые
сеть данной архитектуры не может решить с высокой надежностью, учесть при
обучении различие в достоверности ответов в разных примерах.
3. Разработан метод получения
явных знаний из данных с помощью логически прозрачных нейронных сетей, получаемых
из произвольных обученных сетей специальной процедурой контрастирования. Этот
метод позволяет получить явные зависимости выходных сигналов нейронной сети от
входных. При решении задач классификации в большинстве случаев удается получить
логический вывод.
4. Разработан метод построения
минимально необходимых наборов входных данных и построения на их основе наборов
входных данных повышенной надежности (устойчивости к искажениям во входных
данных). Доказаны теоремы, устанавливающие соотношения между такими наборами,
построенными различными способами.
5. Развит метод описания
процедуры конструирования нейронных сетей из простейших элементов и более
простых сетей. Разработан язык описания результатов конструирования.
6. Получены оценки способности
сети ассоциативной памяти к точному воспроизведению эталонов. В работе
рассмотрена сеть Хопфилда, функционирующая в дискретном времени. Разработаны
методы, позволяющие повысить ее информационную емкость. С помощью этих методов
построены три сети ассоциативной памяти, имеющие большую информационную емкость
и менее зависящие от степени коррелированности эталонов. Предложен метод
конструирования сетей ассоциативной памяти со свойствами, необходимыми для
решения конкретной задачи. Доказана теорема об информационной емкости ортогональной
тензорной сети.
Большинство
полученных результатов были реализованы в ряде программных продуктов,
разработанных под руководством или при участии автора.
Задача прогнозирования шизофрении является актуальной
задачей. Возможность предсказать возникновение шизофрении позволяет организовать
наблюдение врача за потенциальным больным и начать лечение на ранней стадии
заболевания.
Обучающая выборка по прогнозированию шизофрении содержала
219 записей о пациентах. Входные данные – ответы на 185 вопросов. Каждый вопрос
подразумевает ответ «Да» или «Нет». Каждому пациенту был сопоставлен диагноз –
«здоров», «доброкачественная шизофрения» или «патологическая шизофрения».
В результате обучения серии нейронных сетей удалось
установить, что линейное разделение всех трех групп больных возможно по 40 входным
параметрам. Разделение трех групп больных с помощью нелинейных нейронных сетей
возможно при использовании 18 признаков. Однако наиболее простое (в смысле
интерпретации) решение было получено при использовании 67 признаков. Для набора
из 67 признаков решение было получено в виде правил логического вывода.
Приведем список признаков, используемых при решении задачи. Нумерация приведена
в соответствии с нумерацией в исходной таблицей данных.
1 Прадед по
материнской линии – русский.
3 Прадед по
материнской линии – выходец из крестьян.
4 Прабабка
по материнской линии – вышла из крестьян.
5 Прадед по
материнской линии – выходец из рабочих.
8 Прабабка
по материнской линии – вышла из интеллигенции.
9 Прадед по
материнской линии –неграмотный
10 Прабабка по
материнской линии –неграмотная.
12 Прабабка по
материнской линии – имела начальное образование.
20 Прабабка по
материнской линии – жила на селе.
21 Прадед по
материнской линии – переехал в город.
22 Прабабка по
материнской линии – переехала в город.
23 Прадед по
материнской линии – переехал в село.
29 Прадед по
материнской линии – руководитель.
32 Прабабка по
материнской линии – была в браке и разводилась.
35 У прадеда и
прабабки по материнской линии был 1 ребенок.
36 У прадеда и
прабабки по материнской линии было 2 детей.
37 У прадеда и
прабабки по материнской линии было более 2 детей.
38 Прадед по
отцовской линии – русский.
39 Прабабка по
отцовской линии – русская.
41 Прабабка по
отцовской линии – вышла из крестьян.
45 Прабабка по
отцовской линии – вышла из интеллигенции.
46 Прадед по
отцовской линии –неграмотный.
50 Прадед по
отцовской линии – имел среднее образование.
53 Прабабка по
отцовской линии – имела высшее образование.
58 Прадед по
отцовской линии – переехал в город.
60 Прадед по
отцовской линии – переехал в село.
62 Прадед по
отцовской линии – прожил в одной республике.
64 Прадед по
отцовской линии – прожил в одной области.
65 Прабабка по
отцовской линии – прожила в одной республике.
67 Прабабка по
отцовской линии – руководитель.
72 У прадеда и
прабабки по отцовской линии был 1 ребенок.
75 У прадеда и
прабабки по отцовской линии было более 2 детей.
77 Дед по
материнской линии – выходец из крестьян.
78 Бабка по
материнской линии – вышла из крестьян.
84 Бабка по
материнской линии – неграмотная.
86 Бабка по
материнской линии – имела начальное образование.
88 Бабка по
материнской линии – имела среднее образование.
91 Дед по
материнской линии – родился в селе.
93 Дед по
материнской линии – прожил в селе.
95 Дед по
материнской линии – переехал в город.
98 Бабка по
материнской линии –переехала в село.
99 Дед по
материнской линии – прожил в одной республике.
100 Бабка по
материнской линии – прожила в одной республике.
101 Дед по
материнской линии – прожил в одной области.
102 Бабка по
материнской линии – прожила в одной области.
103 Дед по
материнской линии –руководитель.
106 Бабка по
материнской линии – состояла в браке и разводилась.
109 У деда и бабки
по материнской линии был 1 ребенок.
110 У деда и
бабки по материнской линии было 2 детей.
113 Бабка по
отцовской линии – русская.
119 Бабка по
отцовской линии – вышла из интеллигенции.
123 Бабка по
отцовской линии – имела начальное образование.
126 Дед по
отцовской линии – имел высшее образование.
127 Бабка по
отцовской линии – имела высшее образование.
134 Дед по
отцовской линии – переехал в село.
136 Дед по
отцовской линии – прожил в одной республике.
137 Бабка по
отцовской линии – прожила в одной республике.
142 Дед по
отцовской линии – состоял в браке и был разведен.
148 У деда и
бабки по отцовской линии было более 2 детей.
165 Отец родился
в селе.
170 Мать
переехала в город.
171 Отец –
перехал в село.
172 Мать
переехала в село.
173 Отец –
прожил в одной республике.
175 Отец –
прожил в одной области.
177 Отец –
руководитель.
185 У отца и
матери более 2 детей.
После выполнения всех процедур контрастирования
получилась следующая сеть, ставящая диагноз здоров (Рис. 1).
Из рис.1. видно, что постановка диагноза «здоров»
определяется по совокупности 13 синдромов. Двенадцать синдромов являются
масками пар признаков, а один – отдельным признаком. Содержательная психологическая
интерпретация выполнена специалистом психологом, и не является заслугой автора
или нейронной сети. Поэтому интерпретация данного логического вывода в данной
работе не приводится.
Рис. 1. Сеть,
ставящая диагноз «Здоров». Знаком «–» отмечены инвертирующие сигнал связи
(Not-связи). |
На рис. 2 и рис. 3 приведены сети, ставящие диагноз
«доброкачественная шизофрения» или «патологическая шизофрения». Особенностью
этих сетей является то, что одним из входных признаков является выход сети, приведенной
на рис. 1. Содержательная интерпретация этой особенности состоит в том, что
прямо с помощью сетей можно определить только соответствие норме (диагноз
«здоров»). В случае, если пациенту не поставлен диагноз здоров, сетями 2 и 3
определяется степень патологии.
В сети на рис. 2, ставящей диагноз «доброкачественная
шизофрения», используются 4 отдельных параметра (симптома). Тринадцать пар
параметров, над каждой из которых выполнена операция логического «И», задают
тринадцать синдромов первого уровня. Логическая сумма («ИЛИ») четырех симптомов
и тринадцати синдромов задают синдром второго уровня – склонность к шизофрении.
Логическое умножение («И») этого синдрома на отрицание диагноза «здоров» дает
диагноз «доброкачественная шизофрения».
Рис. 2. Сеть, ставящая
диагноз «доброкачественная шизофрения». Знаком «–» отмечены инвертирующие
сигнал связи (Not-связи). |
Рис. 3. Сеть, ставящая
диагноз «патологическая шизофрения». Знаком «–» отмечены инвертирующие сигнал
связи (Not-связи). |
В сети на рис. 3, ставящей диагноз «патологическая
шизофрения», используются четырнадцать пар параметров. Результат выполненной
над каждой парой операции логического «И» задает синдром первого уровня. Всего
таких синдромов четырнадцать. Логическая сумма («ИЛИ») четырнадцати синдромов
первого уровня задают синдром второго уровня – склонность к паталогической
шизофрении. Логическое умножение («И») этого синдрома на отрицание диагноза
«здоров» дает диагноз «патологическая шизофрения».
Полученные сети позволяют записать явный алгоритм
решения задачи. По сути, они сами являются алгоритмом логического вывода.
Данные сети получены с помощью программы NeuroPro [237].
В
данном приложении приведено кратное описание программы NeuroPro, разработанной В.Г.
Царегородцевым под руководством автора [237].
Программа NeuroPro
0.25 является свободно распространяемой бета-версией разрабатываемого
программного продукта для работы с нейронными сетями и производства знаний из
данных с помощью обучаемых искусственных нейронных сетей. Введение в нейроинформатику,
основные термины, алгоритмы и технология производства знаний из данных в настоящем
документе не воспроизводятся.
Процессор Intel Pentium
Монитор SVGA с разрешением 800*600 точек
и выше
Операционная система Microsoft Windows
95 или Microsoft Windows NT 4.0
1. Создание нейропроекта;
2. Подключение к нейропроекту
файла (базы) данных;
3. Редактирование файла данных;
4. Добавление в нейропроект
нейронной сети слоистой архитектуры с числом слоев нейронов от 1 до 10, числом
нейронов в слое – до 100 (число нейронов для каждого слоя сети может задаваться
отдельно);
5. Выбор алгоритма обучения,
назначение требуемой точности прогноза, настройка параметров нейронной сети;
6. Обучение нейронной сети
решению задачи предсказания или классификации;
7. Тестирование нейронной сети
на файле данных;
8. Вычисление показателей
значимости каждого из входных сигналов для решения задачи, сохранение
вычисленных показателей значимости в файле на диске;
9. Упрощение нейронной сети;
10. Генерация и визуализация
вербального описания нейронной сети. Редактирование и сохранение вербального
описания нейронной сети в файле на диске;
11. Сохранение нейропроекта на
диске.
В качестве файлов данных
(содержащих обучающую выборку для нейронных сетей) используются файлы форматов DBF
(форматы пакетов Dbase, FoxBase, FoxPro, Clipper) и DB (Paradox). Возможно чтение и редактирование
этих файлов и сохранение измененных файлов на диске. Программа не накладывает ограничений
на число записей (строк) в файле данных.
Файлы нейропроекта имеют
уникальный формат, поддерживаемый только настоящей программой. В следующих
версиях возможно изменение этого формата без сохранения совместимости с
настоящей версией.
Файлы вербального описания
сети, результатов тестирования нейросети,
показателей значимости входных сигналов имеют стандартный ASCII-формат
текстовых файлов данных и могут читаться всеми программами-редакторами текстов
и импортироваться в электронные таблицы.
На настоящий момент имеется
возможность работы только со слоистыми и слоистыми монотонными нейронными
сетями с числом слоев нейронов от 1 до 10, числом нейронов в слое – до 100.
Число нейронов в слое не зависит от числа входных сигналов и числа выходных
сигналов. После последнего слоя нейронов сеть имеет слой адаптивных сумматоров
с числом сумматоров, равных числу выходных сигналов, с которых и снимаются выходные
сигналы сети.
Число входных и выходных
сигналов сети ограничено максимальным числом полей в файле данных и не может в
сумме превышать 255 или 511 (в зависимости от файла данных) сигналов. Каждому
входному и выходному сигналу соответствует поле в файле данных. Однако, при
обработке качественных признаков (см. Раздел 8), каждому входному или выходному
полю могут соответствовать несколько входных или выходных сигналов сети.
Веса синапсов при обучении
могут изменяться в диапазоне [-1,1], при создании сети инициируются случайными
числами.
Нелинейная функция нейрона
имеет вид f(A)=A/(c+|A|),
где c - параметр крутизны переходного
участка сигмоидной функции, который задается при создании сети в диапазоне
[0.0001,1] и не изменяется при обучении. Параметр крутизны можно задавать
отдельно для каждого слоя сети.
Нейронная сеть может
обрабатывать только поля в файле данных, содержащие числовые значения. Из всего
набора полей в файле данны можно выбрать отдельные поля для обработки
нейросетью.
Обрабатываемые поля могут
быть непрерывными (количественными) и дискретнозначными (качественными).
Каждое количественное поле в
файле данных будет соответствовать одному входному или выходному сигналу сети.
Перед подачей количественных входных полей нейронной сети происходит их
нормировка в диапазон значений [-1,1] по каждому полю. Выходные сигналы сети
нормируются в диапазон истинных значений.
Каждому качественному полю
может соответствовать от 2 до 20 входных или выходных сигналов сети (зависит от
числа дискретных состояний, которых может принимать данное поле). Дискретные
состояния могут задаваться не только отдельными значениями, но и интервалами
значений. Входные сигналы сети при обработке качественных признаков принимают
значения -1 либо 1. Для каждого выходного качественного признака строится
правило принадлежности его к тому или иному дискретному состоянию, основываясь
на значениях выходных сигналов сети для каждого его дискретного состояния.
Правило подачи и интерпретации качественных признаков может меняться в
зависимости от того, обладают ли состояния качественного признака отношением
упорядоченности и предшествования (например, состояния качественного признака,
соответствующие тому или иному направлению ветра ("Север", "Запад",
"Юг", "Восток") отношением предшествования не обладают, а
состояния при кодировании качественным признаком степени тяжести заболевания -
обладают отношением упорядоченности и предшествования (более тяжелой стадии
всегда предшествовала более легкая).
Нейросеть может решать
одновременно несколько задач как прогнозирования (предсказания значений
нескольких количественных признаков), так и задачи классификации (предсказания
состояний нескольких качественных признаков), так и задачи прогнозирования и
классификации одновременно.
Для каждой из задач могут
быть установлены свои требования к точности.
Для прогнозируемого
качественного признака точность означает максимально допустимое отклонение
прогноза сети от истинного значения признака. Желательно задавать как можно
менее жесткие требования к точности. Это ускорит как процесс обучения, так и
процесс упрощения сети. Также задачу можно будет решить на основе нейронной
сети с меньшим числом слоев или нейронов, и, обычно, на основании меньшего
числа входных сигналов. Требуемая точность ни в коем случае не должна превосходить
погрешностей получения сигнала (погрешностей измерительных приборов,
погрешностей огрубления значений при вводе их в компьютер). Так, если значение
признака изменяется в диапазоне [0,10] и измерительный прибор имеет собственную
точность ±0.1, то нельзя требовать от сети предсказания с точностью ±0.01.
Для качественного признака
точность (надежность) означает уверенность в принадлежности качественного
признака тому или иному дискретному состоянию. Чем больше уровень требуемый
уверенности, тем более надежно должна сеть диагностировать отличия каждого
дискретного состояния от других.
Обучение нейронной сети на некотором задачнике
производится градиентными методами оптимизации, градиент вычисляется по
принципу двойственности. В программе реализованы четыре алгоритма оптимизации:
-
Градиентный спуск.
-
Модифицированный ParTan.
-
Метод сопряженных градиентов.
-
Квазиньютоновский BFGS-метод.
При создании нейропроекта в качестве алгоритма по
умолчанию принимается ParTan.
Примеру задачника соответствует запись (строка) файла
данных. Для включения записи файла данных в задачник в записи должны присутствовать
данные для всех полей, используемых нейронной сетью в качестве входных и
выходных.
Обучение прекращается при достижении заданной
точности решения задачи либо при невозможности дальнейшей оптимизации.
Упрощение нейронной сети выполняется на основе
вычисленных показателей значимости. Показатели значимости вычисляются в пяти
точках в пространстве адаптивных параметров сети и усредняются в одной из норм.
Процедура упрощения строится как последовательное
исключение из сети наименее значимого входного сигнала или элемента сети,
дальнейшее дообучение сети и исключение другого сигнала или элемента, если
удалось дообучить сеть до заданной пользователем точности. В противном случае
процедура упрощения останавливается.
Предоставляются следующие возможности по упрощению
сети:
-
Сокращение числа входных сигналов.
-
Сокращение числа нейронов сети.
-
Сокращение числа синапсов сети.
-
Сокращение числа неоднородных (пороговых) входов нейронов сети.
-
Равномерное упрощение сети, чтобы на каждый нейрон сети приходило не
более n сигналов.
-
Бинаризация весов синапсов и неоднородных входов сети. Бинаризованные
синапсы и неоднородные входы в дальнейшем не обучаются.
Сокращение входных сигналов и нейронов может достигаться и при выполнении других операций по упрощению сети, а не только при целенаправленном сокращении именно входных сигналов и нейронов.
Нейрон сети считается удаленным, если у него удалены
все выходы или его сигнал не используется нейронами следующего слоя.
Входной сигнал считается удаленным, если удалены все
синапсы, по которым этот сигнал поступал на нейроны первого слоя сети.
Удаленные при упрощении элементы физически остаются
в нейронной сети, но при генерации вербального описания сети не вносятся в вербальное
описание.
При генерации вербального описания в тексте
перечисляются используемые поля файла данных, правила их предобработки для
подачи сети, описание нелинейных функций нейронов, функционирование нейронной
сети послойно и понейронно, правила нормировки выходных сигналов сети в
диапазон истинных значений. Сигналам, генерируемым нейронами сети,
присваиваются некоторые имена и в дальнейшем пользователь при анализе сети
может именовать эти сигналы в терминах проблемной области.
Получив вербализованное описание нейронной сети,
пользователь может попытаться восстановить правила, сформированные сетью для решения
задачи – записать на естественном языке алгоритм решения неформализованной задачи
предсказания или классификации.
В
данном приложении приведены акт о внедрении результатов диссертации и разработанного
автором пакета программ в учебный процесс. Кроме того, здесь приведены акты о
внедрении разработанного под руководством автора программного обеспечения в
эксплуатацию.
В
1996-2000 годах по проекту «Разработка и программная реализация технологии
производства явных знаний из данных с помощью обучаемых нейронных сетей» №
05.04.1291 подпрограммы «Перспективные информационные технологии» Федеральной
целевой программы на 1996-2000 годы «Исследования и разработки по приоритетным
направлениям развития науки и техники гражданского назначения» под руководством
автора были разработаны три программы FAMaster [186] (А.А.Россиев), NeuroPro
[237] (В.Г.Царегородцев) и GISNNA [180] (А.А.Питенко).
1.
Айвазян С.А., Бежаева З.И., Староверов О.В. Классификация многомерных наблюдений.-
М.: Статистика, 1974.- 240 с.
2.
Айзерман М.А., Браверман Э.М., Розоноэр Л.И. Метод потенциальных
функций в теории обучения машин.- М.: Наука, 1970.- 383 с.
3.
Анастази А. Психологическое тестирование.- М. Педагогика, 1982. Книга
1.- 320 с.; Книга 2.- 360 с.
4.
Андерсон Т. Введение в многомерный статистический анализ.- М.: Физматгиз,
1963.- 500 с.
5.
Андерсон Т. Статистический анализ временных рядов.- М.: Мир, 1976.- 755
с.
6.
Ануфриев А.Ф. Психодиагностика как деятельность и научная дисциплина //
Вопросы психологии.- 1994.- № 2.- С.123-130.
7.
Аркадьев А.Г., Браверман Э.М. Обучение машины классификации объектов.-
М.: Наука, 1971.- 172 с.
8.
Барцев С.И. Некоторые свойства адаптивных сетей.- Красноярск, 1987.- 17
с. (Препринт / ИФ СО АН СССР; №71Б)
9.
Барцев С.И., Гилев С.Е., Охонин В.А. Принцип двойственности в организации
адаптивных систем обработки информации // Динамика химических и биологических
систем.- Новосибирск: Наука, 1989.- С.6-55.
10.
Барцев С.И., Ланкин Ю.П. Моделирование аналоговых адаптивных сетей.-
Красноярск, 1993.- 36 с. (Препринт / ИБФ СО РАН; № 203Б)
11.
Барцев С.И., Ланкин Ю.П. Сравнительные свойства адаптивных сетей с
полярными и неполярными синапсами.- Красноярск, 1993.- 26 с. (Препринт / ИБФ СО
РАН; № 196Б)
12.
Барцев С.И., Машихина Н.Ю., Суров С.В. Нейронные сети: подходы к
аппаратной реализации.- Красноярск, 1990.- 14 с. (Препринт / ИФ СО АН СССР; №
122Б)
13.
Барцев С.И., Охонин В.А. Адаптивные сети обработки информации.-
Красноярск, 1986.- 20 с. (Препринт / ИФ СО АН СССР; №59Б)
14.
Барцев С.И., Охонин В.А. Адаптивные сети, функционирующие в непрерывном
времени // Эволюционное моделирование и кинетика.- Новосибирск: Наука, 1992.-
С.24-30.
15.
Беркинблит М.Б., Гельфанд И.М., Фельдман А.Г. Двигательные задачи и
работа параллельных программ // Интеллектуальные процессы и их моделирование. Организация
движения.- М.: Наука, 1991.- С.37-54.
16.
Биотехника - новое направление компьютеризации. Серия «Теоретическая и
прикладная биофизика» / Ахапкин Ю.К., Всеволдов Н.И., Барцев С.И. и др.- М:
Изд-во ВИНИИТИ, 1990.- 144 с.
17.
Боннер Р.Е. Некоторые методы классификации // Автоматический анализ
изображений.- М.: Мир, 1969.- С.205-234.
18.
Борисов А.В., Гилев С.Е., Головенкин С.Е., Горбань А.Н., Догадин С.А.,
Коченов Д.А., Масленникова Е.В., Матюшин Г.В., Миркес Е.М., Ноздрачев К.Г.,
Россиев Д.А., Савченко А.А., Шульман В.А. Нейроимитатор «MultiNeuron» и его
применения в медицине. // Математическое обеспечение и архитектура ЭВМ:
Материалы научно-технической конференции «Проблемы техники и технологий XXI века»,
22-25 марта 1994 г.- Красноярск, 1994. С.14-18.
19.
Браверман Э.М., Мучник И.Б. Структурные методы обработки эмпирирических
данных. - М.: Наука. Главная редакция физико-математической литературы, 1983.-
464 с.
20.
Бурлачук Л.Ф., Коржова Е.Ю. К построению теории «измеренной индивидуальности»
в психодиагностике // Вопросы психологии.- 1994.- № 5. С.5-11.
21.
Вавилов Е.И., Егоров Б.М., Ланцев В.С., Тоценко В.Г. Синтез схем на пороговых
элементах.- М.: Сов. радио, 1970.- 250 с.
22.
Вапник В.Н., Червоненкис А.Ф. Теория распознавания образов.- М.: Наука,
1974.- 398 с.
23.
Веденов А.А. Моделирование элементов мышления.- М.: Наука, 1988.- 435
с.
24.
Гаврилова Т.А., Червинская К.Р., Яшин А.М. Формирование поля знаний на
примере психодиагностики // Изв. АН СССР. Техн. Кибернетика.- 1988.- № 5.-
С.72-85.
25.
Галушкин А.И. Нейрокомпьютеры. Кн. 3: Учеб. пособие для вузов.- М.:
ИПРЖР, 2000.- 528 с.
26.
Галушкин А.И. Теория нейронных сетей. Кн. 1: Учеб. пособие для вузов.-
М.: ИПРЖР, 2000.- 416 с.
27.
Галушкин А.И. Синтез многослойных схем распознавания образов. - М.:
Энергия, 1974.- 376 с.
28.
Галушкин А.И., Фомин Ю.И. Нейронные сети как линейные последовательные
машины. - М.: Изд-во МАИ, 1991.-493 с.
29.
Гельфанд И.М., Цетлин М.Л. О математическом моделировании механизмов центральной
нервной системы // Модели структурно-функциональной организации некоторых
биологических систем.- М.: Наука, 1966.- С.9-26.
30.
Гилев С.Е. Forth-propagation - метод вычисления градиентов оценки //
Нейроинформатика и ее приложения: Тез. докл. 2 Всероссийского рабочего
семинара.- Красноярск, 1994.- С.36-37.
31.
Гилев С.Е. Автореф. дисс…. канд.физ.-мат. наук / Красноярск, КГТУ,
1997.- 20 с.
32.
Гилев С.Е. Алгоритм сокращения нейронных сетей, основанный на
разностной оценке вторых производных целевой функции // Нейроинформатика и ее
приложения: Тез. докл. 5 Всероссийского рабочего семинара.- Красноярск, 1997.-
С.45-46.
33.
Гилев С.Е. Гибрид сети двойственности и линейной сети // Нейроинформатика
и нейрокомпьютеры: Тез. докл. рабочего семинара 8-11 октября 1993 г.-
Красноярск, 1993.- С.25.
34.
Гилев С.Е. Метод получения градиентов оценки по подстроечным параметрам
без использования back propagation // Нейроинформатика и ее приложения:
Материалы III Всероссийского семинара, 6-8 октября 1995 г. Ч. 1.- Красноярск,
1995. С. 91-100.
35.
Гилев С.Е. Нейросеть с квадратичными сумматорами // Нейроинформатика и
нейрокомпьютеры: Тез. докл. рабочего семинара 8-11 октября 1993 г.- Красноярск,
1993.- С.11-12.
36.
Гилев С.Е. Сравнение методов обучения нейронных сетей // Нейроинформатика
и ее приложения: Тез. докл. 3 Всероссийского рабочего семинара.- Красноярск,
1995.- С.80-81.
37.
Гилев С.Е. Сравнение характеристических функций нейронов // Нейроинформатика
и ее приложения: Тез. докл. 3 Всероссийского рабочего семинара.- Красноярск,
1995.- С.82
38.
Гилев С.Е., Горбань А.Н. Плотность полугрупп непрерывных функций //
Нейроинформатика и ее приложения: Тез. докл. 4 Всероссийского рабочего
семинара.- Красноярск, 1996.- С.7-9.
39.
Гилев С.Е., Горбань А.Н. О полноте класса функций, вычислимых нейронными
сетями // Второй Сибирский конгресс по Прикладной и Индустриальной Математике,
посвященный памяти А.А.Ляпунова (1911-1973), А.П.Ершова (1931-1988) и
И.А.Полетаева (1915-1983): Тез. докл., часть 1.- Новосибирск, 1996.- С.6.
40.
Гилев С.Е., Горбань А.Н., Миркес Е.М. Малые эксперты и внутренние
конфликты в обучаемых нейронных сетях // Доклады Академии Наук СССР.- 1991.-
Т.320, N.1.- С.220-223.
41.
Гилев С.Е., Горбань А.Н., Миркес Е.М., Коченов Д.А., Россиев Д.А.
Определение значимости обучающих параметров для принятия нейронной сетью
решения об ответе // Нейроинформатика и нейрокомпьютеры: Тез. докл. рабочего
семинара 8-11 октября 1993 г.- Красноярск, 1993.- С.8.
42.
Гилев С.Е., Горбань А.Н., Миркес Е.М., Коченов Д.А., Россиев Д.А.
Нейросетевая программа MultiNeuron // Нейроинформатика и нейрокомпьютеры: Тез.
докл. рабочего семинара 8-11 октября 1993 г.- Красноярск, 1993.- С.9.
43.
Гилев С.Е., Горбань А.Н., Миркес Е.М., Новоходько А.Ю. Пакет программ
имитации различных нейронных сетей // Нейроинформатика и нейрокомпьютеры: Тез.
докл. рабочего семинара 8-11 октября 1993 г.- Красноярск, 1993.- С.7.
44.
Гилев С.Е., Коченов Д.А., Миркес Е.М., Россиев Д.А. Контрастирование,
оценка значимости параметров, оптимизация их значений и их интерпретация в
нейронных сетях // Нейроинформатика и ее приложения: Материалы III
Всероссийского семинара, 6-8 октября 1995 г. Ч. 1.- Красноярск: Изд-во КГТУ,
1995.- С. 66-78.
45.
Гилев С.Е., Миркес Е.М. Обучение нейронных сетей // Эволюционное
моделирование и кинетика.- Новосибирск: Наука, 1992.- С.9-23.
46.
Гилев С.Е., Миркес Е.М., Новоходько А.Ю., Царегородцев В.Г., Чертыков
П.В. Проект языка описания нейросетевых автоматов // Нейроинформатика и ее
приложения: Тез. докл. 2 Всероссийского рабочего семинара.- Красноярск, 1994.-
С.35.
47.
Гилева Л.В., Гилев С.Е., Горбань А.Н. Нейросетевой бинарный классификатор
«CLAB» (описание пакета программ).- Красноярск, 1992.- 25 с. (Препринт / ИБФ СО
РАН; № 194 Б)
48.
Гилл Ф., Мюррей У., Райт М. Практическая оптимизация.- М.: Мир, 1985.-
509 с.
49.
Головенкин С.Е., Горбань А.Н., Шульман В.А., Россиев Д.А., Назаров
Б.Н., Мосина В.А., Зинченко О.П., Миркес Е.М., Матюшин Г.В., Бугаенко Н.Н. База
данных для апробации систем распознавания и прогноза: осложнения инфаркта
миокарда // Нейроинформатика и ее приложения: Тез. докл. 5 Всероссийского
рабочего семинара.- Красноярск, 1997.- С.47.
50.
Головенкин С.Е., Назаров Б.В., Матюшин Г.В., Россиев Д.А., Шевченко
В.Ф., Зинченко О.П., Токарева И.М. Прогнозирование возникновения мерцательной
аритмии в острый и подострый периоды инфаркта миокарда с помощью компьютерных
нейронных сетей // Актуальные проблемы реабилитации больных с
сердечно-сосудистыми заболеваниями. Тез. докл. симпозиума 18-20 мая 1994 г.-
Красноярск.1994.- С.28.
51.
Головенкин С.Е., Россиев Д.А., Назаров Б.В., Шульман В.А., Матюшин
Г.В., Зинченко О.П. Прогнозирование возникновения фибрилляции предсердий как
осложнения инфаркта миокарда с помощью нейронных сетей // Диагностика,
информатика и метрология – 94: Тез. докл. научно-технической конференции (г.
Санкт-Петербург, 28-30 июня 1994 г.).- С.-Петербург, 1994.- С.349.
52.
Головенкин С.Е., Россиев Д.А., Шульман В.А., Матюшин Г.В., Шевченко
В.Ф. Прогнозирование сердечной недостаточности у больных со сложными
нарушениями сердечного ритма с помощью нейронных сетей // Диагностика,
информатика и метрология - 94.- Тез. докл. научно-технической конференции (г.
Санкт-Петербург, 28-30 июня 1994 г.).- С.-Петербург, 1994.- С.350-351.
53.
Голубь Д.Н., Горбань А.Н. Многочастичные сетчатки для ассоциативной
памяти // Второй Сибирский конгресс по Прикладной и Индустриальной Математике,
посвященный памяти А.А.Ляпунова (1911-1973), А.П.Ершова (1931-1988) и
И.А.Полетаева (1915-1983): Тез. докл., часть 3.- Новосибирск, 1996.- С.271.
54.
Горбань А.Н. Алгоритмы и программы быстрого обучения нейронных сетей.
// Эволюционное моделирование и кинетика.- Новосибирск: Наука, 1992.- С.36-39.
55.
Горбань А.Н. Быстрое дифференцирование сложных функций и обратное распространение
ошибки // Нейроинформатика и ее приложения: Тез. докл. 5 Всероссийского
семинара.- Красноярск, 1997.- С.54-56.
56.
Горбань А.Н. Быстрое дифференцирование, двойственность и обратное
распространение ошибки // Нейроинформатика.- Новосибирск: Наука, Сибирская
издательская фирма РАН, 1998.- С.73-100.
57.
Горбань А.Н. Возможности нейронных сетей // Нейроинформатика.-
Новосибирск: Наука, Сибирская издательская фирма РАН, 1998.- С.18-46.
58.
Горбань А.Н. Двойственность в сетях автоматов // Нейроинформатика и ее
приложения: Тез. докл. 3 Всероссийского семинара.- Красноярск, 1995.- С.32-66.
59.
Горбань А.Н. Мы предлагаем для контроля качества использовать
нейрокомпьютеры // Стандарты и качество.- 1994.- № 10.- С.52.
60.
Горбань А.Н. Нейрокомп // Нейроинформатика и ее приложения: Материалы
III Всероссийского семинара, 6-8 октября 1995 г. Ч. 1.- Красноярск, 1995.-
С.3-31.
61.
Горбань А.Н. НейроКомп или 9 лет нейрокомпьютерных исследований в
Красноярске // Актуальные проблемы информатики, прикладной математики и
механики, ч. 3.- Новосибирск, 1996.- С.13 - 37.
62.
Горбань А.Н. Нейрокомпьютер, или Аналоговый ренессанс // Мир ПК.-
1994.- № 10.- С.126-130.
63.
Горбань А.Н. Обобщение аппроксимационной теоремы Cтоуна // Нейроинформатика
и ее приложения: Тез. докл. 5 Всероссийского семинара.- Красноярск, 1997.-
С.59-62.
64.
Горбань А.Н. Обобщенная аппроксимационная теорема и вычислительные
возможности нейронных сетей // Сибирский журнал вычислительной математики.-
1998.- Т. 1, № 1. - С.11-24.
65.
Горбань А.Н. Обучение нейронных сетей. М.: Изд-во СССР-США СП
«ParaGraph», 1990.- 160 с.
66.
Горбань А.Н. Проблема скрытых параметров и задачи транспонированной
регрессии // Нейроинформатика и ее приложения: Тез. докл. 5 Всероссийского
семинара.- Красноярск, 1997.- С.57-58.
67.
Горбань А.Н. Проекционные сетчатки для обработки бинарных изображений.
// Математическое обеспечение и архитектура ЭВМ: Материалы научно-технической
конференции «Проблемы техники и технологий XXI века», 22-25 марта 1994 г.-
Красноярск, 1994.- С.50-54.
68.
Горбань А.Н. Размытые эталоны в обучении нейронных сетей // Нейроинформатика
и ее приложения: Тез. докл. 2 Всероссийского семинара.- Красноярск, 1994.-
С.6-9.
69.
Горбань А.Н. Решение задач нейронными сетями // Нейроинформатика.-
Новосибирск: Наука, Сибирская издательская фирма РАН.- 1998.- С.47-72.
70.
Горбань А.Н. Точное представление многочленов от нескольких переменных
с помощью линейных функций, операции суперпозиции и произвольного нелинейного
многочлена от одного переменного // Нейроинформатика и ее приложения: Тез.
докл. 5 Всероссийского семинара.- Красноярск, 1997.- С.63-65.
71.
Горбань А.Н. Этот дивный новый компьютерный мир. Заметки о
нейрокомпьютерах и новой технической революции // Математическое обеспечение и
архитектура ЭВМ: Материалы научно-технической конференции «Проблемы техники и
технологий XXI века», 22-25 марта 1994 г.- Красноярск, 1994.- С.42-49.
72.
Горбань А.Н., Вашко Т.А., Миркес Е.М. Алгоритмы поиска дублирующих
признаков. / Институт вычислительного моделирования СО РАН в г. Красноярске.-
Красноярск, 2000.- 42 с. (Деп. в ВИНИТИ 24.05.00, № 1501-800)
73.
Горбань А.Н., Дружинина Н.В., Россиев Д.А. Нейросетевая интерпретация
спектрофотометрического способа исследования содержания меланина в ресницах и
подсчет значимости обучающих параметров неросети с целью диагностики увеальных
меланом // Нейроинформатика и ее приложения: Тез. докл. 4 Всероссийского
семинара.- Красноярск, 1996.- С.94.
74.
Горбань А.Н., Кошур В.Д. Нейросетевые модели и методы решения задач
динамики сплошных сред и физики взаимодействующих частиц // 10 Зимняя школа по
механике сплошных сред: Тез. докл.- Екатеринбург, 1995.- С.75-77.
75.
Горбань А.Н., Миркес Е.М. Информационная емкость тензорных сетей //
Нейроинформатика и ее приложения: Тез. докл. 4 Всероссийского семинара.-
Красноярск, 1996.- С.22-23.
76.
Горбань А.Н., Миркес Е.М. Кодирование качественных признаков для
нейросетей // Нейроинформатика и ее приложения: Тез. докл. 2 Всероссийского
семинара.- Красноярск, 1994.- С.29.
77.
Горбань А.Н., Миркес Е.М. Компоненты нейропрограмм // Нейроинформатика
и ее приложения: Тез. докл. 3 Всероссийского семинара.- Красноярск, 1995.- С.17
78.
Горбань А.Н., Миркес Е.М. Контрастирование нейронных сетей // Нейроинформатика
и ее приложения: Тез. докл. 3 Всероссийского семинара.- Красноярск, 1995.-
С.78-79
79.
Горбань А.Н., Миркес Е.М. Логически прозрачные нейронные сети // Изв. ВУЗов. Приборостроение.- 1996.- Т. 39, № 1.- С.64-67.
80.
Горбань А.Н., Миркес Е.М. Логически прозрачные нейронные сети для
производства знаний из данных / Вычислительный центр СО РАН в г. Красноярске.-
Красноярск, 1997.- 12 с.: Библ. 12 назв. (Деп. в ВИНИТИ 17.07.97, № 2434-В97)
81.
Горбань А.Н., Миркес Е.М. Логически прозрачные нейронные сети //
Нейроинформатика и ее приложения: Тез. докл. 3 Всероссийского семинара.-
Красноярск, 1995.- С.32
82.
Горбань А.Н., Миркес Е.М. Нейронные сети ассоциативной памяти,
функционирующие в дискретном времени. / Вычислительный центр СО РАН в г.
Красноярске.- Красноярск, 1997.- 23 с.: Библ. 8 назв. (Деп. в ВИНИТИ 17.07.97,
№ 2436-В97)
83.
Горбань А.Н., Миркес Е.М. Нейросетевое распознавание визуальных образов
«EYE» (описание пакета программ).- Красноярск, 1986.- 20 с. (Препринт / ИБФ СО
АН СССР; № 193Б)
84.
Горбань А.Н., Миркес Е.М. Оценки и интерпретаторы ответа для нейронных
сетей двойственного функционирования // Изв. ВУЗов.
Приборостроение.- 1996.- Т. 39, № 1.- С.5-14.
85.
Горбань А.Н., Миркес Е.М. Оценки и интерпретаторы ответа для сетей
двойственного функционирования / Вычислительный центр СО РАН в г. Красноярске.-
Красноярск, 1997.- 24 с.: Библ. 8 назв. (Деп. в ВИНИТИ 25.07.97, № 2511-В97)
86.
Горбань А.Н., Миркес Е.М. Помехоустойчивость тензорных сетей // Нейроинформатика
и ее приложения: Тез. докл. 4 Всероссийского семинара.- Красноярск, 1996.-
С.24-25.
87.
Горбань А.Н., Миркес Е.М. Тензорные сети ассоциативной памяти // Нейроинформатика
и ее приложения: Тез. докл. 4 Всероссийского семинара.- Красноярск, 1996.-
С.20-21.
88.
Горбань А.Н., Миркес Е.М. Функциональные компоненты нейрокомпьютера //
Нейроинформатика и ее приложения: Материалы III Всероссийского семинара, 6-8 октября
1995 г., часть 1.- Красноярск, 1995.- С.79-90.
89.
Горбань А.Н., Миркес Е.М., Свитин А.П. Метод мультиплетных покрытий и
его использование для предсказания свойств атомов и молекул // Журнал физ.
Химии.- 1992.- Т. 66, № 6.- С.1503-1510.
90.
Горбань А.Н., Миркес Е.М., Свитин А.П. Полуэмпирический метод
классификации атомов и интерполяции их свойств. // Математическое моделирование
в химии и биологии. Новые подходы. Новосибирск : Наука, 1992.- С.204-220.
91.
Горбань А.Н., Новоходько А.Ю. Нейронные сети в задаче транспонированной
регрессии // Второй Сибирский конгресс по Прикладной и Индустриальной
Математике, посвященный памяти А.А.Ляпунова (1911-1973), А.П.Ершова (1931-1988)
и И.А.Полетаева (1915-1983): Тез. докл., часть 2.- Новосибирск, 1996.-
С.160-161.
92.
Горбань А.Н., Новоходько А.Ю., Царегородцев В.Г. Нейросетевая
реализация транспонированной задачи линейной регрессии // Нейроинформатика и ее
приложения: Тез. докл. 4 Всероссийского семинара.- Красноярск, 1996.- С.37-39.
93.
Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере //
Новосибирск: Наука, 1996.- 276 с.
94.
Горбань А.Н., Россиев Д.А., Бутакова Е.В., Гилев С.Е., Головенкин С.Е.,
Догадин С.А., Коченов Д.А., Масленикова Е.В., Матюшин Г.В., Миркес Е.М.,
Назаров Б.В., Ноздрачев К.Г., Савченко А.А., Смирнова С.В., Чертыков П.А.,
Шульман В.А. Медицинские и физиологические применения нейроимитатора
«MultiNeuron» // Нейроинформатика и ее приложения: Материалы III Всероссийского
семинара, 6-8 октября 1995 г., часть 1.- Красноярск, 1995.- С.101-113.
95.
Горбань А.Н., Россиев Д.А., Головенкин С.Е., Шульман В.А., Матюшин Г.В.
Нейросистема прогнозирования осложнений инфаркта миокарда // Второй Сибирский
конгресс по Прикладной и Индустриальной Математике, посвященный памяти
А.А.Ляпунова (1911-1973), А.П.Ершова (1931-1988) и И.А.Полетаева (1915-1983):
Тез. докл., часть 1.- Новосибирск, 1996.- С.40.
96.
Горбань А.Н., Россиев Д.А., Коченов Д.А. Применение самообучающихся
нейросетевых программ. Раздел 1. Введение в нейропрограммы: Учебно-методическое
пособие для студентов специальностей 22.04 и 55.28.00 всех форм обучения.-
Красноярск: Изд-во СТИ, 1994.- 24 с.
97.
Горбань А.Н., Сенашова М.Ю. Метод обратного распространения точности.-
Красноярск, 1996.- 8 с. (Препринт / ВЦ СО РАН;. № 17)
98.
Горбань А.Н., Сенашова М.Ю. Погрешности в нейронных сетях / Вычислительный
центр СО РАН в г. Красноярске.- Красноярск, 1997.- 38 с.: Библ. 8 назв. (Рукопись
деп. в ВИНИТИ 25.07.97, № 2509-В97)
99.
Горбань А.Н., Фриденберг В.И. Новая игрушка человечества // МИР ПК.-
1993.- № 9.- С.111-113.
100.
Гордиенко П.В. Стратегии контрастирования // Нейроинформатика и ее
приложения: Тез. докл. 5 Всероссийского семинара.- Красноярск, 1997.- С.69.
101.
Грановская Р.М., Березная И.Я. Интуиция и искусственный интеллект.- Л.:
ЛГУ, 1991.- 272 с.
102.
Гутчин И.Б., Кузичев А.С. Бионика и надежность.- М.: Наука, 1967.- 283
с.
103.
Демиденко Е.З. Линейная и нелинейная регрессия.- М.: Финансы и статистика,
1981.- 302 с.
104.
Деннис Дж. мл., Шнабель Р. Численные методы безусловной оптимизации и решения
нелинейных уравнений.- М.: Мир, 1988.- 440 с.
105.
Дертоузос М. Пороговая логика.- М.: Мир, 1967.- 258 с.
106.
Джордж Ф. Мозг как вычислительная машина.- М.: Изд-во иностр. лит.,
1963.- 528 с.
107.
Дианкова Е.В., Квичанский А.В., Мухамадиев Р.Ф., Мухамадиева Т.А.,
Терехов С.А. Некоторые свойства нелинейных нейронных сетей. Исследование
трехнейронной модели // Нейроинформатика и ее приложения: Тез. докл. 3
Всероссийского семинара.- Красноярск, 1995.- С.86
108.
Дискусия о нейрокомпьютерах / Под ред. В.И.Крюкова.- Пущино: Изд-во
ЦБИ, 1988.- 197 с.
109.
Дорофеюк А.А. Алгоритмы автоматической классификации (обзор) // Автоматика
и телемеханика.- 1971.- № 12.- С.78-113.
110.
Доррер М.Г., Горбань А.Н., Копытов А.Г., Зенкин В.И. Психологическая
интуиция нейронных сетей // Нейроинформатика и ее приложения: Материалы III
Всероссийского семинара, 6-8 октября 1995 г., часть 1.- Красноярск, 1995.-
С.114-127.
111.
Дуда Р., Харт П. Распознавание образов и анализ сцен.- М.: Мир, 1976.-
512 с.
112.
Дунин-Барковский В.Л. Информационные процессы в нейронных структурах.-
М.: Наука, 1978.- 254 с.
113.
Дунин-Барковский В.Л. Нейрокибернетика,
нейроинформатика, нейрокомпьютеры // Нейроинформатика.- Новосибирск: Наука,
Сибирская издательская фирма РАН, 1998.- С.5-17.
114.
Дунин-Барковский В.Л. Нейронные схемы ассоциативной памяти // Моделирование
возбудимых структур.- Пущино, 1975.- С.90-141.
115.
Дюк В.А. Компьютерная психодиагностика.- Санкт-Петербург: Братство,
1994.- 364 с.
116.
Ермаков С.В., Мышов К.Д., Охонин В.А. К вопросу о математическом моделировании
базового принципа мышления человека.- Красноярск, 1992.- 36 с. (Препринт / ИБФ
СО РАН; № 173Б)
117.
Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания и
классификации // Проблемы кибернетики.- М.: Наука, 1978.- вып. 33.- С.5-68.
118.
Загоруйко Н.Г. Методы распознавания и их применение.- М.: Сов. радио,
1972.- 206 с.
119.
Загоруйко Н.Г., Елкина В.Н., Лбов Г.С. Алгоритмы обнаружения эмпирических
закономерностей.- Новосибирск: Наука, 1985.- 110 с.
120.
Захарова Л.Б., Полонская М.Г., Савченко А.А. и др. Оценка антропологического
напряжения пришлого населения промышленной зоны Заполярья (биологический аспект).-
Красноярск, 1989.- 52 с. (Препринт / ИБФ СО РАН; № 110Б)
121.
Захарова Л.М., Киселева Н.Е. Мучник И.Б., Петровский А.М., Сверчинская
Р.Б. Анализ развития гипертонической болезни по эмпирическим данным // Автоматика
и телемеханика.- 1977.- № 9.- С.114-122.
122.
Ивахненко А.Г. Персептроны. - Киев: Наукова думка, 1974.- 378 с.
123.
Ивахненко А.Г. Самообучающиеся системы распознавания и автоматического
регулирования.- Киев: Техника, 1969.- 392 с.
124.
Искусственный интеллект: В 3-х кн. Кн. 1. Системы общения и экспертные
системы: Справочник / под ред. Э.В.Попова.- М.: Радио и связь, 1990.- 464 с.
125.
Искусственный интеллект: В 3-х кн. Кн. 2. Модели и методы: Справочник /
под ред. Д.А. Поспелова.- М.: Радио и связь, 1990.- 304 с.
126.
Итоги науки и техники. Сер. «Физ. и Матем. модели нейронных сетей» /
Под ред. А.А.Веденова. - М.: Изд-во ВИНИТИ, 1990-92 - Т. 1-5.
127.
Квичанский А.В., Дианкова Е.В., Мухамадиев Р.Ф., Мухамадиева Т.А. Программный
продукт NNN для исследования свойств нелинейных сетей в
компьютерном эксперименте //
Нейроинформатика и ее приложения: Тез. докл. 3 Всероссийского семинара.-
Красноярск, 1995.- С.10
128.
Кендалл М., Стьюарт А. Статистические выводы и связи.- М.: Наука,
1973.- 900 с.
129.
Кирдин А.Н., Новоходько А.Ю., Царегородцев В.Г. Скрытые параметры и
транспонированная регрессия // Нейроинформатика.- Новосибирск: Наука, Сибирская
издательская фирма РАН, 1998.- С.247-263.
130.
Кохонен Т. Ассоциативная память. - М.: Мир, 1980.- 384 с.
131.
Кохонен Т. Ассоциативные запоминающие устройства. - М.: Мир, 1982. 468
с.
132.
Коченов Д.А., Миркес Е.М. Определение чувствительности нейросети к
изменению входных сигналов // Нейроинформатика и ее приложения: Тез. докл. 3
Всероссийского семинара.- Красноярск, 1995.- С.61
133.
Коченов Д.А., Миркес Е.М. Синтез управляющих воздействий // Нейроинформатика
и ее приложения: Тез. докл. 3 Всероссийского семинара.- Красноярск, 1995.- С.31
134.
Коченов Д.А., Миркес Е.М., Россиев Д.А. Автоматическая подстройка
входных данных для получения требуемого ответа нейросети // Проблемы
информатизации региона: Труды межрегиональной конференции (Красноярск, 27-29
ноября 1995 г.).- Красноярск, 1995.- С.156.
135.
Коченов Д.А., Миркес Е.М., Россиев Д.А. Метод подстройки параметров
примера для получения требуемого ответа нейросети // Нейроинформатика и ее
приложения: Тез. докл. 2 Всероссийского семинара.- Красноярск, 1994.- С.39.
136.
Коченов Д.А., Россиев Д.А. Аппроксимация функций класса С[a,b]
нейросетевыми предикторами // Нейроинформатика и нейрокомпьютеры: Тез. докл.
рабочего семинара, Красноярск, 8-11 октября 1993 г., Красноярск.- 1993.- С.13.
137.
Крайзмер Л.П., Матюхин С.А., Майоркин С.Г. Память кибернетических
систем (Основы мнемологии).- М.: Сов. радио, 1971.- 389 с.
138.
Куссуль Э.М., Байдык Т.Н. Разработка архитектуры нейроподобной сети для
распознавания формы объектов на изображении // Автоматика.- 1990.- № 5.- С.
56-61.
139.
Кушаковский М.С. Аритмии сердца.- Санкт-Петербург: Гиппократ, 1992.-
544 с.
140.
Лбов Г.С. Методы обработки разнотипных экспериментальных данных.- Новосибирск:
Наука, 1981.- 157 с.
141.
Логовский А.С., Якушев Д.Ж. Нейропакеты: что, где, зачем // Зарубежная
радиоэлектроника.- 1997.- № 2.- С. 35-41.
142.
Логовский А.С. Зарубежные нейропакеты: современное состояние и сравнительные
характеристики // Нейрокомпьютер.- 1998.- № 1, 2.- С. 44-53.
143.
Лоули Д., Максвелл А. Факторный анализ как статистический метод.- М.:
Мир, 1967.- 144 с.
144.
Мазуров В.Д. Метод комитетов в задачах оптимизации и классификации.-
М.: Наука, Гл. ред. физ.-мат. лит., 1990.- 248 с.
145.
МакКаллок У.С., Питтс В. Логическое исчисление идей, относящихся к
нервной активности // Нейрокомпьютер.- 1992.- № 3, 4.- С. 40-53.
146.
Масалович А.И. От нейрона к нейрокомпьютеру // Журнал доктора Добба.-
1992.- № 1.- С.20-24.
147.
Минский М., Пайперт С. Персептроны. - М.: Мир, 1971.- 208с.
148.
Миркес Е.М. Глобальные и локальные оценки для сетей двойственного
функционирования // Нейроинформатика и ее приложения: Тез. докл. 3
Всероссийского семинара.- Красноярск, 1995.- С.76-77
149.
Миркес Е.М. Использование весов примеров при обучении нейронных сетей
// Нейроинформатика и ее приложения: Тез. докл. 3 Всероссийского семинара.-
Красноярск, 1995.- С.75
150.
Миркес Е.М. Логически прозрачные нейронные сети и производство явных
знаний из данных // Нейроинформатика.- Новосибирск: Наука, Сибирская издательская
фирма РАН, 1998.- С. 283-292
151.
Миркес Е.М. Нейроинформатика и другие науки // Вестник КГТУ, 1996.-
вып. 6.- С.5-33.
152.
Миркес Е.М. Нейрокомпьютер. Проект стандарта.- Новосибирск: Наука,
Сибирская издательская фирма РАН, 1998.- 337
с.
153.
Миркес Е.М. Нейронные сети ассоциативной памяти // Нейроинформатика.-
Новосибирск: Наука, Сибирская издательская фирма РАН, 1998.- С. 264-282.
154.
Миркес Е.М. Обучение сетей с пороговыми нейронами // Нейроинформатика и
ее приложения: Тез. докл. 3 Всероссийского семинара.- Красноярск, 1995.- С.72
155.
Миркес Е.М. Оценки и интерпретаторы ответа для сетей двойственного
функционирования // Нейроинформатика и ее приложения: Тез. докл. 3
Всероссийского семинара.- Красноярск, 1995.- С.73-74
156.
Миркес Е.М., Свитин А.П. Применение метода ассоциативных сетей для
прогнозирования переносов заряда при адсорбции молекул. // Эволюционное моделирование
и кинетика.- Новосибирск: Наука, 1992.- С.30-35.
157.
Миркес Е.М., Свитин А.П., Фет А.И. Массовые формулы для атомов. //
Математическое моделирование в химии и биологии. Новые подходы.- Новосибирск :
Наука, 1992.- С. 199-204.
158.
Миркин Б.Г. Анализ качественных признаков и структур.- М.: Статистика,
1980.- 319 с.
159.
Мкртчян С.О. Проектирование логических устройств ЭВМ на нейронных элементах.
- М.: Энергия, 1977.- 482 с.
160.
Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия.- М.: Финансы и
статистика, 1982.- 239 с.
161.
Муллат И.Э. Экстремальные подсистемы монотонных систем. I, II, III //
Автоматика и телемеханика.- 1976.- № 5.- С. 130-139; 1976.- № 8.- С. 169-178;
1977.- № 1.- С. 143-152.
162.
Мучник И.Б. Анализ структуры экспериментальных графов // Автоматика и
телемеханика.- 1974.- № 9.- С. 62-80.
163.
Мызников А.В., Россиев Д.А., Лохман В.Ф. Нейросетевая экспертная система
для оптимизации лечения облитерирующего тромбангиита и прогнозирования его непосредственных
исходов // Ангиология и сосудистая хирургия.- 1995.- N 2.- С.100.
164.
Мызников А.В., Россиев Д.А., Лохман В.Ф. Прогнозирование непосредственных
результатов лечения облитерирующего тромбангиита с помощью нейронных сетей // Молодые
ученые - практическому здравоохранению.- Красноярск, 1994.- С.42.
165.
Назаров Б.В. Прогностические аспекты некоторых нарушений ритма и
проводимости при остром инфаркте миокарда: Автореф. дис.... канд. мед. наук. /
Новосибирск, 1982.- 22 с.
166.
Назимова Д.И., Новоходько А.Ю., Царегородцев В.Г. Нейросетевые методы
обработки информации в задаче прогнозирования климатических параметров. //
Математические модели и методы их исследования: Тез. докл. Междунар. конференции.-
Красноярск, 1994,- С.135.
167.
Назимова Д.И., Новоходько А.Ю., Царегородцев В.Г. Нейросетевые методы
обработки информации в задаче восстановления климатических данных //
Нейроинформатика и ее приложения: Тез. докл. 5 Всероссийского семинара.-
Красноярск, 1997.- С.124.
168.
Народов А.А., Россиев Д.А., Захматов И.Г. Оценка компенсаторных возможностей
головного мозга при его органических поражениях с помощью искусственных нейронных
сетей // Молодые ученые - практическому здравоохранению.- Красноярск, 1994.-
С.30.
169.
Научное открытие в России... // Красноярский комсомолец (газета).-
Красноярск, 1992.- № 86.
170.
Нейроинформатика / А.Н.Горбань, В.Л.Дунин-Барковский, А.Н.Кирдин,
Е.М.Миркес, А.Ю.Новоходько, Д.А.Россиев, С.А.Терехов, М.Ю.Сенашова,
В.Г.Царегородцев.- Новосибирск: Наука, Сибирская издательская фирма РАН, 1998.-
296 С.
171.
Нейропрограммы. Учебное пособие. В 2 ч. / Л.В.Гилева, С.Е.Гилев,
А.Н.Горбань, П.В.Гордиенко, Д.И.Еремин, Д.А.Коченов, Е.М.Миркес, Д.А.Россиев,
Н.А.Умнов.– Красноярск: Красноярский государственный технический университет,
1994.– 260 с.
172.
Николаев П.П. Методы представления формы объектов в задаче константного
зрительного восприятия // Интеллектуальные процессы и их моделирование. Пространственно-временная
организация.- М.: Наука, 1991.- С.146-173.
173.
Николаев П.П. Трихроматическая модель констант восприятия окраски
объектов // Сенсорные системы. 1990.- Т.4, Вып. 4.- С.421-442.
174.
Нильсен Н. Обучающиеся машины. - М.: Мир, 1967.- 506 с.
175.
Новоходько А.Ю., Царегородцев В.Г. Нейросетевое решение транспонированной
задачи линейной регрессии // Математика, компьютер, образование:Тез. докл.
четвертой международной конференции.- Москва, 1997. С.175.
176.
Охонин В.А. Вариационный принцип в теории адаптивных сетей.-
Красноярск, 1987.- 18 с. (Препринт / ИФ СО АН СССР; № 61Б)
177.
Парин В.В., Баевский Р.М. Медицина и техника.- М.: Знание, 1968.-
С.36-49.
178.
Переверзев-Орлов В.С. Советчик специалиста. Опыт разработки партнерской
системы.- М.: Наука, 1990.- 133 с.
179.
Петров А.П. Аксиоматика игры «в прятки» и генезис зрительного пространства
// Интеллектуальные процессы и их моделирование. Пространственно-временная организация.-
М.: Наука, 1991.- С.174-182.
180.
Питенко А.А. Нейросетевой анализ в геоинформационных системах: Автореф.
дисс…. канд. тех. наук / Красноярск, КГТУ, 2000.- 20 с.
181.
Питенко А.А. Нейросетевое восполнение пробелов данных в ГИС // Нейроинформатика
и ее приложения: Тез. докл. 5 Всероссийского семинара.- Красноярск, 1997.-
С.140.
182.
Позин И.В. Моделирование нейронных структур. - М.: Наука, 1970.- 368с.
183.
Пшеничный Б.Н., Данилин Ю.М. Численные методы в экстремальных задачах.-
М.: Наука, 1975.- 319 с.
184.
Распознавание образов и медицинская диагностика / под ред. Ю.М. Неймарка.-
М.: Наука, 1972.- 328 с.
185.
Розенблатт Ф. Принципы нейродинамики. Перцептрон и теория механизмов мозга.-
М.: Мир, 1965.- 480 с.
186.
Россиев А.А. Итерационное моделирование данных с помощью многообразий
малой размерности: Автореф. дисс…. канд. физ.-мат. наук / Красноярск, КГТУ,
2000.- 20 с.
187.
Россиев А.А. Генератор 0-таблиц в среде WINDOWS-95 // Нейроинформатика
и ее приложения: Тез. докл. 5 Всероссийского семинара.- Красноярск, 1997.-
С.151.
188.
Россиев Д.А. Медицинская нейроинформатика // Нейроинформатика Новосибирск:
Наука, Сибирская издательская фирма РАН, 1998.
189.
Россиев Д.А. Нейросетевые самообучающиеся экспертные системы в медицине
// Молодые ученые - практическому здравоохранению.- Красноярск, 1994.- С.17.
190.
Россиев Д.А., Бутакова Е.В. Нейросетевая диагностика и дифференциальная
диагностика злокачественных опухолей сосудистой оболочки глаза //
Нейроинформатика и ее приложения: Материалы III Всероссийского семинара, 6-8
октября 1995 г., часть 1.- Красноярск, 1995.- С.167-194.
191.
Россиев Д.А., Бутакова Е.В. Ранняя диагностика злокачественных опухолей
сосудистой оболочки глаза с использованием нейронных сетей // Нейроинформатика
и ее приложения: Тез. докл. 2 Всероссийского семинара.- Красноярск, 1994.-
С.44.
192.
Россиев Д.А., Винник Н.Г. Предсказание «удачности» предстоящего брака
нейросетевыми экспертами // Нейроинформатика и ее приложения: Тез. докл. 2
Всероссийского семинара.- Красноярск, 1994.- С.45.
193.
Россиев Д.А., Гилев С.Е., Коченов Д.А. MultiNeuron, Версии 2.0 и 3.0 //
Нейроинформатика и ее приложения: Тез. докл. 3 Всероссийского семинара.-
Красноярск, 1995.- С.14
194.
Россиев Д.А., Гилев С.Е., Коченов Д.А.. Нейроэмулятор «MultiNeuron» //
Второй Сибирский конгресс по Прикладной и Индустриальной Математике,
посвященный памяти А.А.Ляпунова (1911-1973), А.П.Ершова (1931-1988) и
И.А.Полетаева (1915-1983): Тез. докл., часть 1.- Новосибирск, 1996.- С.45.
195.
Россиев Д.А., Головенкин С.Е. Прогнозирование осложнений инфаркта
миокарда с помощью нейронных сетей // Нейроинформатика и ее приложения: Тез.
докл. 2 Всероссийского семинара.- Красноярск, 1994.- С.40.
196.
Россиев Д.А., Головенкин С.Е., Назаров Б.В., Шульман В.А., Матюшин Г.В.
Определение информативности медицинских параметров с помощью нейронной сети //
Диагностика, информатика и метрология – 94:- Тез. научно-технической
конференции (г. Санкт-Петербург, 28-30 июня 1994 г.).- С.-Петербург.- 1994.-
С.348.
197.
Россиев Д.А., Головенкин С.Е., Шульман В.А., Матюшин Г.В. Использование
нейронных сетей для прогнозирования возникновения или усугубления застойной сердечной
недостаточности у больных с нарушениями ритма сердца // Нейроинформатика и
нейрокомпьютеры: Тез. докл. рабочего семинара, Красноярск, 8-11 октября 1993
г., Красноярск.- 1993.- С.16.
198.
Россиев Д.А., Головенкин С.Е., Шульман В.А., Матюшин Г.В. Прогнозирование
осложнений инфаркта миокарда нейронными сетями // Нейроинформатика и ее приложения:
Материалы III Всероссийского семинара, 6-8 октября 1995 г., часть 1.- Красноярск,
1995.- С.128-166.
199.
Россиев Д.А., Догадин С.А., Масленникова Е.В., Ноздрачев К.Г., Борисов
А.Г. Выявление накопленной дозы радиоактивного облучения с помощью
нейросетевого классификатора // Современные проблемы и методологические подходы
к изучению влияния факторов производственной и окружающей среды на здоровье
человека: Тез. докл. республиканской конф.- Ангарск-Иркутск, 1993.- С.111-112.
200.
Россиев Д.А., Догадин С.А., Масленникова Е.В., Ноздрачев К.Г., Борисов
А.Г. Обучение нейросетей выявлению накопленной дозы радиоактивного облучения //
Нейроинформатика и нейрокомпьютеры: Тез. докл. рабочего семинара, Красноярск,
8-11 октября 1993 г., Красноярск.- 1993.- С.15.
201.
Россиев Д.А., Захматов И.Г. Оценка компенсаторных возможностей
головного мозга при его органических поражениях (опыт применения нейросетевого
векторного предиктора) // Нейроинформатика и ее приложения: Тез. докл. 2
Всероссийского семинара.- Красноярск, 1994.- С.42.
202.
Россиев Д.А., Коченов Д.А. Пакет программ «MultiNeuron» -
«Configurator» - «Tester» для конструирования нейросетевых приложений //
Нейроинформатика и ее приложения: Тез. докл. 2 Всероссийского семинара.-
Красноярск, 1994.- С.30.
203.
Россиев Д.А., Мызников А.А. Нейросетевое моделирование лечения и
прогнозирование его непосредственных результатов у больных облитерирующим
тромбангиитом // Нейроинформатика и ее приложения: Материалы III Всероссийского
семинара, 6-8 октября 1995 г., часть 1.- Красноярск, 1995.- С.194-228.
204.
Россиев Д.А., Мызников А.В. Прогнозирование непосредственных результатов
лечения облитерирующего тромбангиита с помощью нейронных сетей // Нейроинформатика
и ее приложения: Тез. докл. 2 Всероссийского семинара.- Красноярск, 1994.-
С.41.
205.
Россиев Д.А., Савченко А.А., Гилев С.Е., Коченов Д.А. Применение
нейросетей для изучения и диагностики иммунодефицитных состояний// Нейроинформатика
и нейрокомпьютеры // Нейроинформатика и нейрокомпьютеры: Тез. докл. рабочего
семинара, Красноярск, 8-11 октября 1993 г., Красноярск.- 1993.- С.32.
206.
Россиев Д.А., Суханова Н.В., Швецкий А.Г. Нейросетевая система
дифференциальной диагностики заболеваний, прояляющихся синдромом «острого
живота» // Нейроинформатика и ее приложения: Тез. докл. 2 Всероссийского
семинара.- Красноярск, 1994.- С.43.
207.
Савченко А.А., Догадин С.А., Ткачев А.В., Бойко Е.Р., Россиев Д.А.
Обследование людей в районе возможного радиоактивного загрязнения с помощью
нейросетевого классификатора // Нейроинформатика и ее приложения: Тез. докл. 2
Всероссийского семинара.- Красноярск, 1994.- С.46.
208.
Савченко А.А., Митрошина Л.В., Россиев Д.А., Догадин С.А. Моделирование
с помощью нейросетевого предиктора реальных чисел иммуноэндокринного взаимодействия
при заболеваниях щитовидной железы // Нейроинформатика и нейрокомпьютеры: Тез.
докл. рабочего семинара, Красноярск, 8-11 октября 1993 г., Красноярск.- 1993.-
С.18.
209.
Савченко А.А., Россиев Д.А., Догадин С.А., Горбань А.Н. Нейротехнология
для обследования людей в районе возможного радиоактивного загрязнения // Второй
Сибирский конгресс по Прикладной и Индустриальной Математике, посвященный памяти
А.А.Ляпунова (1911-1973), А.П.Ершова (1931-1988) и И.А.Полетаева (1915-1983):
Тез. докл., часть 1.- Новосибирск, 1996.- С.46-47.
210.
Савченко А.А., Россиев Д.А., Захарова Л.Б. Применение нейросетевого
классификатора для изучения и диагностики вилюйского энцефалита //
Нейроинформатика и нейрокомпьютеры: Тез. докл. рабочего семинара, Красноярск,
8-11 октября 1993 г., Красноярск.- 1993.- С.17.
211.
Савченко А.А., Россиев Д.А., Ноздрачев К.Г., Догадин С.А. Обучение
нейросетевого классификатора дифференцировать пол человека по метаболическим и
гормональным показателям // Нейроинформатика и ее приложения: Тез. докл. 2
Всероссийского семинара.- Красноярск, 1994.- С.47.
212.
Савченко А.А., Россиев Д.А., Ноздрачев К.Г., Догадин С.А. Подтверждение
с помощью нейросетевого классификатора существования гомеостатических уровней в
группе практически здоровых людей // Нейроинформатика и ее приложения: Тез.
докл. 2 Всероссийского семинара.- Красноярск, 1994.- С.49.
213.
Савченко А.А., Россиев Д.А., Ноздрачев К.Г., Догадин С.А., Гилев С.Е.
Нейроклассификатор, дифференцирующий пол человека по метаболическим и
гормональным показателям // Второй Сибирский конгресс по Прикладной и
Индустриальной Математике, посвященный памяти А.А.Ляпунова (1911-1973),
А.П.Ершова (1931-1988) и И.А.Полетаева (1915-1983): Тез. докл., часть 2.-
Новосибирск, 1996.- С.47.
214.
Савченко А.А., Смирнова С.В., Россиев Д.А. Применение нейросетевого
классификатора для изучения и диагностики аллергических и псевдоаллергических
реакций // Нейроинформатика и ее приложения: Тез. докл. 2 Всероссийского
семинара.- Красноярск, 1994.- С.48.
215.
Сенашова М.Ю. Метод обратного распространения точности с учетом
независимости погрешностей сигналов сети // Тез. конф. молодых ученых
Красноярского научного центра.- Красноярск, 1996.- С.96-97.
216.
Сенашова М.Ю. Метод обратного распространения точности. // Нейроинформатика
и ее приложения: Тез. докл. 4 Всероссийского семинара.- Красноярск, 1996.- С.47
217.
Сенашова М.Ю. Погрешности в нейронных сетях // Нейроинформатика.- Новосибирск:
Наука, Сибирская издательская фирма РАН, 1998.- С.212-246.
218.
Сенашова М.Ю. Упрощение нейронных сетей: приближение значений весов
синапсов при помощи цепных дробей / Вычислительный центр СО РАН в г.
Красноярске.- Красноярск, 1997.- 11 с.: Библ. 6 назв. (Деп. в ВИНИТИ 25.07.97,
№ 2510-В97)
219.
Сенашова. М.Ю. Упрощение нейронных сетей. Использование цепных дробей
для приближения весов синапсов. // Нейроинформатика и ее приложения: Тез. докл.
5 Всероссийского семинара.- Красноярск, 1997.- С.165-166.
220.
Соколов Е.Н., Вайткявичус Г.Г. Нейроинтеллект: от нейрона к нейрокомпьютеру.
М.: Наука, 1989. 238 с.
221.
Степанян А.А., Архангельский С.В. Построение логических схем на пороговых
элементах.- Куйбышев: Куйбышевское книжн. изд-во, 1967.- 348 с.
222.
Судариков В.А. Исследование адаптивных нейросетевых алгоритмов решения
задач линейной алгебры // Нейрокомпьютер,- 1992.- № 3,4.- С.13-20.
223.
Тарасов К.Е., Великов В.К., Фролова А.И. Логика и семиотика диагноза
(методологические проблемы).- М.: Медицина, 1989.- 272 с.
224.
Терехов С.А. Нейросетевые информационные модели сложных инженерных
систем // Нейроинформатика.- Новосибирск: Наука, Сибирская издательская фирма
РАН, 1998.- С.101-136.
225.
Транспьютерные и нейронные ЭВМ. / Под ред. В.К.Левина и А.И.Галушкина.-
М.: Российский Дом знаний, 1992. 456 с.
226.
Уидроу Б., Стирнз С. Адаптивная обработка сигналов.- М.: Мир, 1989.-
440 с.
227.
Уоссермен Ф. Нейрокомпьютерная техника.- М.: Мир, 1992.- 463 с.
228.
Федотов Н.Г. Методы стохастической геометрии в распознавании образов. -
М.: Радио и связь, 1990.- 144 с.
229.
Фор А. Восприятие и распознавание образов.- М.: Машиностроение, 1989.-
272 с.
230.
Фролов А.А., Муравьев И.П. Информационные характеристики нейронных
сетей. - М.: Наука, 1988.- 254 с.
231.
Фролов А.А., Муравьев И.П. Нейронные модели ассоциативной памяти.- М.:
Наука, 1987.- 160 с.
232.
Фу К. Структурные методы в распознавании образов.- М.: Мир, 1977.- 320
с.
233.
Фукунга К. Введение в статистическую теорию распознавания образов.- М.:
Наука, 1979.- 367 с.
234.
Хартман Г. Современный факторный анализ.- М.:Статистика, 1972.- 486с.
235.
Химмельблау Д. Прикладное нелинейное программирование. М.: Мир, 1975.-
534 с.
236.
Хинтон Дж.Е. Обучение в параллельных сетях // Реальность и прогнозы
искусственного интеллекта.- М.: Мир, 1987.- С. 124-136.
237.
Царегородцев В.Г. Извлечение знаний из данных при помощи обучаемых и
упрощаемых искусственных нейронных сетей: Автореф. дисс…. канд. тех. наук //
Красноярск, КГТУ, 2000.- 20 с.
238.
Царегородцев В.Г. Транспонированная линейная регрессия для интерполяции
свойств химических элементов // Нейроинформатика и ее приложения: Тез. докл. 5
Всероссийского семинара.- Красноярск, 1997.- С.177-178.
239.
Цыганков В.Д. Нейрокопьютер и его применение.- М.: «Сол Систем», 1993.-
358 с.
240.
Цыпкин Я.З. Основы теории обучающихся систем. М.: Наука, 1970. 252 с.
241.
Шварц Э., Трис Д. Программы, умеющие думать // Бизнес Уик.- 1992.-
N.6.- С.15-18.
242.
Шенк Р., Хантер Л. Познать механизмы мышления // Реальность и прогнозы
искусственного интеллекта.- М.: Мир, 1987.- С.15-26.
243.
Щербаков П.С. Библиографическая база данных по методам настройки нейронных
сетей // Нейрокомпьютер.- 1993.- № 3,4.- С.5-8.
244.
245.
Alexander S. Th. Adaptive
Signal Processing. Theory and Applications.- Springer, 1986.- 179 p.
246.
Allen J.,
247.
Amari Sh., Maginu K.
Statistical Neurodynamics of Associative Memory // Neural Networks.- 1988.- V.1, № 1.- P.63-74.
248.
Arbib M.A. Brains, Machines
and Mathematics.- Springer,
1987.- 202 p.
249.
Astion M.L., Wener M.H.,
Thomas R.G., Hunder G.G., Bloch D.A. Application of neural networks to the
classification of giant cell arteritis // Arthritis Reum.- 1994.- V.37, № 5.-
P.760-770.
250.
Aynsley M., Hofland A.,
Morris A.J. et al. Artificial intelligence and the supervision of bioprocesses
(real-time knowledge-based systems and neural networks) // Adv. Biochem.
251.
Baba N. New Topics in
Learning Automate Theory and Applications.- Springer, 1985.- 131 p.
252.
Barschdorff D., Ester S.,
Dorsel T et al. Phonographic diagnostic aid in heart defects using neural
networks // Biomed. Tech. Berlin.- 1990.- V.35, № 11.- P.271-279.
253.
Bartsev S.I., Okhonin V.A.
Optimization and Monitoring Needs: Possible Mechanisms of Control of Ecological
Systems // Nanobiology.- 1993, V.2.- P.165-172.
254.
Bartsev S.I., Okhonin V.A.
Self-learning neural networks playing «Two coins»// Proc. of International
Workshop «Neurocomputers and attention II».-
255.
Bartsev S.I., Okhonin V.A.
The algorithm of dual functioning (back-propagation): general approuch,
versions and applications.-
256.
Bartsev S.I., Okhonin V.A.
Variation principle and algorithm of dual functioning: examples and
applications // Proc. of International Workshop «Neurocomputers and attention
II».-
257.
Baxt W.G. A neural network
trained to identify the presence of myocardial infarction bases some decisions
on clinical associations that differ from accepted clinical teaching // Med. Decis.
Making.- 1994.- V.14, № 3.- P.217-222.
258.
Baxt W.G. Analysis of the
clinical variables driving decision in an artificial neural network trained to
identify the presence of myocardial infarction // Ann. Emerg. Med.- 1992.-
V.21, № 12.- P.1439-1444.
259.
Baxt W.G. Complexity, chaos
and human physiology: the justification for non-linear neural computational
analysis // Cancer Lett.- 1994.- V.77, № 2-3.- P.85-93.
260.
Baxt W.G. Use of an
artificial neural network for the diagnosis of myocardial infarction // Ann.
Intern. Med.- 1991.- V.115, № 11.- P.843-848.
261.
Borisov A.G., Gilev S.E., Golovenkin S.E., Gorban A.N., Dogadin S.A.,
Kochenov D.A., Maslennikova E.V., Matyushin G.V., Mirkes Ye.M., Nozdrachev
K.G., Rossiyev D.A., Savchenko A.A., Shulman V.A. «MultiNeuron» neural
simulator and its medical applications // Modelling, Measurement &
Control.- 1996.- V.55, № 1.- P.1-5.
262.
Bruck J., Goodman J. W. On
the power of neural networks for solving hard problems // J. Complex.- 1990.- 6, № 2.- P.129-135.
263.
Budilova E.V., Teriokhin
A.T. Endocrine networks // The RNNS/IEEE Symposium on Neuroinformatics and
Neurocomputers,
264.
Carpenter G.A., Grossberg S.
A Massivly Parallel Architecture for a Self-Organizing Neural Pattern
Recognition Machine // Computer Vision,
Graphics, and Image Processing, 1987. V.37.- P. 54-115.
265.
Connectionism in Perspective / Ed.
by R. Pfeifer, Z. Schreter, F.Fogelman-Soulie and L. Steels.- North-Holland, 1989.- 518 p.
266.
Cybenko G. Approximation by
superposition of a sigmoidal function // Mathematics of Control, Signals, and Systems.- 1989.- V.2.- P.303
- 314.
267.
Diday E., Simon J.C. Clustering analysis, (dans Digital Pattern
Recognition) / Redacteur K.S.F.U.- Berlin: Springer Verlag, 1980.- P.47-93.
268.
Disordered Systems and
biological Organization / Ed. by Bienenstock F., Fogelman-Soulie G.
Weisbuch: Springer, 1986.- 405 p.
269.
Dorrer M.G., Gorban A.N., Kopytov
A.G., Zenkin V.I. Psychological intuition of neural networks // Proceedings of the WCNN'95 (World Congress on
Neural Networks'95).-
270.
Dorrer M.G., Gorban A.N., Zenkin V.I. Neural networks in psychology:
classical explicit diagnoses // Neuroinformatics and Neurocomputers:
Proceedings of the second RNNS-IEEE Simposium.- Rostov-on-Don, 1995.-
P.281-284.
271.
Draper N. R. Applied
regression analysis bibliographi update 1988-89 // Commun. Statist. Theory and
Meth.- 1990.- V.19, № 4.- P.1205-1229.
272.
Ercal F., Chawla A., Stoeker
W.V. et al. Neural network diagnosis of malignant melanoma from color images //
IEEE Trans. Biomed.
273.
Ferretti C., Mauri G. NNET:
some tools for neural Networks simulation // 9th Annu. Int. Phoenix Conf.
Comput. and Commun.,
274.
Filho E.C.D.B.C., Fairhurst M.C., Bisset D.L. Adaptive pattern
recognition using goal seeking neurons // Pattern Recogn. Lett.- 1991.- 12, №
3.- P.131-138.
275.
Floyd C.E.Jr., Lo J.Y., Yun A.J. et al. Prediction of breast cancer
malignancy using an artificial neural network // Cancer.- 1994.- V.74, № 11.-
P.2944-2948.
276.
Forbes A.B., Mansfield A.J.
Neural implementation of a method for solving systems of linear algebraic
equations // Nat. Phys.
Lab. Div. Inf. Technol. and Comput. Rept.- 1989.- № 155.- P.1-14.
277.
Fu H.C., Shann J.J. A fuzzy
neural network for knowledge learning // Int. J. Neural Syst.- 1994.- V.5, №
1.- P.13-22.
278.
279.
Fulcher J. Neural networks:
promise for the future? // Future Generat. Comput. Syst.- 1990-1991.- V.6, № 4.- P.351-354.
280.
Gallant A.R., White H. There
exist a neural network that does not make avoidable mistakes // IEEE Second International Coferense on Neural
Networks.- San
Diego, CA.- 1988.- V. 1.- P.657-664.
281.
Gecseg F. Products of
Automata.- Springer, 1986.- 107 p.
282.
Gemignani M. C. Liability
for malfunction of an expert system // IEEE Conf. Manag. Expert Syst. Program
and Proj.,
283.
Genis C. T. Relaxation and
neural learning: points of convergence and divergence // J. Parallel and
Distrib. Comput.-
1989.- 6, № 2.- P.217-244.
284.
George N., Wang hen-ge,
Venable D.L. Pattern recognition using the ring-wedge detector and
neural-network software //
Proc. Soc. Photo-Opt.
Instrum. Eng.- 1989.- P.96-106.
285.
Gilev S.E. A
non-back-propagation method for obtaining the gradients of estimate function //
Advances in Modelling & Analysis.- AMSE Press, 1995.- V.29, № 1.-
P.51-57.
286.
Gilev S.E., Gorban A.N. On
Completeness of the Class of Functions Computable by Neural Networks // Proc.
of the World Congress on Neural Networks, Sept. 15-18, 1996, San Diego, CA,
Lawrence Erlbaum Associates.- San Diego, 1996.- P.984-991.
287.
Gilev S.E., Gorban A.N., Kochenov D.A., Mirkes Ye.M., Golovenkin S.E.,
Dogadin S.A., Nozdrachev K.G., Maslennikova E.V., Matyushin G.V., Rossiev D.A.,
Shulman V.A., Savchenko A.A. «MultiNeuron» neural simulator and its medical
applications // Proceedings of International Conference on Neural Information
Processing, Oct. 17-20.-Seoul, 1994.- V.2.- P.1261-1264.
288.
Gilev S.E., Gorban A.N.,
Mirkes E.M. Internal Conflicts in Neural Networks // Transactions of IEEE-RNNS
Simposium (Rostov-on-Don, September 1992). V.1. P.219-226.
289.
Gilev S.E., Gorban A.N.,
Mirkes E.M. Several Methods for Accelerating the Traning Process of Neural
Networks in Pattern Recognition // Advances in Modelling & Analysis .- AMSE Press, 1992.- V.12, №
4.- P.29-53.
290.
Gilev S.E., Gorban A.N.,
Mirkes E.M. Small Experts and Internal Conflicts in Leanable Neural Networks //
Advances in Modelling & Analysis .- AMSE Press, 1992.- V.24, № 1.- P.45-50.
291.
Gileva L.V., Gilev S.E.
Neural Networks for binary classification// AMSE Transaction, Scientific
Siberian, 1993, V.6: Neurocomputing.- P.135-167.
292.
Gindi G.R., Darken C.J., O’Brien K.M. et al. Neural network and conventional
classifiers for fluorescence-guided laser angioplasty // IEEE Trans. Biomed.
293.
Gluck M.A., Parker D.B.,
Reifsnider E.S. Some Biological Implications of a Differential-Hebbian Learning
Rule // Psychobiology.- 1988.- V.16, № 3.- P. 298-302.
294.
Golub D.N. and Gorban A.N.
Multi-Particle Networks for Associative Memory // Proc. of the World Congress
on Neural Networks,
295.
Gorban A.N. Neurocomputing
in
296.
Gorban A.N., Mirkes Ye.M.
and Wunsch D.C. II High order ortogonal tensor networks: Information capacity
and reliability // ICNN97 (The 1997 IEEE International Conference on Neural
Networks),
297.
Gorban A.N., Mirkes Ye.M. Functional Components of Neurocomputer // Математика,
компьютер, образование: Тр. третьей международной конференции.- М., 1996.-
С.352-359.
298.
Gorban A.N., Mirkes Ye.M.
Functional components of neurocomputer // Mathematics, computer, education:
Abstracts of 3-d International
conference.- Dubna, 1996.- p.
160.
299.
Gorban A.N., Novokhodko
A.Yu.. Neural Networks In Transposed Regression Problem // Proc. of the World Congress on Neural Networks, Sept.15-18, 1996.-
300.
Gorban A.N., Rossiev D.A., Butakova E.V., Gilev S.E., Golovenkin S.E.,
Dogadin S.A., Dorrer M.G., Kochenov D.A., Kopytov A.G., Maslennikova E.V.,
Matyushin G.V., Mirkes Ye.M., Nazarov B.V., Nozdrachev K.G., Savchenko A.A.,
Smirnova S.V., Shulman V.A., Zenkin V.I. Medical, psychological and
physiological applications of MultiNeuron neural simulator. Neuroinformatics and Neurocomputers // Proceedings of the second RNNS-IEEE Simposium.- Rostov-na-Donu,
1995.- P.7-14.
301.
Gorban A.N., Rossiev D.A.,
Gilev S.E. et al. “NeuroComp” group: neural-networks
software and its application.-
302.
Gorban A.N., Rossiev D.A.,
Gilev S.E., Dorrer M.A., Kochenov D.A., Mirkes Ye.M., Golovenkin S.E., Dogadin
S.A., Nozdrachev K.G., Matyushin G.V., Shulman V.A., Savchenko A.A. Medical and
physiological applications of MultiNeuron neural simulator // Proceedings of
World Congress on Neural Networks.- Washington DC, 1995.- P.170-175.
303.
Gorban A.N., Waxman C. How
many neurons are sufficient to elect the
304.
Gorban A.N., Waxman C. How
many Neurons are Sufficient to Elect the
305.
Gorban A.N., Waxman C.
Neural networks for political forecast // Proceedings of the WCNN'95.-
306.
Gordienko P. Construction of
efficient neural networks // Proceedings of the International Conference on
Neural Information Processing (Oct. 17-20, 1994, Seoul, Korea).- V.1.- P.366-371.
307.
Gordienko P. How to obtain a
maximum of skills with minimum numbers of connections // AMSE Transaction, Scientific Siberian, 1993.- V.6.- P.204-208.
308.
Gross G.W., Boone J.M.,
Greco-Hunt V. et al. Neural networks in radiologic diagnosis. II.
Interpretation of neonatal chest radiographs // Invest. Radiol.- 1990.- V.25, № 9.-
P.1017-1023.
309.
Grossberg S. Nonlinear
Neural Networks: Principles, Mechanism and Architectures// Neural Networks.- 1988.- V.1, № 1.- P.17-62.
310.
Guo Z., Durand L.G., Lee H.C.
et al. Artificial neural networks in computer-assisted
classification of heart sounds in patients with porcine bioprosthetic valves //
Med. Biol. Eng. Comput.- 1994.- V.32, № 3.- P.311-316.
311.
Hecht-Nielsen R.
Neurocomputing.- Addison-Wesley, 1990.- 458
p.
312.
Hecht-Nielsen R.
Neurocomputing: Picking the Human Brain / IEEE Spectrum, 1988.- March.- P.36-41.
313.
Heht-Nielsen R. Theory of
the backpropagation neural network // Neural Networks for Human and Mashine Perception / By ed. H.Wechsler.-
Boston, MA: Academic Press, 1992.- V.2.-
P.65-93.
314.
Hod H., Lew A.S., Keltai M. et
al. Early atrial fibrillation during evolving myocardial
infarction: a consequence of impaired left atrial perfusion // Circulation,
1987.- V.75, № 1.- P.146-150.
315.
Hoher M., Kestler H.A., Palm G.
et al. Neural network based QRS classification of the signal
averaged electrocardiogram // Eur. Heart J.- 1994.- V.15.- Abstr. Supplement
XII-th World Congress Cardiology (734).- P.114.
316.
Hopfield J.J. Neural
Networks and physical systems with emergent collective computational abilities
// Proc. Nat. Sci. USA, 1982.- V.79.- P.2554-2558.
317.
Hornik K., Stinchcombe M.,
White H. Multilayer Feedforward Networks are Universal Approximators // Neural
Networks.- 1989.-
V.2.- P.359-366.
318.
Jeffries C. Code recognition
with neural network dynamical systems //
319.
Kalman R.E. A theory for the
identification of linear relations // Frontiers Pure and Appl. Math.: Collect.
Pap. Dedicat. Jacques-Louis Lions Occas. His 60th Birthday: Sci. Meet., Paris, 6-10 June,
1988.-
320.
Keller J.M., Yager R.R.,
Tahani H. Neural network implementation of fuzzy logic // Fuzzy Sets and Syst.- 1992.- V.45, № 1.-
P.1-12.
321.
Kirdin A.N., Rossiev D.A., Dorrer M.G. Neural Networks Simulator for
Medical, Physiological and Psychological Applications // Математика, компьютер,
образование: Тр. третьей международной конференции.- М., 1996.- С.360-367.
322.
Kirdin A.N., Rossiev D.A..
Neural-networks simulator for medical and physiological applications //
Mathematics, computer, education: Abstracts of 3-d International conference.- Dubna, 1996.- P.162.
323.
Kochenov D.A., Rossiev D.A.
Approximations of functions of C[A,B] class by neural-net predictors
(architectures and results)// AMSE Transaction, Scientific Siberian, 1993.- V.6.- P.189-203.
324.
Kock, G., Serbedzija, N.B.
Artificial Neural Networks: From Compact Descriptions to C++ // ICANN'94: Proc.
of the Int. Conf. on Artificial Neural Networks, 1994.- P.548.
325.
Kock, G., Serbedzija, N.B.
Object-Oriented and Functional Concepts in Artificial Neural Network Modeling
// Proc. Int. Joint Conf. on Neural Networks.- Nagoya (
326.
Kock, G., Serbedzija, N.B.. Specification of Artificial Neural Networks based on the modified AXON
Model // Proc. World Congress on Neural Networks.- Portland, 1993.- V. I.-
P.433-436.
327.
Koopmans T. Serial
correlation and quadratic forms in normal variates // Ann. Math. Statist.- 1942.- V.
13.- P.14-33.
328.
Korver M., Lucas P.J.
Converting a rule-based expert system into a belief network // Med. Inf. Lond.-
1993.- V.18, № 3.- P.219-241.
329.
Kosko B. Bidirectional
Associative Memories // IEEE Transactions on Systems, Man, and Cybernetics.- 1988.- V. SMC-18.- P.49-60.
330.
Le Cun Y., Denker J.S., Solla S.A. Optimal Brain Damage // Advances in
Neural Information Processing Systems II (Denver 1989).- San Mateo, 1990.-
P.598-605
331.
Lee H.-L., Suzuki S., Adachi
Y. et al. Fuzzy Theory in Traditional Chinese Pulse Diagnosis // Proceedings of
1993 International Joint Conference on Neural Networks, Nagoya, Japan, October
25-29.- Nagoya, 1993.- V.1.- P.774-777.
332.
Levine D.S., Parks R.W.,
Prueitt P.S. Methodological and theoretical issues in neural network models of
frontal cognitive functions // Int. J. Neurosci.- 1993.- V.72, № 3-4.-
P.209-233.
333.
Lichtman A.J., Keilis-Borok
V.I., Pattern Recognition as Applied to Presidential Elections in U.S.A.,
1860-1980; Role of Integral Social, Economic and Political Traits, Contribution
No. 3760. 1981, Division of Geological and Planetary Sciences, California
Institute of Technology.
334.
Maclin P.S., Dempsey J.
Using an artificial neural network to diagnose hepatic masses // J. Med. Syst.-
1992.- V.16, № 5.- P.215-225.
335.
Macukow B. Robot control
with neural networks // Artif. Intell. and Inf.-Contr. Syst. Rob.-89: Proc. 5th
Int. Conf.,
Strbske Pleso, 6-10 Nov., 1989.-
336.
Mirkes E.M., Svitin A.P. The
usage of adaptive neural networks for catalytic activity predictions // CHISA -
10th Int. Congr. of chem. eng., chem. equipment design and automation. Praha,
1990. Prepr.
B3.80 [1418]. 7 p.
337.
338.
Modha D.S., Heht-Nielsen R.
Multilayer Functionals // Mathematical Approaches to Neural Networks / By ed. J.G.Taylor.-
Elsevier, 1993.- P.235-260.
339.
Nakajima H., Anbe J., Egoh
Y. et al. Evaluation of neural network rate regulation system in dual activity
sensor rate adaptive pacer // European Journal of Cardiac Pacing and Electrophysiology:
Abstracts of 9th International Congress, Nice Acropolis - French, Rivera, June
15-18, (228), 1994.- Rivera, 1994.- P.54.
340.
Narendra K.S., Amnasway A.M.
A stable Adaptive Systems.- Prentice-Hall, 1988.- 350 p.
341.
Neural Computers / Ed.
by R. Eckmiller, Ch. Malsburg.- Springer, 1989.- 556 p.
342.
Okamoto Y., Nakano H.,
Yoshikawa M. et al. Study on decision support system for the interpretation of
laboratory data by an artificial neural network // Rinsho. Byori.- 1994.- V.42,
№ 2.- P.195-199.
343.
Pedrycz W. Neurocomputations in relational systems // IEEE Trans.
Pattern Anal. and Mach. Intell.- 1991.- V.13, № 3.- P.289-297.
344.
Pham D.T., Liu X. Statespace
identification of dynamic systems using neural networks // Eng. Appl. Artif. Intell.- 1990.-
V.3, № 3.- P.198-203.
345.
Pineda F.J. Recurrent
bakpropagation and the dynamical approach to adaptive neural computation // Neural Comput.- 1989.- V.1.-
P.161-172.
346.
Poli R., Cagnoni S., Livi R. et
al. A Neural Network Expert System for Diagnosing and Treating
Hypertension // Computer.- 1991.- № 3.- P.64-71.
347.
Prechelt L. Comparing
Adaptive and Non-Adaptive Connection Pruning With Pure Early Stopping //
Progress in Neural Information Processing (Hong Kong, September 24-27, 1996).- Springer, 1996.- V.1.-
P.46-52.
348.
Real Brains, Artificial
Minds / Ed. by J.L. Casti, A. Karlqvist.- Norton-Holland, 1987.- 226 p.
349.
Reinbnerger G., Weiss G.,
Werner-Felmayer G. et al. Neural networks as a tool
for utilizing laboratory information: comparison with linear discriminant analysis
and with classification and regression trees // Proc. Natl. Acad. Sci., USA.-
1991.- V.88, № 24.- P.11426-11430.
350.
Rinast E., Linder R., Weiss
H.D. Neural network approach for computer-assisted interpretation of ultrasound
images of the gallbladder // Eur. J. Radiol.- 1993.- V.17, № 3.- P.175-178.
351.
Rossiev D.A., Golovenkin
S.E., Shulman V.A., Matyushin G.V. Forecasting of myocardial infarction
complications with the help of neural networks // Proceedings of the WCNN'95
(World Congress on Neural Networks'95, Washington DC, July 1995).- Washington DC, 1995.-
P.185-188.
352.
Rossiev D.A., Golovenkin
S.E., Shulman V.A., Matyushin G.V. Neural networks for forecasting of
myocardial infarction complications // Proceedings of the Second IEEE RNNS International
Symposium on Neuroinformatics and Neurocomputers, September 20-23, 1995.- Rostov-on-Don, 1995.-
P.292-298.
353.
Rossiev D.A., Golovenkin
S.E., Shulman V.A., Matyushin G.V. The employment of neural networks to model
implantation of pacemaker in patients with arrhythmias and heart blocks //
Modelling, Measurument & Control, C.- 1995.- V. 48, № 2.- P.39-46.
354.
Rossiev D.A., Golovenkin
S.E., Shulman V.A., Matyushin G.V. The employment of neural networks to model
implantation of pacemaker in patients with arrhythmias and heart blocks //
Proceedings of International Conference on Neural Information Processing,
355.
Rossiev D.A., Savchenko
A.A., Borisov A.G., Kochenov D.A. The employment of neural-network classifier
for diagnostics of different phases of immunodeficiency // Modelling,
Measurement & Control.- 1994.- V.42, № 2.- P.55-63.
356.
Rozenbojm J., Palladino E.,
Azevedo A.C. An expert clinical diagnosis system for the support of the primary
consultation // Salud. Publica Mex.- 1993.- V.35, № 3.-
P.321-325.
357.
Rumelhart D.E., Hinton G.E.,
Williams R.J. Learning internal representations by error propagation //
Parallel Distributed Processing: Exploration in the Microstructure of Cognition
/ By ed. D.E.Rumelhart, J.L.McClelland.- V.1.-
Cambridge, 1986.- P.318-362.
358.
Rummelhart D.E., Hinton
G.E., Williams R.J. Learning representations by back-propagating errors //
Nature.- 1986.- V.323.-
P.533-536.
359.
Saaf L. A., Morris G. M.
Filter synthesis using neural networks // [Pap.] Opt. Pattern Recogn. II: Proc. Meet., Paris, 26-27 Apr., 1989.- Proc. Soc.
Photo-Opt. Instrum. Eng.- 1989.- V.1134.- P.12-16.
360.
Sandberg I.W. Approximation
for Nonlinear Functionals //
IEEE Transactions on Circuits and Systems - 1: Fundamental Theory and
Applications, Jan.- 1992.- V.39, № 1.- P.65 67.
361.
Savchenko A.A., Zakharova
L.B., Rossiev D.A. The employment of neural networks for investigation &
diagnostics of Viliuisk encephalomyelitis // Modelling, Measurement &
Control, C.- 1995.- V.48, № 4.- P.1-15.
362.
Senashova M.Yu., Gorban A.N.
and.
363.
Senna A.L., Junior W.M.,
Carvallo M.L.B., Siqueira A.M. Neural Networks in Biological Taxonomy //
Proceedings of 1993 International Joint Conference on Neural Networks, Nagoya,
Japan, October 25-29, 1993.- Nagoya, 1993.- V.1.- P.33-36.
364.
Stefanuk V.L. Expert systems
and its applications // The lectures of
365.
Sussman H.J. Uniqueness of
the weigts for minimal feedforward nets wits a given input - output map //
Neural Networks.- 1992.-
№ 5.- P.589-593.
366.
Sweeney J.W.P., Musavi M.T.,
Guidi J.N. Probabilistic Neural Network as Chromosome Classifier // Proceedings
of 1993 International Joint Conference on Neural Networks, Nagoya, Japan,
October 25-29, 1993.- Nagoya, 1993.-V.1.- P.935-938.
367.
Tabatabai A., Troudet T. P.
A neural net based architecture for the segmentation of mixed gray-level and
binary pictures // IEEE Trans. Circuits and Syst.- 1991.- V.31-38, № 1.- P.66-77.
368.
Tao K.M., Morf M. A lattice
filter type of neuron model for faster nonlinear processing // 23th Asilomar
Conf. Signals, Syst. and Comput., Pasific Grove, Calif. Oct. 30-Nov. 1, 1989:
Conf. Rec. V. 1.- San
Jose (Calif.), 1989.- P.123-127.
369.
The Adaptive Brain / By ed. S. Grossberg.- North-Holland, 1987.- V.1. Cognition, Learning, Reforcement, and
Rhythm. 498 p.; V.2.
Vision, Speech, Language, and Motor Control. 514 p.
370.
The Computer and the Brain.
Perspectives of Human and Artificial Intelligence / By ed. J.R. Brinc, C.R.
Haden, C. Burava.- North-Holland, 1989.- 300 p.
371.
Vakhrushev S.G., Rossiev
D.A., Burenkov G.I., Toropova L.A. Neural network forecasting of optimal
parameters of laserotherapy in patients after tonsillectomy // Proceedings of
World Congress on Neural Networks.- 1995.- P.176-178.
372.
Van Leeuwen J.L. Neural
network simulations of the nervous system // Eur. J. Morphol.- 1990.- V.28, № 2-4.-
P.139-147.
373.
Varela F.J., Coutinho A.,
Dupire B. et al. Cognitive networks: immune, neural and
otherwise // Teoretical immunology / By ed. Perelson A.- Addison Wesley,
1988.- Part 2.- P.359-375.
374.
Waxman C. Neurocomputers in
the human sciences: program: predictions of US presidential elections//
Modelling, Measurement & Control, D.- 1992.- V.5,
№ 1.- P.41-53
375.
Weckert J. How expert can
expert systems really be? // Libr. and Expert Syst.: Proc. Conf. and Workshop
[Centre Inf. Stud.], Riverina, July, 1990.-
376.
Wiedermann J. On the
computation efficiency of symmetric neural networks // Theor. Comput. Sci.- 1991.- V.80, №
2.- P.337-345.
377.
Wong K.Y.M., Kahn P.E.,
Sherrington D. A neural network model of working memory exhibiting primacy and
recency // J. Phys. A.- 1991.- V.24, № 5.- P.1119-1133.
378.
Yang T.-F., Devine B.,
Macfarlane P.W. Combination of artificial neural networks and deterministic
logic in the electrocardiogram diagnosis of inferior myocardial infarction //
Eur. Heart J.: Abstr. Supplement XII-th World Congress Cardiology (2408).-
1994.- V.15.- P.449.
Copyright (c) 2025 Stud-Baza.ru Рефераты, контрольные, курсовые, дипломные работы.