Предположим, мы хотим сделать некую информационную систему (ИС), способную к самообучению, то есть к тому, чтобы после неоднократного повторения обучающей ситуации наша ИС самостоятельно, без предварительно заложенной в ней жесткой программы, находила некое решение этой ситуации (назовем его "путь").
Ключевых вопросов будет, собственно, два:
1. Является ли данный путь действительно приемлемым решением ситуации? (Например, распознала ли ИС лицо человека на фотографии.)
2. Как ИС узнает, что данный путь является таким решением?
Для того, чтобы это работало в реальных условиях, достаточно очевидны еще два важных момента:
а). Пространство решений не двоично (да-нет), а представляет собой непрерывный континуум, то есть ИС делает выбор на основании "достаточно большой вероятности" того, что данный путь является решением (ИС считает лицом человека предмет округлой формы, на котором имеются признаки носа, глаз и рта, похожие на них не менее чем на 85%).
б). При этом континуум с одной стороны ограничен решением абсолютно неприемлемым (ИС принимает за лицо человека любой круглый предмет).
Интересный вопрос заключается в следующем:
в). ограничен ли этот континуум с ДРУГОЙ стороны?
г). если да, то чем (то есть -- имеется ли решение, абсолютно приемлемое)?
При некотором размышлении очевидно, что этот вопрос довольно нетривиален и не имеет однозначного ответа.
Так вот, нам надо, чтобы наша система обучалась. Для обучения она должна получать стимулы, подталкивающие ее к правильному решению (подкрепляющие стимулы, стимулы выбора пути). Эти стимулы должны воздействовать на нее обязательно С ДВУХ СТОРОН, то есть создавать положительное подкрепление, если направление движения ИС приближается к правильному решению, и отрицательное подкрепление, если ИС, наоборот, от правильного решения отходит.
Грубо говоря, мы должны создать для ИС "боль" и "удовольствие".
И вот тут мы приходим к очень удобной аналогии с биологическими организмами, которые, собственно, и есть в чистом виде самообучающиеся системы.
Но прежде чем развивать эту аналогию, порассуждаем немного о пункте 1 из самого начала поста. Действительно, а что такое "приемлемое решение ситуации"? Мы снова вынуждены задать два вопроса:
1.1. Для кого приемлемое?
1.2. По какому критерию?
Возможные ответы на вопрос 1.1, естественно, следующие:
1.1.а: для самой информационной системы;
1.1.б: для экспериментатора, который хочет получить от ИС решение СВОЕЙ задачи.
Соответственно, критерии (вопрос 1.2) для каждого из этих ответов будут РАЗНЫМИ.
Назовем эти критерии ЦЕЛЯМИ, и тогда:
1.1.а -- это ВНУТРЕННИЕ ЦЕЛИ самообучающейся системы (вторичные), а
1.1.б -- это ВНЕШНИЕ ЦЕЛИ (первичные, ибо систему для их достижения и разрабатывали).
Возвращаясь к биологическим организмам, можно сказать, что их внутренние цели (в долгосрочной перспективе) -- сохранение существования организма, а внешние -- хм. Тут мы упираемся в вопрос, кто и зачем их "разрабатывал" -- заметьте, я до сих пор совершенно осознанно не употреблял термин "создавал". (С некоторой, достаточной для наших рассуждений, достоверностью можно принять гипотезу, что внешней целью является максимизация количества существ данного биологического вида в условиях данного биоценоза. Подчеркиваю: для наших рассуждений. Про существование или несуществование "экспериментатора" и его цели молчу, принимая их в наших дальнейших рассуждениях как непознаваемые.)
Учитывая, что мы уже вышли за нормальный для поста в ЖЖ размер, дальнейшие эти рассуждения будут поневоле очень сжатыми -- фактически тезисами. Напомню, что мы обсуждаем критерии, по которым самообучающаяся система определяет, что результат обучения приближает ее к достижению внутренних и внешних целей, используя аналогию биологического существа.
Итак, пойдем по постепенно усложняющимся уровням.
Уровень 1. Подкрепляющим стимулом являются реакции на внешние физические воздействия. Отрицательный подкрепляющий стимул: боль, положительный -- удовольствие. Важно, что положительного подкрепляющего стимула может НЕ БЫТЬ вообще (см. вопрос "в"): положительным стимулом является прежде всего прекращение отрицательного (или его уменьшение).
Уровень 2. Подкрепляющим стимулом являются реакции на удовлетворение/неудовлетворение собственных физических потребностей (голод, половой инстинкт, зуд, позывы к опорожнению выводящего аппарата...). Отрицательный подкрепляющий стимул -- неприятные ощущения, которые можно приравнять к боли, положительный -- удовольствие (сытость, оргазм и др.). Здесь без положительного стимула уже не удается обойтись.
Уровень 3. Подкрепляющим стимулом являются реакции на воздействие со стороны других особей того же вида (вступает в действие социальный фактор: осуждение или одобрение, понижение статуса или его рост, и т.п.). Отрицательный подкрепляющий стимул -- ухудшение возможностей Уровня 2 (ограничение доступа к самкам или еде), а то и воздействие через Уровень 1: избиение, убийство. Отдельно стоит унижение, так как это в чистом виде отрицательный подкрепляющий стимул Уровня 3, не проявляющийся через предыдущие уровни. Положительный подкрепляющий стимул, соответственно, идет через Уровень 2 (доступ к еде, самкам и т.п.) и -- собственно на Уровне 3 через внешние проявления одобрения со стороны социума.
Сделаем паузу: посмотрим на Уровень 3 более пристально. Обращает на себя внимание то, что с точки зрения ВНУТРЕННЕЙ цели самообучающейся системы он, вообще говоря, не только бесполезен, но может им прямо противоречить. Однако с точки зрения ВНЕШНЕЙ цели, которую мы выше высказали в качестве гипотезы, этот уровень не просто необходим, он крайне важен. Но при единственном условии: что воздействие со стороны других особей приводит к коррекции поведения данной особи в направлении, обеспечивающем достижение этой самой ВНЕШНЕЙ цели -- роста численности особей данного вида в данном биоценозе. Тут надо отметить, что такие вещи, как статусность, вроде бы, влияющие на ВНЕШНЮЮ цель отрицательно (у шимпанзе, например, в юности погибает чуть ли не половина самцов -- в борьбе именно за статус), на самом деле способствуют отбору наиболее генетически полноценных особей.
На уровнях 1 и 2, если вы обратили внимание, вообще нет речи о сознании; оно появляется только на Уровне 3 через эмоции, которые на данном уровне дополняют чисто физиологические формы подкрепляющих стимулов. Почему можно говорить о сознании? Потому что эти эмоции, хоть и довольно примитивные, обусловлены социальным воздействием. И сознание будет играть здесь тем более существенную роль, чем более сложно устроен социум и чем более опосредованы (чем дальше от физических) воздействия социума на особь.
Уровень 4. Подкрепляющим стимулом являются реакции на собственные внутренние (психические) переживания особи. Отрицательный подкрепляющий стимул -- угрызения совести, недовольство собой; положительный -- удовлетворение от правильного поступка, от самореализации и т.п.
Как ни странно, этот уровень чрезвычайно важен с точки зрения ВНЕШНЕЙ цели. Дело в том, что при обучении ИС мы должны стремиться к тому, чтобы достичь именно этого уровня: наша самообучающаяся система обучилась до такой степени, что критерии достижения правильного пути определяются не столько примитивными внешними стимулами, сколько сравнением текущего состояния с идеальным образцом, который сформировался внутри системы (особи) при ее обучении. При этом, однако, остается та опасность, что сформированный идеальный образ может ОТЛИЧАТЬСЯ от того, что необходимо для достижения ВНЕШНЕЙ цели, так как он формировался самопроизвольно на уровнях 1-3.
И тут просматривается Уровень 5, который от Уровня 4 отличается только тем, что способы поиска соответствия между идеальным образом и текущим состоянием остаются у ИС теми же, что на четвертом уровне, а вот сам идеальный образ закладывается в нее (систему) извне, готовый (категорический императив? мне больше нравится "система ценностей").
Кстати, обучение нейросети на образцах -- это выход на Уровень 5, минуя предыдущие...
Ключевых вопросов будет, собственно, два:
1. Является ли данный путь действительно приемлемым решением ситуации? (Например, распознала ли ИС лицо человека на фотографии.)
2. Как ИС узнает, что данный путь является таким решением?
Для того, чтобы это работало в реальных условиях, достаточно очевидны еще два важных момента:
а). Пространство решений не двоично (да-нет), а представляет собой непрерывный континуум, то есть ИС делает выбор на основании "достаточно большой вероятности" того, что данный путь является решением (ИС считает лицом человека предмет округлой формы, на котором имеются признаки носа, глаз и рта, похожие на них не менее чем на 85%).
б). При этом континуум с одной стороны ограничен решением абсолютно неприемлемым (ИС принимает за лицо человека любой круглый предмет).
Интересный вопрос заключается в следующем:
в). ограничен ли этот континуум с ДРУГОЙ стороны?
г). если да, то чем (то есть -- имеется ли решение, абсолютно приемлемое)?
При некотором размышлении очевидно, что этот вопрос довольно нетривиален и не имеет однозначного ответа.
Так вот, нам надо, чтобы наша система обучалась. Для обучения она должна получать стимулы, подталкивающие ее к правильному решению (подкрепляющие стимулы, стимулы выбора пути). Эти стимулы должны воздействовать на нее обязательно С ДВУХ СТОРОН, то есть создавать положительное подкрепление, если направление движения ИС приближается к правильному решению, и отрицательное подкрепление, если ИС, наоборот, от правильного решения отходит.
Грубо говоря, мы должны создать для ИС "боль" и "удовольствие".
И вот тут мы приходим к очень удобной аналогии с биологическими организмами, которые, собственно, и есть в чистом виде самообучающиеся системы.
Но прежде чем развивать эту аналогию, порассуждаем немного о пункте 1 из самого начала поста. Действительно, а что такое "приемлемое решение ситуации"? Мы снова вынуждены задать два вопроса:
1.1. Для кого приемлемое?
1.2. По какому критерию?
Возможные ответы на вопрос 1.1, естественно, следующие:
1.1.а: для самой информационной системы;
1.1.б: для экспериментатора, который хочет получить от ИС решение СВОЕЙ задачи.
Соответственно, критерии (вопрос 1.2) для каждого из этих ответов будут РАЗНЫМИ.
Назовем эти критерии ЦЕЛЯМИ, и тогда:
1.1.а -- это ВНУТРЕННИЕ ЦЕЛИ самообучающейся системы (вторичные), а
1.1.б -- это ВНЕШНИЕ ЦЕЛИ (первичные, ибо систему для их достижения и разрабатывали).
Возвращаясь к биологическим организмам, можно сказать, что их внутренние цели (в долгосрочной перспективе) -- сохранение существования организма, а внешние -- хм. Тут мы упираемся в вопрос, кто и зачем их "разрабатывал" -- заметьте, я до сих пор совершенно осознанно не употреблял термин "создавал". (С некоторой, достаточной для наших рассуждений, достоверностью можно принять гипотезу, что внешней целью является максимизация количества существ данного биологического вида в условиях данного биоценоза. Подчеркиваю: для наших рассуждений. Про существование или несуществование "экспериментатора" и его цели молчу, принимая их в наших дальнейших рассуждениях как непознаваемые.)
Учитывая, что мы уже вышли за нормальный для поста в ЖЖ размер, дальнейшие эти рассуждения будут поневоле очень сжатыми -- фактически тезисами. Напомню, что мы обсуждаем критерии, по которым самообучающаяся система определяет, что результат обучения приближает ее к достижению внутренних и внешних целей, используя аналогию биологического существа.
Итак, пойдем по постепенно усложняющимся уровням.
Уровень 1. Подкрепляющим стимулом являются реакции на внешние физические воздействия. Отрицательный подкрепляющий стимул: боль, положительный -- удовольствие. Важно, что положительного подкрепляющего стимула может НЕ БЫТЬ вообще (см. вопрос "в"): положительным стимулом является прежде всего прекращение отрицательного (или его уменьшение).
Уровень 2. Подкрепляющим стимулом являются реакции на удовлетворение/неудовлетворение собственных физических потребностей (голод, половой инстинкт, зуд, позывы к опорожнению выводящего аппарата...). Отрицательный подкрепляющий стимул -- неприятные ощущения, которые можно приравнять к боли, положительный -- удовольствие (сытость, оргазм и др.). Здесь без положительного стимула уже не удается обойтись.
Уровень 3. Подкрепляющим стимулом являются реакции на воздействие со стороны других особей того же вида (вступает в действие социальный фактор: осуждение или одобрение, понижение статуса или его рост, и т.п.). Отрицательный подкрепляющий стимул -- ухудшение возможностей Уровня 2 (ограничение доступа к самкам или еде), а то и воздействие через Уровень 1: избиение, убийство. Отдельно стоит унижение, так как это в чистом виде отрицательный подкрепляющий стимул Уровня 3, не проявляющийся через предыдущие уровни. Положительный подкрепляющий стимул, соответственно, идет через Уровень 2 (доступ к еде, самкам и т.п.) и -- собственно на Уровне 3 через внешние проявления одобрения со стороны социума.
Сделаем паузу: посмотрим на Уровень 3 более пристально. Обращает на себя внимание то, что с точки зрения ВНУТРЕННЕЙ цели самообучающейся системы он, вообще говоря, не только бесполезен, но может им прямо противоречить. Однако с точки зрения ВНЕШНЕЙ цели, которую мы выше высказали в качестве гипотезы, этот уровень не просто необходим, он крайне важен. Но при единственном условии: что воздействие со стороны других особей приводит к коррекции поведения данной особи в направлении, обеспечивающем достижение этой самой ВНЕШНЕЙ цели -- роста численности особей данного вида в данном биоценозе. Тут надо отметить, что такие вещи, как статусность, вроде бы, влияющие на ВНЕШНЮЮ цель отрицательно (у шимпанзе, например, в юности погибает чуть ли не половина самцов -- в борьбе именно за статус), на самом деле способствуют отбору наиболее генетически полноценных особей.
На уровнях 1 и 2, если вы обратили внимание, вообще нет речи о сознании; оно появляется только на Уровне 3 через эмоции, которые на данном уровне дополняют чисто физиологические формы подкрепляющих стимулов. Почему можно говорить о сознании? Потому что эти эмоции, хоть и довольно примитивные, обусловлены социальным воздействием. И сознание будет играть здесь тем более существенную роль, чем более сложно устроен социум и чем более опосредованы (чем дальше от физических) воздействия социума на особь.
Уровень 4. Подкрепляющим стимулом являются реакции на собственные внутренние (психические) переживания особи. Отрицательный подкрепляющий стимул -- угрызения совести, недовольство собой; положительный -- удовлетворение от правильного поступка, от самореализации и т.п.
Как ни странно, этот уровень чрезвычайно важен с точки зрения ВНЕШНЕЙ цели. Дело в том, что при обучении ИС мы должны стремиться к тому, чтобы достичь именно этого уровня: наша самообучающаяся система обучилась до такой степени, что критерии достижения правильного пути определяются не столько примитивными внешними стимулами, сколько сравнением текущего состояния с идеальным образцом, который сформировался внутри системы (особи) при ее обучении. При этом, однако, остается та опасность, что сформированный идеальный образ может ОТЛИЧАТЬСЯ от того, что необходимо для достижения ВНЕШНЕЙ цели, так как он формировался самопроизвольно на уровнях 1-3.
И тут просматривается Уровень 5, который от Уровня 4 отличается только тем, что способы поиска соответствия между идеальным образом и текущим состоянием остаются у ИС теми же, что на четвертом уровне, а вот сам идеальный образ закладывается в нее (систему) извне, готовый (категорический императив? мне больше нравится "система ценностей").
Кстати, обучение нейросети на образцах -- это выход на Уровень 5, минуя предыдущие...