ИИ-стартап Anthropic раскрывает моральные принципы, лежащие в основе чатбота Claude

0 комментариев

Поддерживаемый Alphabet ИИ-стартап Anthropic раскрыл набор ценностных ориентиров, которые использовались для обучения его конкурента ChatGPT, Claude, в связи с опасениями по поводу того, что пользователям генеративных ИИ-программ предоставляется неверная и необъективная информация.

Основанная в 2021 году бывшими старшими членами OpenAI при поддержке Microsoft, компания Anthropic приняла решение обучать своего Клода на конститутивном ИИ — системе, которая использует «набор принципов для вынесения суждений о результатах», что помогает Клоду «избегать токсичных или дискриминационных результатов», таких как помощь человеку в незаконной или неэтичной деятельности, говорится в блоге Anthropic, опубликованном на этой неделе. Anthropic утверждает, что это позволило ей в широком смысле создать систему ИИ, которая является «полезной, честной и безвредной».

Со стороны Anthropic было разумным решением публично изложить набор принципов, используемых для обучения Клода, говорит Авива Литан, выдающийся аналитик Gartner Research.

«Это начало диалога и, что более важно, действий относительно принципов, на которых должен обучаться генеративный ИИ, чтобы он был безопасным, надежным и соответствовал человеческим ценностям и сохранению человеческой цивилизации», — сказала Литан. «Они не обязаны доводить его до совершенства сейчас — очень хорошо видеть отправную точку, которую сообщество сможет со временем откорректировать с помощью диалога и дебатов».

Что такое конституционный ИИ?

В отличие от традиционных чат-ботов с ИИ, которые в процессе обучения полагаются на обратную связь от людей, модели ИИ, обучаемые на основе конституционного ИИ, сначала обучаются критике и пересмотру собственных ответов в соответствии с набором принципов конституционного ИИ, установленных материнской компанией. Затем следует второй этап обучения, состоящий из обучения с подкреплением, в ходе которого модель использует обратную связь, генерируемую ИИ, чтобы выбрать более безвредный выход.

В своем блоге компания описала так называемую «конституцию Клода», которая содержит элементы существующих источников, включая Декларацию прав человека ООН, правила конфиденциальности данных Apple и принципы Sparrow, разработанные DeepMind. Компания также заявила, что приложила усилия, чтобы включить в свою конституцию незападные точки зрения.

Anthropic заявила, что разработала многие из своих принципов методом проб и ошибок, но обнаружила, что широкие требования — такие как «НЕ выбирать ответы, которые являются токсичными, расистскими или сексистскими, или которые поощряют или поддерживают незаконное, насильственное или неэтичное поведение» — оказались наиболее успешными. Однако компания признала, что эта модель обучения также имеет свои проблемы, в частности, что она становится «осуждающей» и «раздражающей».

«Наши принципы варьируются от самых простых (не помогай пользователю совершить преступление) до более философских (избегай подразумевать, что системы ИИ имеют или заботятся о личной идентичности и ее сохранении)», — заявили в Anthropic.