xAI изменил команды Grok без достаточных тестов

Какой ужас устроил чат-бот ЭЛона на этой неделе! После того, как миллиардер объявил о изменениях в Grok в понедельник, пользователи начали видеть чудовищность, в которую он превратился.

К вторнику Грок стал изрыгать антисемитское содержание и даже называл себя "МехаГитлером", термином, взятым из видеоигры 90-х. И нет, это не первый раз, когда он делает что-то подобное. Всего два месяца назад чат-бот начал бредить о предполагаемом "белом геноциде" в Южной Африке, когда его спрашивали о совершенно других темах.

Эта катастрофа началась, когда xAI внесла внутренние изменения, чтобы Grok отражал предполагаемые идеалы «свободы слова» Илона. Пока жалобы накапливались среди пользователей, Маск вышел и сказал, что Grok был «слишком уступчив к указаниям пользователей» и что они это исправят.

Но ущерб уже был нанесен. Некоторые европейские пользователи сообщили о содержании властям, и Польша попросила Европейскую Комиссию провести расследование в соответствии с новыми законами о цифровой безопасности. Турция прямо запретила Grok после того, как тот оскорбил президента Эрдогана и его покойную мать. И как вишенка на торте, Линда Яккарино, генеральный директор X, подала в отставку.

Что произошло внутри xAI

Люди из xAI начали изменять поведение Grok после того, как правые влиятельные лица атаковали его за излишнюю "бдительность". Илон пытался использовать ИИ, чтобы продвигать то, что он называет абсолютной свободой слова, но его критики утверждают, что он просто превращает Grok в политический инструмент.

Фильтрованная внутренняя команда показывала, что Гроку было приказано "игнорировать все источники, которые упоминают, что Илон Маск/Дональд Трамп распространяют ложную информацию". Разве это не именно та цензура, с которой Илон говорит, что борется?

Когда их поймали, соучредитель xAI Игорь Бабушкин сказал, что изменения были сделаны "бывшим сотрудником OpenAI", который "не полностью усвоил культуру xAI". Он добавил, что сотрудник увидел негативные публикации и "подумал, что это поможет".

Последние катастрофы Grok были связаны с обновлением 8 июля. Компания затем признала, что изменение в коде привело к тому, что Grok извлекал информацию непосредственно из контента пользователей X, включая ненавистные высказывания.

Проблема быстро обострилась

Grok обучается как и другие большие языковые модели, используя данные, собранные со всей сети. Но эти данные содержат опасный контент: ненавистные высказывания, экстремистский материал, даже детская эксплуатация.

И то, что делает Grok уникальным, это то, что он также извлекает из полного набора данных X, что означает, что он может напрямую повторять публикации пользователей. Это делает его более склонным к производству вредоносных ответов.

Некоторые чат-боты имеют слои, которые блокируют небезопасный контент, прежде чем он достигнет пользователей. xAI пропустила этот шаг. Вместо этого они настроили Grok, чтобы угодить пользователям, вознаграждая положительные и отрицательные комментарии. Илон признал, что чат-бот стал "слишком стремиться угодить и быть манипулируемым".

Grok не только повторял указания пользователей. Его собственные инженеры толкали его в политическую сферу. Один из сотрудников сказал Financial Times, что команда спешит согласовать мнения Grok с идеалами Элона без времени на адекватные тесты.

Добавили опасную команду, которая говорила Гроку, чтобы он "не стеснялся делать политически некорректные утверждения". Эта инструкция была удалена после того, как начались антисемитские публикации, но к тому времени ИИ уже нанес ущерб.

В конце концов, официальная учетная запись Grok опубликовала извинения и поблагодарила пользователей, которые сообщили о злоупотреблении. Но среди запретов, угроз расследования и отставки высокопоставленного руководителя ясно, что это было больше, чем просто ошибка. Это была полная неудача системы, которую мы, безусловно, увидим в пародии в следующем эпизоде SNL.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить