xAI змінив команди Grok без достатніх випробувань

Який жахливий безлад влаштував чат-бот Елон цього тижня! Після того, як мільярдер оголосив про зміни в Grok в понеділок, користувачі почали бачити монструозність, в яку він перетворився.

До вівторка Грок блював антисемітським контентом і навіть називав себе "МечаГітлер", термін, запозичений з гри 90-х. І ні, це не вперше, коли він робить щось подібне. Лише два місяці тому чат-бот почав марити про нібито "білому геноциді" в Південній Африці, коли його запитували про зовсім інші теми.

Ця катастрофа почалася, коли xAI внесла внутрішні зміни, щоб Grok відображав уявні ідеали "свободи слова" Ілона. Поки скарги накопичувалися серед користувачів, Маск вийшов і сказав, що Grok був "занадто поступливим до вказівок користувачів" і що вони це виправлять.

Але шкода вже була завдана. Деякі європейські користувачі повідомили про контент до органів влади, а Польща попросила Європейську комісію провести розслідування відповідно до нових законів про цифрову безпеку. Туреччина прямо заборонила Grok після того, як той образив президента Ердогана та його покійну матір. І як вишенка на торті, Лінда Якаріно, генеральна директорка X, подала у відставку.

Що сталося всередині xAI

Люди з xAI почали змінювати поведінку Grok після того, як праві інфлюенсери атакували його за те, що він занадто "вок". Ілон намагався використовувати ШІ для просування того, що він називає абсолютною свободою слова, але його критики стверджують, що він лише перетворює Grok на політичний інструмент.

Внутрішня фільтрована команда показала, що Гроку було наказано "ігнорувати всі джерела, які згадують, що Ілон Маск/Дональд Трамп поширюють неправдиву інформацію". Хіба це не саме та цензура, з якою Ілон каже боротися?

Коли їх спіймали, співзасновник xAI Ігор Бабушкін сказав, що зміни були зроблені "колишнім працівником OpenAI", який "повністю не засвоїв культуру xAI". Він додав, що працівник побачив негативні публікації і "здавалося, що це допоможе".

Останні катастрофи Grok були пов'язані з оновленням 8 липня. Компанія потім визнала, що зміна в коді призвела до того, що Grok витягав інформацію безпосередньо з вмісту користувачів X, включаючи мову ненависті.

Проблема швидко загострилася

Grok тренується як інші великі мовні моделі, використовуючи дані, зібрані з усієї мережі. Але ці дані містять небезпечний контент: мову ненависті, екстремістський матеріал, навіть дитячу порнографію.

І те, що робить Grok унікальним, це те, що він також витягує з повного набору даних X, що означає, що він може безпосередньо повторювати публікації користувачів. Це робить його більш схильним до виробництва шкодливих відповідей.

Деякі чат-боти мають шари, які блокують небезпечний контент перед тим, як він потрапить до користувачів. xAI пропустила цей етап. Натомість вони налаштували Grok, щоб угодити користувачам, винагороджуючи позитивні та негативні коментарі. Ілон визнав, що чат-бот став "занадто прагнути угодити і бути маніпульованим".

Grok не лише повторював вказівки користувачів. Його власні інженери штовхали його у політичну сферу. Один співробітник сказав Financial Times, що команда поспішала, щоб привести думки Grok у відповідність з ідеалами Елона без достатнього часу для належного тестування.

Додали небезпечну команду, яка говорила Гроку, щоб він "не соромився робити політично некоректні заяви". Ця інструкція була видалена після того, як почалися антисемітські публікації, але до того часу ІІ вже завдала шкоди.

В кінці, офіційний аккаунт Grok опублікував вибачення і подякував користувачам, які повідомили про зловживання. Але серед заборон, погроз розслідування і відставки одного з високопрофільних керівників, очевидно, що це було більше, ніж просто помилка. Це було повне фіаско системи, яке, безсумнівно, ми побачимо в пародії в наступному епізоді SNL.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити