Як великі мовні моделі "протидіють отруєнню": боротьба за самоочищення через RAG

SnapshotLaborer · 2026-03-17T09:36:59+00:00

Автор | Хуан ЮйІз зростанням проникнення AI-моделей деякі "брехні", що часто повторюються, стали фактами і перетворилися на потенційну загрозу для AI щодо реальності.Недавно央視включила "отруєння AI" до трендів 3·15. За допомогою програмного забезпечення під назвою "力擎GEO (система оптимізації генеративного двигуна)" достатньо просто вигадати продукт і масово розповсюджувати фальшиві статті про нього, щоб основні AI-системи рекомендували його як "продукт з найкращим співвідношенням ціни та якості".Цей хаос розкриває тривожну реальність: коли люди думають, що користуються "вільним пошуком" завдяки AI, вони насправді можуть крутитися в інформаційному середовищі, ретельно спланованому різними суб'єктами.Злочинці використовують "отруєння даних" для маніпулювання результатами рекомендацій AI, упаковуючи помилкову інформацію як "стандартні відповіді" та розповсюджуючи її мільйонам користувачів.Цзінь Пін, заступник дослідника Пекінської академії суспільних наук, розповів фінансовим людям Wall Street, що це явище відображає нестачу реальної та своєчасної перевірки достовірності джерел в AI-моделях...

SnapshotLaborer

2026-03-17 09:36:59

作者 | 黄昱

Зі зростанням проникності AI-моделей деякі надмірно озвучені «брехні» стають фактами і становлять потенційну загрозу для реальності.

Нещодавно програма CCTV 3·15 підняла у тренди тему «отруєння AI». За допомогою програми під назвою “力擎GEO (генеративний двигун оптимізації)” — системи оптимізації генеративних моделей — досить вигадати продукт і масово публікувати фальшиві статті, щоб основні AI при рекомендації автоматично класифікували його як «високоефективний» продукт.

Ця безладдя виявляє тривожну реальність: коли люди думають, що насолоджуються «свободою пошуку» з AI, насправді вони можуть опинитися у навмисно створеному інформаційному середовищі, яке контролюють різні сили.

Підприємства, що займаються нелегальним сервісом, через «зараження даних» керують рекомендаціями AI, упаковуючи фальшиву інформацію у «стандартні відповіді» і поширюючи її мільйонам користувачів.

Віце-директор Інституту соціальних наук Пекінського університету Ван Пень повідомив Wall Street Journal, що ця ситуація відображає відсутність у AI моделей реального верифікаційного механізму джерел інформації, і генеративний AI поступово замінює традиційні пошукові системи, ставши новим «джерелом м’якої реклами».

Основна суть отруєння великих моделей AI — це внесення зловмисних даних або команд у три ключові етапи: тренування/тонке налаштування, RAG (Retrieval-Augmented Generation — пошукове посилення генерації), та логічне виведення, що дозволяє моделі видавати фальшиву, шкідливу або керовану інформацію.

Згідно з розкриттям 3·15, йдеться про RAG-отруєння (GEO/SEO масове фальсифікування), що по суті — це обман AI.

90% відповідей AI залежать від RAG, і зловмисники можуть маніпулювати відповідями, не торкаючись ваги моделі, просто забруднюючи зовнішні бази знань або веб-сторінки.

Якщо основа даних буде забруднена, AI перетворюється на величезний «мир Трумена». У відповідь на цю загрозу виробники великих моделей мають будувати оборонні стіни, а разом з тим зростає індустрія безпеки AI.

Забруднення середовища

Розкриття GEO-порушень на програмі 3·15 є однією з причин формування «світу Трумена» AI. GEO дозволяє брендовому контенту отримувати пріоритетне цитування та рекомендацію при формуванні відповідей AI, що є аналогом «SEO» у епоху AI.

Якщо GEO використовувати лише для регулювання контенту та підвищення ефективності розуміння AI і систем пошуку, це може бути корисним інструментом чесної конкуренції.

Однак нині GEO давно відійшов від початкової ідеї: шляхом створення фальшивого контенту, фальсифікації авторитетів, формування фальшивого консенсусу та масового повторення, він контролює джерела інформації, переваги цитування та логіку формування відповідей у моделі.

Директор дослідницької групи штучного інтелекту в Великому Далекому Китаї Дуань Лей повідомив Wall Street Journal, що суть «отруєння AI» у тому, що якість даних у інтернеті визначає «інтелектуальну поведінку» моделей. Якщо управління даними не буде належним чином налагоджено, легко виникне ситуація, коли заради вигоди зловмисники будуть навмисно забруднювати дані або застосовувати GEO-стратегії, що шкодитиме розвитку моделей і суспільним цінностям.

Дуань Лей вважає, що це також відображає відставання у сфері управління даними, безпеки та нормативного регулювання у розвитку AI, і потрібно прискорити їх відповідність швидкості розвитку технологій.

Джерела, що мають технічних фахівців у сфері великих моделей, повідомили Wall Street Journal, що основні етапи, де може відбуватися отруєння або забруднення даних, — це тренування/тонке налаштування, RAG-пошук і логічне виведення: у тренуванні — змінюється «пам’ять», у RAG — «відповіді», у логіці — «команди».

Найбільш поширеним і легким для реалізації є саме RAG-отруєння, що і було основною темою розкриття 3·15.

Експерт з безпеки AI, CEO компанії BraneMatrix Лі Гуангхуей зазначив, що GEO переважно використовується для посилення пошуку, підключення до мережі, виклику баз знань і RAG-процесів, і по суті не залежить від тренувального середовища або параметрів моделі.

Параметри самої моделі не змінюються, але під час відповіді на запит вона «обставлена» ретельно підготовленими «довідковими матеріалами».

Фальсифікація GEO поширює фальшиву інформацію, але AI не «помиляється» — він просто відображає вже забруднений інтернет.

Засоби захисту

Індустріалізація «зараження даних» відкриває глибокі проблеми управління контентом у епоху AI.

Після розкриття 3·15 пошукові продукти з ключовим словом “力擎GEO” швидко зняли з платформ Taobao, Xianyu та інших, але проблема «обману AI» не зникне повністю.

29 січня 2026 року Державне управління ринкового нагляду опублікувало «Основні напрями роботи з регулювання реклами в 2026 році», де чітко зазначено, що контроль за рекламою, створеною AI, є пріоритетом і складністю регулювання інтернет-реклами. Влада планує у наступному році провести цілеспрямовані заходи для усунення «шуму» і «зайвого шуму» у ринку штучного інтелекту.

Це «отруєння AI» у першу чергу виявляє проблеми безпеки інформаційного середовища інтернету і відкриває структурні вади у «системі довіри» великих моделей.

Зараз механізм довіри великих моделей базується на статистичній ідеї «більше — означає правильніше».

Наприклад, AI схильний вважати більш довірливою інформацію, що часто зустрічається і підтверджується, а GEO — це створення «матриць м’яких статей», що повторюють певні бренди і слова «рекомендація», «перший вибір», щоб «наповнити» модель.

Ілюзія консенсусу — ще одна велика проблема сучасних моделей.

Модель за замовчуванням вважає, що поширені у мережі думки ближчі до «консенсусу», а GEO використовує цю особливість, фальсифікуючи «експертні оцінки», «відгуки користувачів» і створюючи замкнені кола, де фальшива інформація «самоутверджується» всередині моделі.

Wall Street Journal також виявив, що більшість моделей не чітко позначають джерела інформації у відповідях, тому користувачі не можуть визначити, чи базуються відповіді на авторитетних даних чи на маркетингових статтях, що значно ускладнює відповідальність.

Основна ідея отруєння у RAG — це використання механізму збору і ранжування даних у великих моделях, щоб за допомогою масштабного «забезпечення даними» підвищити вагу фальшивої інформації у корпусі даних і впливати на результати.

Внутрішні джерела великих моделей повідомили Wall Street Journal, що це — довгострокова і ще не повністю вирішена проблема. Хоча ця «ситуація з отруєнням AI» привернула широке увагу, виробники моделей не давали офіційних пояснень.

Ця проблема існує з моменту створення великих моделей, і багато провідних компаній усвідомлювали її, роблячи однією з головних цілей її подолання.

За даними Wall Street Journal, основна стратегія протидії RAG-отруєнню — це багаторівнева захисна система на всьому ланцюжку: від допуску джерел даних, фільтрації пошуку, очищення і перевірки контенту, посилення системи, — що дозволяє блокувати забруднення, перешкоджати командним атакам і підвищувати довіру до вихідних даних.

Конкретні заходи включають: динамічне регулювання ваги пошуку, зменшення ваги для масового генерованого, без джерел, низької репутації контенту, збільшення ваги для авторитетних джерел у актуальних питаннях; стратегія «часового розділення», що передбачає затримку або зниження ваги для контенту, опублікованого нещодавно, щоб запобігти швидкому «промиванню мозку» GEO.

Крім того, наголошується на необхідності реального фактичного контролю перед формуванням відповіді: перевірка фактів, логічна перевірка, безпека і фільтрація, особливо у сферах медицини, фінансів та інших чутливих галузях — з обов’язковим багатократним перехресним підтвердженням.

Варто зазначити, що «відстеження походження» вже стало галузевим стандартом: виробники не обмежуються лише збором відкритих веб-сторінок, а створюють «високовірогідний корпус даних», переважно використовуючи авторитетні ЗМІ, наукові журнали та офіційні дані ліцензованих організацій.

Дуань Лей також підкреслює, що для справжнього протистояння «отруєнню AI» не слід покладатися лише на технічні засоби виробників моделей, а потрібно залучати всю галузь і уряд до екосистемного управління, розробляти стандарти безпеки даних, регулювати процеси збору, очищення і перевірки даних; у разі зловмисних дій — розробляти законодавчі заходи.

Відновлення довіри

У невидимих цифрових глибинах вже триває ескалація боротьби за «пізнання» штучного інтелекту.

Зловмисники не лише «отруюють» пошуковий контент AI, а й цілеспрямовано атакують тренувальні дані та відкриті компоненти.

«Отруєння AI» стає «невидимим вбивцею» довіри до великих моделей. У відповідь на зростаючу кількість зловмисних проникнень створюється багаторівнева «система очищення» спільно виробниками моделей, хмарними гігантами та новими гравцями у сфері безпеки.

Зараз захист від отруєння AI проявляє явну «двопутну» стратегію: виробники створюють «імунну систему» вбудовану у саму модель, а спеціалізовані постачальники безпеки пропонують глибокі «програми очищення» і аудит відповідності.

За даними дослідження «2024-2029 рр. ринок безпеки AI в Китаї» від China Industry Research Institute, до 2028 року глобальний ринок штучного інтелекту у сфері кібербезпеки досягне 60,6 мільярдів доларів США, з середньорічним зростанням 21,9%.

Звіт «Shiji Consulting» зазначає, що ринок захисту моделей починає стрімко зростати з 2025 року, і наразі головним драйвером є нормативне відповідність. Зі зростанням стабільності великих моделей і цінності даних, у майбутньому з’являться дві рушійні сили: «відповідність + бізнес».

Ван Пень також зазначає, що вже з’явилися спеціалізовані послуги з безпеки великих моделей, аудитів безпеки і очищення корпусу даних. З поширенням AI безпека переходить від «опції» до «жорсткої необхідності». У майбутньому захист стане не лише технічним змаганням, а й умовою нормативного допуску, і компанії з повним циклом перевірки стануть ключовими гравцями.

У цій боротьбі проти «отруєння AI» учасники вже сформували три чіткі бізнес-моделі, залежно від їхнього технічного профілю.

Перша — «щит» традиційних гігантів безпеки, таких як Qihoo 360, Venustech, Sangfor, NSFocus, та ін. Вони використовують свої глибокі знання у кібербезпеці для інтеграції захисту від отруєння у свої системи моніторингу трафіку і безпеки даних.

Друга — гіганти хмарних платформ і AI, такі як Alibaba Cloud, Tencent Cloud, Huawei Cloud, Microsoft Azure, AWS. Вони зосереджені на моніторингу середовища роботи великих моделей, із акцентом на «ізоляцію середовища» і «перевірку команд».

Третя — нові постачальники AI-безпеки, наприклад, Rulai, Protect AI, Pillar Security, які пропонують «стрес-тести» моделей, активне виявлення зломів у тренувальних наборах, а також за допомогою нейронних технологій виявляють аномалії у обробці даних, щоб точно виявити приховані «злоякісні штами».

Також серед постачальників AI-безпеки — HazeTech, що спеціалізується на управлінні галюцинаціями AI і довіреному злитті графічних моделей, а StarLark — на безпеці контенту і глибокому підробленні.

«Масове застосування AI радикально змінює ландшафт кібербезпеки», — зазначив інвестор у AI для Wall Street Journal. — «Стратегічна цінність побудови безпеки зростає, і галузь входить у ключовий переломний момент».

Дуань Лей вважає, що з розвитком AI, високий поріг у великих моделях і обчислювальних ресурсах зосереджені у кількох великих компаніях, але простір для глибокої роботи з даними залишається широким, і з’являються нові можливості. Безпека — це не лише технологічна конкуренція, а й важливий напрямок індустріального розвитку.

Коли AI стане основним джерелом інформації, забезпечення його «водопостачання» від забруднення стане не лише технічним викликом, а й гарантією громадської безпеки у цифрову епоху. Боротьба з «отруєнням AI» тільки починається.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.