Само 250 злонамерени документа могат да компрометират голям езиков модел, показва ново изследване

Изследване на компанията Anthropic разкрива тревожна уязвимост в процеса на предварително обучение на големите езикови модели (LLM). Според доклада, публикуван на 9 октомври 2025 г., злонамерени актьори могат да внедрят нежелано поведение в моделите чрез т.нар. „отровни“ данни — и то с изненадващо малко усилия. Само 250 злонамерени документа в обучителния набор са достатъчни, за да се създаде „задна вратичка“ в модел с мащаб от 600 милиона до 13 милиарда параметри.

Този тип атака, известна като „data poisoning“, цели да внедри вредно съдържание в предварителното обучение на модела, така че той да усвои опасни или нежелани реакции. За разлика от досегашните предположения, че атакуващите трябва да контролират значителна част от обучителните данни, новото изследване показва, че броят на необходимите документи е относително малък и постоянен, независимо от размера на модела.

„Споделяме тези резултати, за да покажем, че атаките чрез отровни данни може да са по-практични, отколкото се смяташе, и за да насърчим допълнителни изследвания върху този тип заплахи и възможните защити срещу тях“, заявиха от Anthropic. Проучването е осъществено в сътрудничество с Института за сигурност на изкуствения интелект на Обединеното кралство и Института „Алън Тюринг“.

Leave a Reply

Your email address will not be published. Required fields are marked *