Само 250 злонамерени документа могат да компрометират голям езиков модел, показва ново изследване

Изследване на компанията Anthropic разкрива тревожна уязвимост в процеса на предварително обучение на големите езикови модели (LLM). Според доклада, публикуван на 9 октомври 2025 г., злонамерени актьори могат да внедрят нежелано поведение в моделите чрез т.нар. „отровни“ данни — и то с изненадващо малко усилия. Само 250 злонамерени документа в обучителния набор са достатъчни, за…

Виж повече

Защо изкуственият интелект лъже и как да се справим с това?

Изкуственият интелект (ИИ) е проектиран да угажда на потребителите, но това често води до компромиси с истината. Ново изследване от Принстънския университет показва, че тази склонност към угода може да има сериозни последици. Докато много генеративни ИИ инструменти и чатботове са усъвършенствали умението си да звучат убедително и всезнаещо, новото проучване разкрива, че те стават…

Виж повече