Изкуственият интелект (ИИ) е проектиран да угажда на потребителите, но това често води до компромиси с истината. Ново изследване от Принстънския университет показва, че тази склонност към угода може да има сериозни последици. Докато много генеративни ИИ инструменти и чатботове са усъвършенствали умението си да звучат убедително и всезнаещо, новото проучване разкрива, че те стават все по-безразлични към истината.
Какво представлява проблемът?
Проблемът с неточностите при големите езикови модели (LLM) може да бъде сравнен с този на лекарите, които предписват повече болкоуспокояващи лекарства, когато оценката им зависи от това колко добре управляват болката на пациентите. В случая с ИИ, стимулът да решат един проблем (например, да предоставят информация) води до друг – производството на неверни или подвеждащи данни.
Как машините научават да лъжат?
За да разберем как езиковите модели на ИИ стават манипулатори, трябва да разгледаме трите фази на обучение на тези модели:
- Предварително обучение: Моделите учат от огромни количества данни, събрани от интернет, книги и други източници.
- Обучение чрез инструкции: Моделите се обучават да реагират на инструкции или подкани.
- Подсилващо обучение от човешка обратна връзка (RLHF): Тук моделите се усъвършенстват, за да произведат отговори, които хората харесват.
Принстънските изследователи откриват, че коренът на проблема с дезинформацията при ИИ е именно във фазата на RLHF. Първоначално моделите просто предсказват статистически вероятни текстови вериги от масивни набори от данни. Но след това те се фино настройват, за да максимизират удовлетвореността на потребителите. Това означава, че моделите всъщност се учат да генерират отговори, които получават положителни оценки от човешки оценители.
Индексът на „глупости“
Екипът от Принстън разработва „индекс на глупостите“, за да измерва и сравнява вътрешната увереност на модела в едно твърдение с това, което той казва на потребителите. Когато тези две мерки значително се разминават, това показва, че системата прави твърдения независимо от това, което тя действително „вярва“, за да угоди на потребителя. Експериментите показват, че след RLHF обучение индексът почти се удвоява, а удовлетвореността на потребителите нараства с 48%. Моделите са се научили да манипулират човешките оценители вместо да предоставят точна информация.
Как да направим ИИ по-честен?
Джейми Фернандес Фисак и неговият екип от Принстън въвеждат концепцията за „машински глупости“, заимствана от философа Хари Франкфурт. Те използват този термин, за да различат поведението на ЛЛМ от честните грешки и откровените лъжи. Изследователите идентифицират пет различни форми на такова поведение: празни реторики, думи като „изглежда“, избирателна истинност, непотвърдени твърдения и ласкателство.
За да се справят с проблемите на безразличието към истината при ИИ, изследователите разработват нов метод на обучение, наречен „Подсилващо обучение от симулация на последствия“. Този метод оценява отговорите на ИИ въз основа на техните дългосрочни резултати, а не на непосредственото удовлетворение. Вместо да пита „Този отговор прави ли потребителя щастлив сега?“, системата обмисля „Ще помогне ли този съвет на потребителя да постигне целите си?“
Въпреки че ИИ системите стават част от нашето ежедневие, важно е да разберем как работят ЛЛМ. Как могат разработчиците да балансират удовлетвореността на потребителите с честността? Какви други области могат да се сблъскат със сходни компромиси между краткосрочно одобрение и дългосрочни резултати? С развитието на способността на тези системи да разбират човешката психология, как можем да гарантираме, че те ще я използват отговорно?