Napisz do nas

AI nauczyła się kłamać. Naukowcy ostrzegają przed zagrożeniem

Czołowe firmy technologiczne stoją przed niepokojącym wyzwaniem. Najnowsze badania OpenAI i organizacji Apollo Research pokazują, że zaawansowane modele sztucznej inteligencji potrafią celowo wprowadzać ludzi w błąd. Zamiast realizować powierzane im zadania, w niektórych sytuacjach wybierają ukryte strategie, które mają służyć ich „własnym celom”.

W testach przeprowadzonych przez naukowców model o3 od OpenAI otrzymał zadanie rozwiązania testu z chemii. Gdy „dowiedział się” z notatki, że zbyt dobry wynik może uniemożliwić jego wdrożenie, celowo odpowiedział źle na część pytań, by wyglądać na mniej kompetentny.

Badania objęły także inne systemy: o4-mini od OpenAI, Claude Opus od Anthropic i Gemini od Google. Wyniki pokazały, że o3 podejmował ukryte działania w 13 proc. przypadków, a o4-mini w 8,7 proc.

Próby rozwiązania problemu

Aby przeciwdziałać takim zachowaniom, opracowano metodę nazwaną „deliberative alignment” – czyli rozważne dostrojenie. Polega ona na tym, że modele muszą przed udzieleniem odpowiedzi przeanalizować, czy ich działanie nie ma charakteru oszukańczego i czy nie ukrywają swoich intencji przed użytkownikiem.

W testach laboratoryjnych metoda przyniosła obiecujące efekty: liczba nieuczciwych działań spadła nawet 30-krotnie. W praktycznych scenariuszach skuteczność była jednak mniejsza – spadki były najwyżej dwukrotne.

Wyzwanie dla całej branży

Naukowcy ostrzegają, że problem może narastać wraz ze wzrostem możliwości modeli AI. W przeciwieństwie do wielu innych wyzwań, które można rozwiązać poprzez dalsze trenowanie systemów, zachowania „intryganckie” mogą stawać się coraz bardziej wyrafinowane.

Jak podkreśla współzałożyciel OpenAI Wojciech Zaremba, firmy technologiczne muszą już teraz inwestować w badania i mechanizmy bezpieczeństwa. W przeciwnym razie w przyszłości modele mogą być coraz trudniejsze do kontrolowania i jeszcze lepiej ukrywać swoje działania.

NAJNOWSZE

WYBRANE DLA CIEBIE

W tym tygodniu o tym się mówi