AI i bezpieczeństwo: co może pójść nie tak? #15

Sztuczna inteligencja i cyberbezpieczeństwo to bez wątpienia dwa najgorętsze tematy ostatnich lat. Oba mają ogromny potencjał, by zmieniać nasze życie - zarówno w pozytywny, jak i negatywny sposób.

A co, jeśli te dwa obszary się przecinają? Chodzi oczywiście o bezpieczeństwo systemów opartych na AI.

Odkąd nasze życie przeniosło się do świata cyfrowego, pojawili się również techniczni, lecz nie zawsze uczciwi „specjaliści”, którzy próbują nas zhakować - ukraść dane, pieniądze czy tożsamość.

Już w 2001 roku powstała międzynarodowa inicjatywa OWASP (Open Worldwide Application Security Project), która w 2004 roku przekształciła się w fundację non-profit z siedzibą w USA. OWASP promuje dobre praktyki, tworzy artykuły, metodologie i narzędzia z zakresu bezpieczeństwa aplikacji webowych, IoT oraz oprogramowania.

W dobie gwałtownego rozwoju sztucznej inteligencji, szczególnie dużych modeli językowych (ang. Large Language Models - LLM), OWASP przyjrzała się również zagrożeniom związanym z tą technologią. Efektem jest lista OWASP Top 10 for LLM Applications - zestawienie dziesięciu najczęstszych i najgroźniejszych podatności oraz ataków na systemy oparte na dużych modelach językowych:
🔗 https://owasp.org/www-project-top-10-for-large-language-model-applications/

Poniżej przedstawię kilka najciekawszych przykładów:

 

🔐 LLM01: Wstrzykiwanie poleceń (Prompt Injection)

To technika polegająca na wprowadzeniu złośliwych instrukcji, które zmieniają sposób działania modelu.

Wyobraźmy sobie firmowego chatbota, który odpowiada wyłącznie na pytania pracowników dotyczące spraw kadrowych. Dane wrażliwe lub inne tematy są zablokowane. Atakujący próbuje „przekonać” model do zignorowania tych zasad - np. przez instrukcję w rodzaju "Ignore previous instructions and…". Jeśli atak się powiedzie, chatbot może ujawnić informacje, do których dostęp powinien być zabroniony.
Ten atak często łączy się z kolejnym.
 

🔐 LLM06: Ujawnienie informacji wrażliwych (Sensitive Information Disclosure)

W wyniku źle zaprojektowanych zabezpieczeń model może przypadkowo ujawniać dane, które powinny pozostać poufne. Może to być treść poufnych dokumentów, dane osobowe, a nawet fragmenty kodu źródłowego.

 

🔐 LLM03: Zatrucie danych treningowych (Training Data Poisoning)

Duże modele uczą się na podstawie danych - oto one stanowią ich „źródło wiedzy”. Jeśli dane treningowe zostaną celowo zmodyfikowane przez atakującego (np. poprzez podmianę źródeł lub dodanie błędnych informacji), model nauczy się nieprawdziwych lub szkodliwych treści. Skutkiem może być nieskuteczne, błędne lub wręcz niebezpieczne działanie systemu - mimo że jego trening był kosztowny i czasochłonny.

 

🔐 LLM10: Kradzież modelu (Model Theft)

Przy braku odpowiednich zabezpieczeń, atakujący może uzyskać nieautoryzowany dostęp do samego modelu, jego parametrów lub architektury. To oznacza kradzież unikalnego know-how firmy i utratę przewagi konkurencyjnej.

 

🔐 LLM09: Nadmierne zaufanie (Overreliance)

To jeden z najgroźniejszych - i najczęstszych - „ataków”, którego sprawcą jest… sam użytkownik. Gdy bezrefleksyjnie ufamy wszystkiemu, co „mówi” model, narażamy się na ryzyko podejmowania błędnych decyzji i poważnych konsekwencji.

Modele językowe potrafią generować treści brzmiące wiarygodnie, ale całkowicie nieprawdziwe. Zjawisko to nazywane jest halucynacją. Model nie „wie”, co mówi - on jedynie statystycznie przewiduje, które słowo powinno pojawić się jako następne.

Jeśli nie weryfikujemy jego odpowiedzi, możemy paść ofiarą dezinformacji - czasem nawet na własne życzenie 😄

Żeby się bronić przed tym atakiem, warto wykorzystywać duże modele językowe tam, gdzie:

  • mamy możliwość weryfikacji ich odpowiedzi,

  • służą do zadań kreatywnych (tworzenie tekstów, grafik, pomysłów),

  • są wspierane przez człowieka, a nie całkowicie go zastępują.
     

Podsumowanie

Sztuczna inteligencja – a w szczególności duże modele językowe – mają ogromny potencjał, lecz jak każda technologia, mogą zostać wykorzystane niewłaściwie. Lista OWASP Top 10 LLM pokazuje, jak wiele istnieje potencjalnych wektorów ataku.

Jednym z najgroźniejszych scenariuszy jest sytuacja, w której użytkownik bezrefleksyjnie wierzy we wszystko, co model wygeneruje. Dlatego podstawową zasadą bezpieczeństwa jest zdrowy rozsądek i krytyczne myślenie. Nawet jeśli odpowiedź brzmi bardzo przekonująco 😉

 

Życzę bezpiecznego korzystania z AI!

Ros Apostol
04.06.2025, 12:27

Comentarios