Pogadamy? Duże modele językowe #8
Kontynuujemy naszą podróż po świecie sztucznej inteligencji i dziś skupimy się na jej wąskim wycinku - GenAI (generatywnej sztucznej inteligencji), a konkretnie na jednej z jej części: dużych modelach językowych.
Warto nadmienić, że GenAI polega na generowaniu treści - to może być tekst, audio, obrazki itd. Wszystko jedno, ponieważ pod spodem wszystko i tak jest liczbami. Dziś natomiast skupimy się na jednej bardzo ważnej działce GenAI - dużych modelach językowych (ang. LLM - Large Language Model).
Język naturalny jest potężnym narzędziem w naszym życiu. Chyba ciężko sobie wyobrazić świat, gdzie nie moglibyśmy posługiwać się językiem do porozumiewania się. Jednocześnie języki ludzkie są skomplikowane - owszem, istnieją reguły gramatyczne, ale jeszcze więcej wyjątków :-) A to sprawia, że sformalizowanie tych języków w postaci algorytmów dla komputerów jest nie lada wyzwaniem.
Próby tworzenia modeli językowych zaczęły się jeszcze w latach 60. Pierwszy model językowy został opracowany w 1967 roku w MIT (Massachusetts Institute of Technology). Opierał się na regułach tworzonych przez lingwistów i nazywał się ELIZA.
Wraz z rozwojem mocy obliczeniowej i dostępem do coraz większych zbiorów danych, zaczęto stosować metody statystyczne, takie jak modele n-gramowe. Modele te przewidywały kolejne słowa na podstawie częstości ich współwystępowania w korpusach tekstowych.
Przełom nastąpił wraz z zastosowaniem głębokich sieci neuronowych, takich jak rekurencyjne sieci neuronowe (RNN, ang. Recurrent Neural Network) i ich udoskonalona wersja – długoterminowe sieci pamięci (LSTM, ang. Long Short Term Memory). To pozwoliło na lepsze rozumienie kontekstu w dłuższych sekwencjach tekstu.
W 2017 roku artykuł „Attention Is All You Need” wprowadził transformery, które wyparły wcześniejsze podejścia dzięki mechanizmowi uwagi (attention), pozwalającemu na równoczesne analizowanie całych sekwencji tekstu. Modele oparte na transformerach, takie jak BERT (2018) i GPT-2 (2019), zapoczątkowały nową erę NLP (ang. Natural Language Processing).
Pod koniec 2022 roku publicznie udostępniono ChatGPT, który bazował na modelu GPT-3.5. I tutaj właśnie wszystko się zaczęło …
Od tego czasu “ChatGPT” oraz “GenAI” odmienia się przez wszystkie przypadki.
Od ponad dwóch lat możemy obserwować “wyścig zbrojeń” w dziedzinie AI. Pojawiają się coraz lepsze modele, a w wyścigu tym uczestniczą różne firmy: OpenAI (twórca ChatGPT), Google (twórca rodziny modeli Gemini), Anthropic (twórca modelu Claude), Mistral AI (twórca modelu Mistral), Meta (twórca modelu Llama) i inne. Ostatnio do wyścigu mocno dołączyła chińska firma DeepSeek AI z modelem DeepSeek-R1, który będąc modelem open-source, pokazuje wydajność bardzo zbliżoną do płatnych zaawansowanych prywatnych modeli OpenAI.
Warto też podkreślić, że większość z wymienionych firm nie udostępniają kodu własnego modelu, a konsumować te modele można tylko poprzez API (czy też chatboty webowe), płacąc za korzystanie z modelu.
Natomiast, istnieją modele typu “open-source” takie jak Llama od firmy Meta czy właśnie DeepSeek-R1, które można po prostu sobie pobrać na własny komputer i odpalić. Dzięki temu mamy pełną kontrolę nad modelem.
Przyjrzyjmy się teraz, dlaczego te modele nazywają się “dużymi”. Wyobraźmy sobie, że mamy jakiś prosty model:
Y = a0 + a1 * X1 + a2 * X2 = 300 + 50 * X1 + 5 * X2
W tym równaniu mamy 3 parametry - a0, a1, a2, które przyjmują wartości 300, 50, 5. Czyli łącznie nasz model ma 3 parametry.
A wiecie, ile parametrów ma model GPT-3.5 (czyli ten gorszy, ponieważ obecnie mamy GPT-4, obiecują GPT-5). Ten model ma 175 miliardów parametrów! 😱
Komputery potrafią liczyć w mgnieniu oka, ale im bardziej skomplikowane obliczenia, tym dłużej to trwa. Czy wiecie, ile trwało trenowanie modelu GPT-3.5? Ponad miesiąc ciągłej pracy potężnych serwerów z kartami graficznymi. Ten proces trenowania kosztował firmę OpenAI ok. 5 milionów dolarów (same mocy obliczeniowe, nie uwzględniając kosztów pracy inżynierów).
Model GPT-4 jest jeszcze większy. Dokładna liczba parametrów GPT-4 nie została ujawniona przez OpenAI, ale szacuje się, że może mieć nawet 1.6 bilona (czyli ponad 9 razy więcej, niż GPT-3.5). Możecie sobie wyobrazić, ile to trwało i kosztowało 🙂
To gigantyczne liczby parametrów, długie czasy trenowania i ogromne koszty, które sprawiają, że to w ogóle jest możliwe.
Podsumowująć,
- Począwszy od lat 60. naukowcy podejmowali próby tworzenia modeli językowych.
- Wraz z pojawieniem się architektury “Transformers” w 2017 roku oraz rosnącą dostępnością mocy obliczeniowych rozpoczęła się nowa era NLP.
- Model GPT to nie jedyny duży model językowy - istnieje wielu potężnych konkurentów. Z perspektywy użytkownika, to znaczy, że mamy więcej opcji, niż tylko OpenAI. 🙂
- Duże modele językowe mogą być własnością prywatną firmy i udostępniane za opłatą, ale mogą być też typu “open-source”, co znaczy, że możemy taki model pobrać sobie na własny serwer, odpalić, i mieć pełną kontrolę nad nim.
- Duże modele językowe są “duże”, ponieważ zawierają setki miliardów, a nawet biliony parametrów, co sprawia, że ich tworzenie jest bardzo skomplikowane i kosztowne.
W kolejnym artykule przyjrzymy się temu, jak działają duże modele językowe i na ile możemy im ufać 🙂

Komentarze