Z nauczycielem czy bez? Uczenie maszynowe - część 2 #6
W poprzednim artykule zastanawialiśmy się nad sposobami zdobywania wiedzy przez człowieka i porównaliśmy ten proces z uczeniem maszynowym.
Poniższa grafika przypomina nam ogólną strukturę uczenia maszynowego, które dzieli się na uczenie nadzorowane i nienadzorowane.
Uczenie nadzorowane można koncepcyjnie porównać do nauki z nauczycielem, który za każdym razem daje nam informację zwrotną, wskazując kierunek dalszego doskonalenia wiedzy. Uczenia nadzorowane dzieli się na regresję (kiedy wynikiem działania modelu jest liczba) oraz klasyfikację (kiedy wynikiem działania modelu jest kategoria - jedna wartość z kilku możliwych).
W tym artykule skupimy się na grupowaniu (ang. clustering) - jednym z typów uczenia nienadzorowanego. Można je porównać do samodzielnej nauki, kiedy to czytamy wiele książek, a następnie potrafimy połączyć podobne treści.
Grupowanie (ang. clustering)
Grupowanie to ciekawa metoda, która - na podstawie moich obserwacji i doświadczeń - jest trochę niedoceniana. Polega na łączeniu obiektów o określonych cechach w grupy. Co może być obiektem? Praktycznie wszystko, co da się opisać danymi: ludzie, klienci, książki, zwierzęta, maszyny itd.
Przyjrzyjmy się konkretnemu przykładowi zastosowania grupowania.
Sklep internetowy planuje kampanię marketingową, której celem jest aktywizacja klientów. Jak wiadomo, różni ludzie mają różne potrzeby, dlatego warto dostosować działania marketingowe do odpowiednich grup docelowych. Jak mogą powstać te grupy, czyli segmenty klientów?
Istnieje wiele cech, które można wykorzystać do opisu klienta, takie jak wiek, płeć, miejsce zamieszkania, wysokość wydatków czy częstotliwość zakupów. Na ich podstawie można stworzyć grupy o podobnych cechach. Jedną z popularnych metodologii w tej dziedzinie jest metodologia RFM (ang. Recency, Frequency, Monetary).
Ta metodologia zakłada, że nie interesują nas takie cechy jak płeć, wiek czy miejsce zamieszkania, lecz skupiamy się na:
- Recency - kiedy klient ostatnio coś u nas kupił
- Frequency - jak często u nas kupuje
- Monetary - ile średnio wydaje
Przykładowo, jedna z grup klientów mogłaby obejmować osoby, które kiedyś kupowały często i wydawały dużo, ale od ponad trzech miesięcy nie dokonały zakupu. Co zrobić, żeby aktywizować tych klientów?
Z perspektywy technicznej mamy dane, które opisują wszystkich naszych klientów z użyciem trzech cech RFM, co oznacza, że każdy klient to punkt w przestrzeni trójwymiarowej (3D). Grupowanie polega na podzieleniu tych punktów na grupy tak, aby w każdej znajdowali się klienci o podobnych cechach.
Przykład segmentacji klientów można zobaczyć na wykresie poniżej:
Każdy punkt na wykresie wskazuje klienta, a kolor wskazuje, do której grupy należy. Klienci w jednej grupie mają zbliżone cechy, co pozwala zastosować do nich wspólne podejście marketingowe. Jakie? To już wymaga interpretacji przez data scientista oraz eksperta z dziedziny marketingu.
Warto podkreślić, że tych samych klientów można podzielić na różną liczbę segmentów: 3, 5, 10, 20 itd. Ponieważ w uczeniu nienadzorowanym brakuje etykiet czy historycznych danych potwierdzających przynależność klientów do grup, kluczowa jest interpretacja utworzonych grup oraz ich walidacja biznesowa. Dzięki intuicji biznesowej lub metrykom technicznym można wybrać optymalną liczbę grup, która zapewni najwyższą skuteczność kampanii marketingowej.
Podsumowanie
- Grupowanie (ang. clustering) to jeden z typów uczenia nienadzorowanego, który działa na danych bez etykiet.
- Polega na dzieleniu obiektów na grupy, które łączą podobne cechy.
- Walidacja biznesowa utworzonych grup jest kluczowa dla osiągnięcia sukcesu.
W następnym artykule skupimy się na redukcji wymiaru – fascynującej koncepcji, która pozwala wyciągać esencję z danych i opisywać zjawiska przy użyciu mniejszej ilości informacji.

Komentarze