Phân tích cụm (Clustering)
Giả sử thương hiệu X đang cần xử lý dữ liệu từ một chiến dịch quảng cáo và muốn phân loại khách hàng theo hành vi của họ để tối ưu hóa chiến lược marketing. Dữ liệu thu được như bảng 1 (Trên hình). Thương hiệu X có thể xử lý dữ liệu thông qua 3 bước như sau:
Case study
Bước 1: Tiền xử lý dữ liệu
Trước khi chạy K-Means, cần chuẩn hóa dữ liệu để đảm bảo tất cả các biến có cùng trọng số khi tính toán khoảng cách. Vì số lần click, thời gian xem trang, số lần mua và doanh thu có đơn vị khác nhau, ta sử dụng StandardScaler để đưa tất cả về cùng một thang đo.
Bước 1
Bước 2: Xác định số cụm K
Phương pháp Elbow Method giúp xác định số cụm tối ưu trong K-Means Clustering bằng cách phân tích sự thay đổi của tổng phương sai nội cụm (WCSS - Within-Cluster Sum of Squares) . Dưới đây là các bước thực hiện cụ thể:
Tính tổng phương sai nội cụm (WCSS - Within-Cluster Sum of Squares) cho từng giá trị K.
- WCSS phản ánh mức độ tập trung của các điểm dữ liệu trong một cụm:
- WCSS nhỏ → Điểm trong cụm gần nhau → Cụm chặt chẽ.
- WCSS lớn → Điểm phân tán → Cụm chưa tối ưu.
Kết hợp chạy K-Means với các giá trị K=1,2,3,4,5.
Xác định điểm “khuỷu tay” (Elbow Point)
Vẽ đồ thị Elbow method với:
- Trục X: Giá trị K (số cụm thử nghiệm)
- Trục Y: Giá trị WCSS tương ứng với mỗi K Quan sát xu hướng giảm:
- Khi K tăng từ 1 → 2, WCSS giảm mạnh (từ 884,369.2 xuống 196,526.5).
- Khi K tăng từ 2 → 3, tiếp tục giảm mạnh (từ 196,526.5 xuống 38,889.33).
- Khi K tăng từ 3 → 4, mức giảm không còn đáng kể (từ 38,889.33 xuống 4,018.5).
- Khi K tăng từ 4 → 5, WCSS về gần 0, nghĩa là mỗi điểm trở thành một cụm riêng lẻ. Như vậy, điểm "khuỷu tay" xuất hiện tại K=3 Có thể phân nhóm khách hàng thành 3 cụm là hợp lý nhất để cân bằng giữa độ chính xác và hiệu quả phân tích.
Bước 2
Bước 3: Ứng dụng kết quả
Theo dõi 3 nhóm khách hàng được phân cụm sau khi chạy K-mean và đưa ra chiến lược điều chỉnh cho phù hợp, đảm bảo tối ưu ngân sách quảng cáo.
Cụm 1 (Nhóm khách hàng ít tương tác - có giá trị thấp): Gồm những khách hàng có rất ít click, ít thời gian xem trang, ít mua hàng hoặc không mua hàng.
Theo Bảng 1 : ID 2 và ID 4 có số click thấp (2-8 lần), thời gian xem ngắn (10-50 giây), doanh thu thấp (0-80$).
Chiến lược: Loại khỏi chiến dịch remarketing để tránh lãng phí ngân sách.
Cụm 2 (Nhóm khách hàng trung bình - có hành vi tương tác khá tốt):
Gồm các khách hàng có số lần click, thời gian xem trang và số lần mua hàng ở mức trung bình (không quá cao, không quá thấp).
Theo Bảng 1 : Khách hàng ID 1 và ID 3 có số click từ 15-30, thời gian xem 120-300 giây, số lần mua từ 3-5.
Chiến lược: Retarget bằng quảng cáo hoặc giảm giá để thúc đẩy hành vi mua hàng.
Cụm 3 (Nhóm khách hàng tiềm năng - có giá trị cao): Gồm những khách hàng có tương tác mạnh, số lần mua hàng cao, doanh thu lớn .
Theo Bảng 1 : ID 5 có 50 click, 600 giây xem trang, 8 lần mua, doanh thu 1000$.
Chiến lược: Retarget bằng quảng cáo hoặc giảm giá để thúc đẩy hành vi mua hàng.
Bước 3