Khái niệm Clustering
Clustering (phân nhóm, hay phân cụm) là một phương pháp phân tích dữ liệu dùng để chia một tập hợp các đối tượng thành nhiều nhóm nhỏ (gọi là cụm – clusters) sao cho các đối tượng trong cùng một cụm có nhiều đặc điểm giống nhau, trong khi khác biệt rõ rệt với các đối tượng thuộc cụm khác.

Ý nghĩa của Phân tích cụm (Clustering) trong lĩnh vực Marketing
Trong marketing và nghiên cứu hành vi khách hàng, Clustering giúp doanh nghiệp phát hiện các nhóm khách hàng có hành vi, nhu cầu hoặc đặc điểm tương đồng – từ đó cá nhân hóa chiến lược tiếp thị, tối ưu nội dung và nâng cao hiệu quả chiến dịch. Cụ thể:
-
Phân khúc khách hàng (Customer Segmentation): Clustering giúp doanh nghiệp chia nhỏ thị trường thành các nhóm khách hàng có đặc điểm tương đồng về hành vi mua sắm, độ tuổi, vị trí địa lý, mức chi tiêu... Nhờ đó, các chiến dịch tiếp thị trở nên chính xác và cá nhân hóa hơn.
-
Tối ưu hóa thông điệp truyền thông: Khi đã xác định được các cụm khách hàng khác nhau, doanh nghiệp có thể điều chỉnh nội dung, hình ảnh và thông điệp quảng cáo sao cho phù hợp với từng nhóm – từ đó tăng khả năng tương tác và chuyển đổi.
-
Dự đoán hành vi tiêu dùng: Phân nhóm khách hàng giúp nhận diện các mẫu hành vi chung, từ đó dự đoán xu hướng mua hàng, nhu cầu phát sinh hoặc thời điểm khách hàng có khả năng rời bỏ thương hiệu (churn).
-
Tối ưu chi phí marketing: Thay vì trải quảng cáo diện rộng, clustering giúp doanh nghiệp tập trung nguồn lực vào các nhóm khách hàng tiềm năng cao – giúp tiết kiệm chi phí và gia tăng hiệu quả đầu tư (ROI).
-
Phát triển sản phẩm/dịch vụ: Các nhóm khách hàng khác nhau có nhu cầu riêng biệt. Clustering giúp doanh nghiệp phát hiện những khoảng trống trên thị trường để thiết kế sản phẩm, dịch vụ hoặc gói ưu đãi phù hợp với từng phân khúc.
Case study về cách áp dụng kỹ thuật phân tích cụm
Giả sử thương hiệu X đang cần xử lý dữ liệu từ một chiến dịch quảng cáo và muốn phân loại khách hàng theo hành vi của họ để tối ưu hóa chiến lược marketing. Dữ liệu thu được như bảng 1 (Trên hình). Thương hiệu X có thể xử lý dữ liệu thông qua 3 bước như sau:

Bước 1: Tiền xử lý dữ liệu
Trước khi chạy K-Means, cần chuẩn hóa dữ liệu để đảm bảo tất cả các biến có cùng trọng số khi tính toán khoảng cách. Vì số lần click, thời gian xem trang, số lần mua và doanh thu có đơn vị khác nhau, ta sử dụng StandardScaler để đưa tất cả về cùng một thang đo.

Bước 2: Xác định số cụm K
Phương pháp Elbow Method giúp xác định số cụm tối ưu trong K-Means Clustering bằng cách phân tích sự thay đổi của tổng phương sai nội cụm (WCSS - Within-Cluster Sum of Squares) . Dưới đây là các bước thực hiện cụ thể:
Tính tổng phương sai nội cụm (WCSS - Within-Cluster Sum of Squares) cho từng giá trị K.
- WCSS phản ánh mức độ tập trung của các điểm dữ liệu trong một cụm:
- WCSS nhỏ → Điểm trong cụm gần nhau → Cụm chặt chẽ.
- WCSS lớn → Điểm phân tán → Cụm chưa tối ưu.
Kết hợp chạy K-Means với các giá trị K=1,2,3,4,5.
Xác định điểm “khuỷu tay” (Elbow Point)
Vẽ đồ thị Elbow method với:
- Trục X: Giá trị K (số cụm thử nghiệm)
- Trục Y: Giá trị WCSS tương ứng với mỗi K Quan sát xu hướng giảm:
- Khi K tăng từ 1 → 2, WCSS giảm mạnh (từ 884,369.2 xuống 196,526.5).
- Khi K tăng từ 2 → 3, tiếp tục giảm mạnh (từ 196,526.5 xuống 38,889.33).
- Khi K tăng từ 3 → 4, mức giảm không còn đáng kể (từ 38,889.33 xuống 4,018.5).
- Khi K tăng từ 4 → 5, WCSS về gần 0, nghĩa là mỗi điểm trở thành một cụm riêng lẻ. Như vậy, điểm "khuỷu tay" xuất hiện tại K=3 Có thể phân nhóm khách hàng thành 3 cụm là hợp lý nhất để cân bằng giữa độ chính xác và hiệu quả phân tích.

Bước 3: Ứng dụng kết quả
Theo dõi 3 nhóm khách hàng được phân cụm sau khi chạy K-mean và đưa ra chiến lược điều chỉnh cho phù hợp, đảm bảo tối ưu ngân sách quảng cáo.

- Cụm 1 (Nhóm khách hàng ít tương tác - có giá trị thấp): Gồm những khách hàng có rất ít click, ít thời gian xem trang, ít mua hàng hoặc không mua hàng.
Theo Bảng 1 : ID 2 và ID 4 có số click thấp (2-8 lần), thời gian xem ngắn (10-50 giây), doanh thu thấp (0-80$).
Chiến lược: Loại khỏi chiến dịch remarketing để tránh lãng phí ngân sách.
- Cụm 2 (Nhóm khách hàng trung bình - có hành vi tương tác khá tốt):
Gồm các khách hàng có số lần click, thời gian xem trang và số lần mua hàng ở mức trung bình (không quá cao, không quá thấp).
Theo Bảng 1 : Khách hàng ID 1 và ID 3 có số click từ 15-30, thời gian xem 120-300 giây, số lần mua từ 3-5.
Chiến lược: Retarget bằng quảng cáo hoặc giảm giá để thúc đẩy hành vi mua hàng.
- Cụm 3 (Nhóm khách hàng tiềm năng - có giá trị cao): Gồm những khách hàng có tương tác mạnh, số lần mua hàng cao, doanh thu lớn .
Theo Bảng 1 : ID 5 có 50 click, 600 giây xem trang, 8 lần mua, doanh thu 1000$.
Chiến lược: Retarget bằng quảng cáo hoặc giảm giá để thúc đẩy hành vi mua hàng.
Kết
Clustering là một công cụ mạnh mẽ giúp doanh nghiệp nhìn rõ những điểm tương đồng và khác biệt trong tập khách hàng, từ đó đưa ra chiến lược marketing cá nhân hóa với hiệu quả chi phí tối ưu hơn. Việc áp dụng phân nhóm dữ liệu không chỉ hỗ trợ tiếp thị đúng người – đúng thông điệp – đúng thời điểm, mà còn mở ra cơ hội tối ưu sản phẩm, dịch vụ và trải nghiệm tổng thể cho khách hàng.