ebookML_src icon indicating copy to clipboard operation
ebookML_src copied to clipboard

Thắc mắc về input trong thuật toán k-means

Open guentoan opened this issue 6 years ago • 0 comments

Hi anh Tiệp,

Em đang đọc đến phần thuật toán k-means trong cuốn sách Machine learning cơ bản, và có một số thắc mắc.

means = [[2,  2], [8,  3], [3,  6]]
cov = [[1, 0], [0,  1]]
N = 500
X0 = np.random.multivariate_normal(means[0], cov, N)
X1 = np.random.multivariate_normal(means[1], cov, N)
X2 = np.random.multivariate_normal(means[2], cov, N)
X = np.concatenate((X0, X1, X2), axis = 0)
K = 3

Em đang hiểu đoạn code trên là tạo ra một tập dữ liệu X là mảng hai chiều có cấu trúc như sau:

[[x00, x01],
[x10, x11],
[x20, x21],
[x30, x31],
...
[xn0, xn1]]

trong đó, [xi0, xi1] với i >= 0 && i < n là feature của một phần tử trong tập dữ liệu X. Em hiểu như vậy có chính xác không?

Nếu đúng thì nghĩa là trong tập dữ liệu X ta đang xét đến việc clustering cho tập dữ liệu dựa trên 2 feature là xi0xi1 có đúng không?

Với các bài toán clustering dựa trên 1 feature hoặc 3 feature thì ta sẽ xử lý như thế nào? Thay đổi kích cỡ của mảng hay nên xử lý bằng cách nào khác?

Em xin cảm ơn!

guentoan avatar Sep 06 '18 03:09 guentoan