ebookML_src
ebookML_src copied to clipboard
Thắc mắc về input trong thuật toán k-means
Hi anh Tiệp,
Em đang đọc đến phần thuật toán k-means trong cuốn sách Machine learning cơ bản
, và có một số thắc mắc.
means = [[2, 2], [8, 3], [3, 6]]
cov = [[1, 0], [0, 1]]
N = 500
X0 = np.random.multivariate_normal(means[0], cov, N)
X1 = np.random.multivariate_normal(means[1], cov, N)
X2 = np.random.multivariate_normal(means[2], cov, N)
X = np.concatenate((X0, X1, X2), axis = 0)
K = 3
Em đang hiểu đoạn code trên là tạo ra một tập dữ liệu X là mảng hai chiều có cấu trúc như sau:
[[x00, x01],
[x10, x11],
[x20, x21],
[x30, x31],
...
[xn0, xn1]]
trong đó, [xi0, xi1]
với i >= 0 && i < n
là feature của một phần tử trong tập dữ liệu X. Em hiểu như vậy có chính xác không?
Nếu đúng thì nghĩa là trong tập dữ liệu X ta đang xét đến việc clustering cho tập dữ liệu dựa trên 2 feature là xi0
và xi1
có đúng không?
Với các bài toán clustering dựa trên 1 feature
hoặc 3 feature
thì ta sẽ xử lý như thế nào? Thay đổi kích cỡ của mảng hay nên xử lý bằng cách nào khác?
Em xin cảm ơn!