A common problem in biology is to divide a set of experimental data into clusters (groups) in such a way that the data points in each cluster are highly similar, while the data points in different clusters are different. There are several algorithms that performs different types of clustering
each situation has its own best way of clustering and there is no common best choice in a general situation. Clustering algorithms group genes with similar expression patterns into clusters with the hope that the genes in each cluster has a common function. It, therefore, helps us to determine the new genes based on the information of already known genes. Biologists will determine the most reasonable choice of clustering.Bài toán thường gặp trong sinh học đó là phân chia tập các dữ liệu thí nghiệm thành các cụm sao cho các điểm dữ liệu trong cùng cụm có độ tương đồng cao, và nếu ở khác cụm thì chúng sẽ khác biệt nhau. Có nhiều cách phân cụm, và không có cách phân cụm nào được cho là tốt nhất mà nó tùy thuộc vào mục đích của việc phân cụm. Việc phân cụm các gen sẽ hy vọng các gen cùng cụm có liên quan với nhau cùng thực hiện một chức năng nào đó. Từ đó có thể tìm ra chức năng của một số gen mới dựa vào những gen đã biết trước đó. Các nhà sinh học sẽ quyết định chọn cách phân cụm nào là hợp lý nhất.