Phân loại văn bản là một trong những nhiệm vụ cơ bản của Xử lý ngôn ngữ tự nhiên, được ứng dụng rộng rãi trong phân tích tình cảm, phát hiện spam, gắn nhãn chủ đề, phát hiện ý định... Với sự bùng nổ của các nguồn thông tin trên Web, mạng xã hội... làm cho nó ngày càng trở nên quan trọng và thu hút nhiều nhà nghiên cứu. Nhiều phương pháp lựa chọn đặc trưng và thuật toán phân loại đã được đề xuất sử dụng. Tuy nhiên, sự gia tăng nhanh chóng của dữ liệu lớn đang tạo ra thách thức đối với việc phân loại văn bản nói chung và tiếng Việt nói riêng, chẳng hạn như vấn đề mở rộng ứng dụng, khả năng phân loại các vấn đề xã hội... Mục đích của báo cáo này là khảo sát các nghiên cứu về phân loại văn bản, trong đó có tiếng Việt, nhằm cung cấp cho bạn đọc một cái nhìn tổng quan về các công nghệ phân loại văn bản hiện có và đề xuất cách giải quyết vấn đề thách thức trong phân loại văn bản.