Sử dụng kết quả nghiên cứu của Trần và Đỗ (2022), nghiên cứu này tìm hiểu về độ tin cậy và phản hồi của người dùng với rubrics xây dựng bởi hai tác giả để đánh giá bài thi phiên dịch ứng đoạn Anh-Việt của sinh viên tại Trường Đại học Ngoại ngữ - Đại học Quốc gia Hà Nội. Năm đánh giá viên gồm 2 đánh giá viên nhiều kinh nghiệm và 3 đánh giá viên ít kinh nghiệm đã chấm mười bài thi dịch nói khác nhau một các độc lập và đưa phản hồi về rubric này. Kết quả cho thấy rubrics mới được xây dựng khá thân thiện với người dùng và có tính ứng dụng trong đánh giá dịch nói. Nhìn chung, tính thống nhất trong đánh giá giữa các đánh giá viên, thể hiện qua chỉ số Cronbach’s alpha và hệ số tương quan nội bộ, cho kết quả ở mức có thể chấp nhận được. Bên cạnh đó, giá trị thu được giữa các đánh giá viên ít kinh nghiệm cao hơn đánh giá viên nhiều kinh nghiệm. Nhận thức của người đánh giá về từng tiêu chí và quy trình đánh giá có thể giải thích cho sự khác biệt trong quyết định điểm số của họ. Các phát hiện cũng đề xuất cải thiện về từ ngữ sử dụng khi mô tả từng tiêu chí, trọng số và tập huấn đánh giá viên.The study investigates the reliability and user feedback about the rubrics to evaluate English – Vietnamese consecutive interpreting tests taken by undergraduates at VNU-ULIS created by Tran and Do (2022). Five VNU-ULIS raters – two experienced raters and three novice ones – independently rated ten different interpreting tests and provided their feedback on the rubrics. The results reveal the newly created rubrics is mostly considered user-friendly and practical application for interpreting evaluation. Overall, inter-rater reliability, which was presented through Cronbach’s alpha and the single measure intra-class coefficient, was acceptable. Besides, the value among the novice raters was higher than that between the two experienced ones. The raters’ perception of each quality criterion and their rating process may account for the differences in their score decisions. The findings also suggest further improvements in terms of descriptor wording, weightings and rater training.