Giữ vai trò quan trọng trong việc đảm bảo độ tin cậy của hoạt động kiểm tra đánh giá các kỹ năng sản sinh ngôn ngữ, tập huấn giám khảo (rater training) là một chủ đề thu hút trong nghiên cứu về các bài thi quy mô lớn. Tương tự, với bài thi VSTEP, hiệu quả của chương trình tập huấn giám khảo cũng nhận được nhiều sự quan tâm. Do đó, một nghiên cứu đã được tiến hành nhằm tìm hiểu ảnh hưởng của phần tập huấn sử dụng thang chấm Nói VSTEP.3-5 với các giám khảo trong chương trình bồi dưỡng tổ chức bởi Trường Đại học Ngoại ngữ - Đại học Quốc gia Hà Nội. Dữ liệu được thu thập từ 37 học viên tham gia khóa tập huấn nhằm so sánh việc chấm điểm của các học viên trước và sau phần tập huấn sử dụng thang chấm Nói. Cụ thể, các khía cạnh về độ tin cậy của điểm số, độ khó của tiêu chí, độ khó tính, độ phù hợp, và độ thiên lệch của giám khảo cũng như mức phân tách của thang điểm đã được phân tích. Nghiên cứu đã thu được các kết quả tích cực khi điểm số của các giám khảo đưa ra sau phần tập huấn có độ tin cậy, thống nhất, và phân tách tốt hơn. Sự cải thiện rõ rệt nhất được tìm thấy ở khía cạnh độ phân biệt mức điểm trong thang chấm. Một số ý nghĩa về hoạt động tập huấn giám khảo cũng như phương pháp nghiên cứu hoạt động này đã được rút ra từ các kết quả nghiên cứu.