Các gene biểu hiện cao (Highly expressed genes - HEG) là những gene có sẵn trong sinh vật, mang những codon ưa thích đối với hệ thống biểu hiện. Việc xác định được các gene biểu hiện cao giúp tìm ra các codon ưa thích và sử dụng trong tối ưu hóa gene nhằm biểu hiện protein mục tiêu với mức độ mong muốn. Hiện nay, HEG-DB là cơ sở dữ liệu (CSDL) duy nhất lưu trữ dữ liệu gene biểu hiện cao của nhiều chủng vi sinh vật, tuy nhiên dữ liệu hiện không còn được cập nhật và duy trì. Vì vậy chúng tôi tiến hành dự đoán các gene biểu hiện cao ở chủng E. coli K-12 MG1655 dựa trên các bộ tham chiếu là gene mã hóa protein ribosome được sử dụng phổ biến hiện nay và những gene có độ phiên mã cao từ dữ liệu microarray do chúng tôi đề xuất. Kết quả dự đoán được phân tích bằng cách so sánh giữa các bộ tham chiếu trên cũng như so sánh với gene biểu hiện cao thu nhận từ CSDL HEG-DB. Kết quả cho thấy bộ tham chiếu gồm 69 gene mã hóa protein ribosome và 100-mRNA cho kết quả hoàn toàn trùng khớp và dự đoán được gene biểu hiện cao nhiều hơn và có độ tin cậy cao hơn so với dữ liệu từ CSDL HEG-DB thể hiện qua các gene dự đoán được có giá trị CAI cao hơn và số lượng gene tham gia vào các con đường chuyển hóa trong tế bào, đặc biệt là các con đường chuyển hóa quan trọng đều cao hơn. Nghiên cứu này đề xuất có thể sử dụng bộ tham chiếu từ dữ liệu microarray của E. coli thay cho bộ tham chiếu protein ribosome.