As web applications become increasingly widespread, the importance of source code security is growing rapidly. Exposed vulnerabilities present serious risks to both service providers and customers. Various models have been proposed to address this issue, however, most approaches rely on complex graph structures generated from source code or on expert-driven regular expression patterns. This paper introduces a model that utilizes token-based mechanisms combined with deep learning techniques for efficient vulnerability detection in PHP (Hypertext Preprocessor) web applications. By leveraging the PHPtokenization process, we have developed a custom token that merges tokens, supports key PHP features, and optimizes parsing. Using datasets such as the Software Assurance Reference Dataset (SARD) and SQL Injection Labs (SQLI-LABS), this paper demonstrates the training of a deep learning model with enhanced tokens to effectively detect vulnerabilities in the source code.Khi các ứng dụng web ngày càng trở nên phổ biến, tầm quan trọng của bảo mật mã nguồn đang tăng lên nhanh chóng. Các lỗ hổng bị lộ gây ra rủi ro nghiêm trọng cho cả nhà cung cấp dịch vụ và khách hàng. Nhiều mô hình khác nhau đã được đề xuất để giải quyết vấn đề này
tuy nhiên, hầu hết các phương pháp đều dựa vào các cấu trúc đồ thị phức tạp được tạo từ mã nguồn hoặc trên các mẫu biểu thức chính quy do chuyên gia điều khiển. Bài báo này giới thiệu một mô hình sử dụng các cơ chế dựa trên mã thông báo kết hợp với các kỹ thuật học sâu để phát hiện lỗ hổng hiệu quả trong các ứng dụng web PHP (Bộ xử lý siêu văn bản). Bằng cách tận dụng quy trình mã thông báo PHP, chúng tôi đã phát triển một mã thông báo tùy chỉnh hợp nhất các mã thông báo, hỗ trợ các tính năng PHP chính và tối ưu hóa việc phân tích cú pháp. Sử dụng các tập dữ liệu như Bộ dữ liệu tham chiếu đảm bảo phần mềm (SARD) và SQLI-LABS, bài báo này trình bày quá trình đào tạo mô hình học sâu với các mã thông báo nâng cao để phát hiện hiệu quả các lỗ hổng trong mã nguồn.