Q-learning with biased policy rules

 0 Người đánh giá. Xếp hạng trung bình 0

Tác giả: Olivier Compte

Ngôn ngữ: eng

Ký hiệu phân loại: 003.56 Decision theory

Thông tin xuất bản: 2023

Mô tả vật lý:

Bộ sưu tập: Metadata

ID: 197037

 Comment: 32 pages, 19 figures, 14 tablesIn dynamic environments, Q-learning is an automaton that (i) provides estimates (Q-values) of the continuation values associated with each available action
  and (ii) follows the naive policy of almost always choosing the action with highest Q-value. We consider a family of automata that are based on Q-values but whose policy may systematically favor some actions over others, for example through a bias that favors cooperation. In the spirit of Compte and Postlewaite [2018], we look for equilibrium biases within this family of Q-based automata. We examine classic games under various monitoring technologies and find that equilibrium biases may strongly foster collusion.
Tạo bộ sưu tập với mã QR

THƯ VIỆN - TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM

ĐT: (028) 36225755 | Email: tt.thuvien@hutech.edu.vn

Copyright @2024 THƯ VIỆN HUTECH