Preprints

Model-Free, Regret-Optimal Best Policy Identification in Online CMDPs. [arXiv]
Zihan Zhou, Honghao Wei, and Lei Ying.

Selected Publications

Divide and Conquer: Selective Value Learning and Policy Optimization for Offline Safe Reinforcement Learning. [PDF] [Code]
Jiahui Zhu, Lei Ying, Honghao Wei.
TMLR, 2026.

Keep the Best, Forget the Rest: Reliable Alignment with Order-Aware Preference Optimization.
Jiahui Zhu, Yuanjie Shi, Xiyue Peng, Xin Liu, Yan Yan, Honghao Wei.
ICLR, 2026.

Towards Fast Safe Online Reinforcement Learning via Policy Finetuning. [PDF]
Keru Chen, Honghao Wei, Zhigang Deng, Sen Lin.
TMLR, 2026.

Scalable and Sample Efficient Distributed Policy Gradient Algorithms in Multi-Agent Networked Systems. [PDF]
Xin Liu, Honghao Wei, and Lei Ying.
IEEE Trans. TON, 2025.

Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization. [PDF] [Code]
Xiyue Peng, Hengquan Guo, Jiawei Zhang, Dongqing Zou, Ziyu Shao, Honghao Wei, Xin Liu.
NeurIPS, 2025.

An Optimistic Algorithm for online CMDPS with Anytime Adversarial Constraints. [PDF]
Jiahui Zhu, Kihyun Yu, Dabeen Lee, Xin Liu, Honghao Weia.
ICML, 2025.

Constraint-Adaptive Policy Switching for Offline Safe Reinforcement Learning. [PDF]
Yassine Chemingui, Aryan Deshwal, Honghao Wei, Alan Fern, Janardhan Rao Doppa.
AAAI, 2025 (oral).

Adversarially Trained Weighted Actor-Critic for Safe Offline Reinforcement Learning. [PDF]
Honghao Wei, Xiyue Peng, Arnob Ghosh, Xin Liu.
NeurIPS, 2024.

Safe and Efficient: A Primal-Dual Method for Offline Convex CMDPs under Partial Data Coverage. [PDF]
Haobo Zhang, Xiyue Peng, Honghao Wei, Xin Liu.
NeurIPS, 2024.

Optimistic Joint Flow Control and Link Scheduling with Unknown Utility Functions. [PDF]
Xin Liu, Honghao Wei, Lei Ying.
MobiHoc, 2024.

Reinforcement Learning from Human Feedback without Reward Inference: Model-Free Algorithm and Instance-Dependent Analysis. [PDF]
Qining Zhang, Honghao Wei, Lei Ying.
RLC, 2024.

Safe Reinforcement Learning with Instantaneous Constraints: The Role of Aggressive Exploration. [PDF]
Honghao Wei, Xin Liu, and Lei Ying.
AAAI, 2024 (oral).

Sample Efficient Reinforcement Learning in Mixed Systems through Augmented Samples and Its Applications to Queueing Networks. [PDF]
Honghao Wei, Xin Liu, Weina Wang, and Lei Ying.
NeurIPS, 2023 (spotlight, \~3% acceptance).

A Reinforcement Learning and Prediction-Based Lookahead Policy for Vehicle Repositioning in Online Ride-Hailing Systems. [PDF] [Code]
Honghao Wei, Zixian Yang, Xin Liu, Zhiwei (Tony) Qin, Xiaocheng Tang, and Lei Ying.
IEEE Trans. ITS, 2023.

Provably Efficient Model-Free Algorithms for Non-stationary CMDPs. [PDF]
Honghao Wei, Arnob Ghosh, Xingyu Zhou, Lei Ying, and Ness Shroff.
AISTATS, 2023.

Online Convex Optimization with Hard Constraints: Towards the Best of Two Worlds and Beyond. [PDF]
Hengquan Guo, Xin Liu, Honghao Wei, and Lei Ying.
NeurIPS, 2022.

Triple-Q: A Model-Free Algorithm for Constrained Reinforcement Learning with Sublinear Regret and Zero Constraint Violation. [PDF]
Honghao Wei, Xin Liu, and Lei Ying.
AISTATS, 2022.

A Provably-Efficient Model-Free Algorithm for Infinite-Horizon Average-Reward Constrained Markov Decision Processes. [PDF]
Honghao Wei, Xin Liu, and Lei Ying.
AAAI, 2022.

On Low-Complexity Quickest Intervention of Mutated Diffusion Processes Through Local Approximation. [PDF]
Qining Zhang, Honghao Wei, Weina Wang, and Lei Ying.
MobiHoc, 2022.

Fork: A forward-looking actor for model-free reinforcement learning. [PDF] [Code]
Honghao Wei, and Lei Ying.
CDC 2021.

QuickStop: A Markov Optimal Stopping Approach for Quickest Misinformation Detection. [PDF]
Honghao Wei, Xiaohan Kang, Weina Wang, and Lei Ying.
SIGMEETRICS, 2019.