Alex Open Research Wiki

Tag: reinforcement-learning

26 items with this tag.

Jul 17, 2026
JustGRPO
Jul 17, 2026
The Flexibility Trap: Rethinking the Value of Arbitrary Order in Diffusion Language Models
Jul 17, 2026
LLM Post-Training
Jul 15, 2026
On Training in Imagination
Jun 17, 2026
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification
Jun 17, 2026
ExpRL: Exploratory RL for LLM Mid-Training
Jun 17, 2026
Reinforcement Learning Finetunes Small Subnetworks in Large Language Models
Jun 17, 2026
Reinforcement Learning on Pre-Training Data
Jun 14, 2026
AI challenge for safe and low carbon power grid operation
Jun 14, 2026
Physics Informed Reinforcement Learning with Gibbs Priors for Topology Control in Power Grids
Jun 14, 2026
Power Grid Control with Graph-Based Distributed Reinforcement Learning
Jun 14, 2026
Graph Reinforcement Learning for Power Grids: A Comprehensive Survey
Jun 14, 2026
Interpretable Policy Distillation for Power Grid Topology Control
Jun 14, 2026
LLM-Guided Safe Reinforcement Learning for Energy System Topology Reconfiguration
Jun 14, 2026
MARL2Grid-TR: A Multi-Agent RL Benchmark in Power Grid Operations
Jun 14, 2026
RL2Grid: Benchmarking Reinforcement Learning in Power Grid Operations
Jun 14, 2026
Hierarchical Reinforcement Learning with Runtime Safety Shielding for Power Grid Operation
Jun 14, 2026
RL for Mitigating Cascading Failures: Targeted Exploration via Sensitivity Factors
Jun 14, 2026
A World Model Based Reinforcement Learning Architecture for Autonomous Power System Control
Jun 14, 2026
Evolution Strategies
Jun 09, 2026
CityLearn
Jun 09, 2026
CityLearn
May 24, 2026
CWM: An Open-Weights LLM for Research on Code Generation with World Models
May 18, 2026
Learning, Fast and Slow: Towards LLMs That Adapt Continually
May 15, 2026
Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning
May 15, 2026
Evolution Strategies as a Scalable Alternative to Reinforcement Learning

Created with Quartz v4.5.2 © 2026