Reincarnating RL

Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals

Yue Wu|Yewen Fan|Paul Pu Liang|Amos Azaria|Yuanzhi Li|Tom Mitchell

[PDF]

Do Embodied Agents Dream of Pixelated Sheep?: Embodied Decision Making using Language Guided World Modelling

Kolby Nottingham|Prithviraj Ammanabrolu|Alane Suhr|Yejin Choi|Hannaneh Hajishirzi|Sameer Singh|Roy Fox

[PDF]

Reduce, Reuse, Recycle: Selective Reincarnation in Multi-Agent Reinforcement Learning

Juan Claude Formanek|Callum Rhys Tilbury|Jonathan Phillip Shock|Kale-ab Tessera|Arnu Pretorius

[PDF]

Towards A Unified Agent with Foundation Models

Norman Di Palo|Arunkumar Byravan|Leonard Hasenclever|Markus Wulfmeier|Nicolas Heess|Martin Riedmiller

[PDF] [Video]

Learning to Modulate pre-trained Models in RL

Thomas Schmied|Markus Hofmarcher|Fabian Paischer|Razvan Pascanu|Sepp Hochreiter

[PDF]

Co-Imitation Learning without Expert Demonstration

Kun-Peng Ning|Hu Xu|Kun Zhu|Sheng-Jun Huang

[PDF]

Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning

Mitsuhiko Nakamoto|Yuexiang Zhai|Anikait Singh|Yi Ma|Chelsea Finn|Aviral Kumar|Sergey Levine

[PDF] [Video]

TGRL: Teacher Guided Reinforcement Learning Algorithm for POMDPs

Idan Shenfeld|Zhang-Wei Hong|Aviv Tamar|Pulkit Agrawal

[PDF]

Merging Decision Transformers: Weight Averaging for Forming Multi-Task Policies

Daniel Lawson|Ahmed H Qureshi

[PDF] [Video]

Deep Reinforcement Learning with Plasticity Injection

Evgenii Nikishin|Junhyuk Oh|Georg Ostrovski|Clare Lyle|Razvan Pascanu|Will Dabney|Andre Barreto

[PDF]

Synthetic Experience Replay

Cong Lu|Philip J. Ball|Jack Parker-Holder

[PDF] [Video]

Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

Arjun Majumdar|Karmesh Yadav|Sergio Arnaud|Yecheng Jason Ma|Claire Chen|Sneha Silwal|Aryan Jain|Vincent-Pierre Berges|Pieter Abbeel|Dhruv Batra|Yixin Lin|Oleksandr Maksymets|Aravind Rajeswaran|Franziska Meier

[PDF]

Multi-Environment Pretraining Enables Transfer to Action Limited Datasets

David Venuto|Sherry Yang|Pieter Abbeel|Doina Precup|Igor Mordatch|Ofir Nachum

[PDF]

Instruction-Finetuned Foundation Models for Multimodal Web Navigation

Hiroki Furuta|Ofir Nachum|Kuang-Huei Lee|Yutaka Matsuo|Shixiang Shane Gu|Izzeddin Gur

[PDF]

Accelerating Policy Gradient by Estimating Value Function from Prior Computation in Deep Reinforcement Learning

Md Masudur Rahman|Yexiang Xue

[PDF]

Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories

Qinqing Zheng|Mikael Henaff|Brandon Amos|Aditya Grover

[PDF]

Successor Feature Representations

Chris Reinke|Xavier Alameda-Pineda

[PDF] [Video]

Revisiting Behavior Regularized Actor-Critic

Denis Tarasov|Vladislav Kurenkov|Alexander Nikulin|Sergey Kolesnikov

[PDF]

Prioritized offline Goal-swapping Experience Replay

Wenyan Yang|Joni Pajarinen|Dingding Cai|Joni-kristian Kamarainen

[PDF]

Bayesian regularization of empirical MDPs

Samarth Gupta|Daniel N. Hill|Lexing Ying|Inderjit S Dhillon

[PDF]

PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav

Ram Ramrakhya|Dhruv Batra|Erik Wijmans|Abhishek Das

[PDF]

On The Role of Forgetting in Fine-Tuning Reinforcement Learning Models

Maciej Wolczyk|Bartłomiej Cupiał|Michał Zając|Razvan Pascanu|Łukasz Kuciński|Piotr Miłoś

[PDF] [Video]

Action Inference by Maximising Evidence: Zero-Shot Imitation from Observation with World Models

Xingyuan Zhang|Philip Becker-Ehmck|Patrick van der Smagt|Maximilian Karl

[PDF] [Video]

Bootstrapped Representations in Reinforcement Learning

Charline Le Lan|Stephen Tu|Mark Rowland|Anna Harutyunyan|Rishabh Agarwal|Marc G Bellemare|Will Dabney

[PDF]

Learning How to Infer Partial MDPs for In-Context Adaptation and Exploration

Chentian Jiang|Nan Rosemary Ke|Hado van Hasselt

[PDF]

Beyond Temporal Credit Assignment in Reinforcement Learning

Sephora Madjiheurem|Kim Stachenfeld|Peter Battaglia|Jessica B Hamrick

[PDF]

EDGI: Equivariant Diffusion for Planning with Embodied Agents

Johann Brehmer|Joey Bose|Pim De Haan|Taco Cohen

[PDF]

Task-Agnostic Continual Reinforcement Learning: Gaining Insights and Overcoming Challenges

Massimo Caccia|Jonas Mueller|Taesup Kim|Laurent Charlin|Rasool Fakoor

[PDF] [Video]

Knowledge Transfer from Teachers to Learners in Growing-Batch Reinforcement Learning

Patrick Emedom-Nnamdi|Abram L. Friesen|Bobak Shahriari|Nando de Freitas|Matthew Hoffman

[PDF]

Masked Trajectory Models for Prediction, Representation, and Control

Philipp Wu|Arjun Majumdar|Kevin Stone|Yixin Lin|Igor Mordatch|Pieter Abbeel|Aravind Rajeswaran

[PDF]

MOTO: Offline to Online Fine-tuning for Model-Based Reinforcement Learning

Rafael Rafailov|Kyle Beltran Hatch|Victor Kolev|John D Martin|Mariano Phielipp|Chelsea Finn

[PDF]

Model-Based Adversarial Imitation Learning As Online Fine-Tuning

Rafael Rafailov|Victor Kolev|Kyle Beltran Hatch|John D Martin|Mariano Phielipp|Jiajun Wu|Chelsea Finn

[PDF]

LIV: Language-Image Representations and Rewards for Robotic Control

Yecheng Jason Ma|Vikash Kumar|Amy Zhang|Osbert Bastani|Dinesh Jayaraman

[PDF]

Self-Generating Data for Goal-Conditioned Compositional Problems

Ying Yuan|Yunfei Li|Yi Wu

[PDF]

Imitation from Arbitrary Experience: A Dual Unification of Reinforcement and Imitation Learning Methods

Harshit Sikchi|Amy Zhang|Scott Niekum

[PDF]

Offline Visual Representation Learning for Embodied Navigation

Karmesh Yadav|Ram Ramrakhya|Arjun Majumdar|Vincent-Pierre Berges|Sachit Kuhar|Dhruv Batra|Alexei Baevski|Oleksandr Maksymets

[PDF]

Orals

Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals

Yue Wu|Yewen Fan|Paul Pu Liang|Amos Azaria|Yuanzhi Li|Tom Mitchell

Do Embodied Agents Dream of Pixelated Sheep?: Embodied Decision Making using Language Guided World Modelling

Kolby Nottingham|Prithviraj Ammanabrolu|Alane Suhr|Yejin Choi|Hannaneh Hajishirzi|Sameer Singh|Roy Fox

Reduce, Reuse, Recycle: Selective Reincarnation in Multi-Agent Reinforcement Learning

Juan Claude Formanek|Callum Rhys Tilbury|Jonathan Phillip Shock|Kale-ab Tessera|Arnu Pretorius

Towards A Unified Agent with Foundation Models

Norman Di Palo|Arunkumar Byravan|Leonard Hasenclever|Markus Wulfmeier|Nicolas Heess|Martin Riedmiller

Learning to Modulate pre-trained Models in RL

Thomas Schmied|Markus Hofmarcher|Fabian Paischer|Razvan Pascanu|Sepp Hochreiter

Spotlights

Co-Imitation Learning without Expert Demonstration

Kun-Peng Ning|Hu Xu|Kun Zhu|Sheng-Jun Huang

Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning

Mitsuhiko Nakamoto|Yuexiang Zhai|Anikait Singh|Yi Ma|Chelsea Finn|Aviral Kumar|Sergey Levine

TGRL: Teacher Guided Reinforcement Learning Algorithm for POMDPs

Idan Shenfeld|Zhang-Wei Hong|Aviv Tamar|Pulkit Agrawal

Merging Decision Transformers: Weight Averaging for Forming Multi-Task Policies

Daniel Lawson|Ahmed H Qureshi

Deep Reinforcement Learning with Plasticity Injection

Evgenii Nikishin|Junhyuk Oh|Georg Ostrovski|Clare Lyle|Razvan Pascanu|Will Dabney|Andre Barreto

Synthetic Experience Replay

Cong Lu|Philip J. Ball|Jack Parker-Holder

Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

Arjun Majumdar|Karmesh Yadav|Sergio Arnaud|Yecheng Jason Ma|Claire Chen|Sneha Silwal|Aryan Jain|Vincent-Pierre Berges|Pieter Abbeel|Dhruv Batra|Yixin Lin|Oleksandr Maksymets|Aravind Rajeswaran|Franziska Meier

Posters

Multi-Environment Pretraining Enables Transfer to Action Limited Datasets

David Venuto|Sherry Yang|Pieter Abbeel|Doina Precup|Igor Mordatch|Ofir Nachum

Instruction-Finetuned Foundation Models for Multimodal Web Navigation

Hiroki Furuta|Ofir Nachum|Kuang-Huei Lee|Yutaka Matsuo|Shixiang Shane Gu|Izzeddin Gur

Accelerating Policy Gradient by Estimating Value Function from Prior Computation in Deep Reinforcement Learning

Md Masudur Rahman|Yexiang Xue

Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories

Qinqing Zheng|Mikael Henaff|Brandon Amos|Aditya Grover

Successor Feature Representations

Chris Reinke|Xavier Alameda-Pineda

Revisiting Behavior Regularized Actor-Critic

Denis Tarasov|Vladislav Kurenkov|Alexander Nikulin|Sergey Kolesnikov

Prioritized offline Goal-swapping Experience Replay

Wenyan Yang|Joni Pajarinen|Dingding Cai|Joni-kristian Kamarainen

Bayesian regularization of empirical MDPs

Samarth Gupta|Daniel N. Hill|Lexing Ying|Inderjit S Dhillon

PIRLNav: Pretraining with Imitation and RL Finetuning for ObjectNav

Ram Ramrakhya|Dhruv Batra|Erik Wijmans|Abhishek Das

On The Role of Forgetting in Fine-Tuning Reinforcement Learning Models

Maciej Wolczyk|Bartłomiej Cupiał|Michał Zając|Razvan Pascanu|Łukasz Kuciński|Piotr Miłoś

Action Inference by Maximising Evidence: Zero-Shot Imitation from Observation with World Models

Xingyuan Zhang|Philip Becker-Ehmck|Patrick van der Smagt|Maximilian Karl

Bootstrapped Representations in Reinforcement Learning

Charline Le Lan|Stephen Tu|Mark Rowland|Anna Harutyunyan|Rishabh Agarwal|Marc G Bellemare|Will Dabney

Learning How to Infer Partial MDPs for In-Context Adaptation and Exploration

Chentian Jiang|Nan Rosemary Ke|Hado van Hasselt

Beyond Temporal Credit Assignment in Reinforcement Learning

Sephora Madjiheurem|Kim Stachenfeld|Peter Battaglia|Jessica B Hamrick

EDGI: Equivariant Diffusion for Planning with Embodied Agents

Johann Brehmer|Joey Bose|Pim De Haan|Taco Cohen

Task-Agnostic Continual Reinforcement Learning: Gaining Insights and Overcoming Challenges

Massimo Caccia|Jonas Mueller|Taesup Kim|Laurent Charlin|Rasool Fakoor

Knowledge Transfer from Teachers to Learners in Growing-Batch Reinforcement Learning

Patrick Emedom-Nnamdi|Abram L. Friesen|Bobak Shahriari|Nando de Freitas|Matthew Hoffman

Masked Trajectory Models for Prediction, Representation, and Control

Philipp Wu|Arjun Majumdar|Kevin Stone|Yixin Lin|Igor Mordatch|Pieter Abbeel|Aravind Rajeswaran

MOTO: Offline to Online Fine-tuning for Model-Based Reinforcement Learning

Rafael Rafailov|Kyle Beltran Hatch|Victor Kolev|John D Martin|Mariano Phielipp|Chelsea Finn

Model-Based Adversarial Imitation Learning As Online Fine-Tuning

Rafael Rafailov|Victor Kolev|Kyle Beltran Hatch|John D Martin|Mariano Phielipp|Jiajun Wu|Chelsea Finn

LIV: Language-Image Representations and Rewards for Robotic Control

Yecheng Jason Ma|Vikash Kumar|Amy Zhang|Osbert Bastani|Dinesh Jayaraman

Self-Generating Data for Goal-Conditioned Compositional Problems

Ying Yuan|Yunfei Li|Yi Wu

Imitation from Arbitrary Experience: A Dual Unification of Reinforcement and Imitation Learning Methods

Harshit Sikchi|Amy Zhang|Scott Niekum

Offline Visual Representation Learning for Embodied Navigation

Karmesh Yadav|Ram Ramrakhya|Arjun Majumdar|Vincent-Pierre Berges|Sachit Kuhar|Dhruv Batra|Alexei Baevski|Oleksandr Maksymets

Think Before You Act: Unified Policy for Interleaving Language Reasoning with Actions

Lina Mezghani|Piotr Bojanowski|Karteek Alahari|Sainbayar Sukhbaatar

Chain-of-Thought Predictive Control with Behavior Cloning

Zhiwei Jia|Fangchen Liu|Vineet Thumuluri|Linghao Chen|Zhiao Huang|Hao Su

Unsupervised Object Interaction Learning with Counterfactual Dynamics Models