Archive

2025 ⁴⁸

September ⁵

Instruction Granularity Literature Review (NLP side)

September 1, 2025 · 4 min · Sukai Huang

Research-Idea

September 1, 2025 · 0 min · Sukai Huang

June ¹¹

Multi-agent Communication with Varying Levels of Granularities

June 29, 2025 · 8 min · Sukai Huang

Account for Levels of Granularity of Language Instructions for Embodied Agents

June 29, 2025 · 21 min · Sukai Huang

Behavior Aware Training Data Balancing for Behavior Cloning

June 29, 2025 · 4 min · Sukai Huang

Generalization Ability of Policy Sketch VLA

June 29, 2025 · 10 min · Sukai Huang

Incremental Research Proposal of Policy Sketch VLA

June 29, 2025 · 33 min · Sukai Huang

Pragmatic Feature Selection

June 29, 2025 · 12 min · Sukai Huang

VLA action model separation

June 29, 2025 · 5 min · Sukai Huang

Literature Review For Different Language Abstractions

June 27, 2025 · 2 min · Sukai Huang

Deprecated Research Notes June-2025

June 7, 2025 · 9 min · Sukai Huang

Literature Review Generated by Ai2 ScholarQA

June 7, 2025 · 2 min · Sukai Huang

Related Work Advice

June 7, 2025 · 3 min · Sukai Huang

April ⁷

Posts

April 2, 2025 · 0 min · Sukai Huang

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

April 2, 2025 · 17 min · 3614 words · Sukai Huang

March ²¹

Awesome_life_long_rl_2025

March 16, 2025 · 1 min · 28 words · Sukai Huang

Awesome LLMs with Different Abstraction of Language Data 2025

March 16, 2025 · 1 min · 62 words · Sukai Huang

Survey of LLMs for Planning 2025

March 13, 2025 · 1 min · 45 words · Sukai Huang

HTN planning @ Pascal Bercher ANU

March 5, 2025 · 3 min · 451 words · Sukai Huang

Learning General Policies Through Sketch @ Hector Geffner

March 4, 2025 · 3 min · 555 words · Sukai Huang

Model-Based Reparameterization Policy Gradient Methods: Theory and Practical Algorithms 2023

March 2, 2025 · 1 min · 81 words · Sukai Huang

VLM/LLM for Embodied Agents, LLMs working as part of the policy

March 1, 2025 · 3 min · 444 words · Sukai Huang

February ⁴

Neuro Symbolic Works From A.Prof. Hamid @ Monash

February 26, 2025 · 4 min · 678 words · Sukai Huang

Awesome LLMs Reasoning Abilities Papers

February 9, 2025 · 2 min · 350 words · Sukai Huang

2024 ⁹⁶

December ³

Pallagani Plansformer Generating Plans 2023

December 24, 2024 · 4 min · 701 words · Sukai Huang

June ¹⁴

Damai Dai Deepseekmoe 2024

June 22, 2024 · 3 min · 582 words · Sukai Huang

Jessy Lin Learning to Model the World With Language 2024

June 21, 2024 · 2 min · 381 words · Sukai Huang

Verification in Llm Topic 2024

June 20, 2024 · 1 min · 110 words · Sukai Huang

Jiuzhou Reward Engineering for Generating Semi Structured Explan 2023

June 20, 2024 · 1 min · 162 words · Sukai Huang

Jiuzhou Towards Uncertainty Aware Lang Agent 2024

June 20, 2024 · 2 min · 295 words · Sukai Huang

May ⁸

Silviu Pitis Failure Modes of Learning Reward Models for Sequence Model 2023

May 10, 2024 · 2 min · 312 words · Sukai Huang

Gaurav Ghosal the Effect of Modeling Human Rationality Level 2023

May 10, 2024 · 2 min · 312 words · Sukai Huang

Nate Rahn Policy Optimization in Noisy Neighbourhood 2023

May 10, 2024 · 3 min · 510 words · Sukai Huang

Ademi Adeniji Language Reward Modulation for Pretraining Rl 2023

May 9, 2024 · 2 min · 338 words · Sukai Huang

Thomas Coste Reward Model Ensembles Help Mitigate Overoptimization 2024

May 9, 2024 · 1 min · 205 words · Sukai Huang

Mengdi Li Internally Rewarded Rl 2023

May 8, 2024 · 4 min · 682 words · Sukai Huang

April ¹³

Xuran Pan on the Integration of Self Attention and Convolution 2022

April 25, 2024 · 1 min · 147 words · Sukai Huang

Recent Language Model Technique 2024

April 25, 2024 · 2 min · 332 words · Sukai Huang

Thomas Carta Grounding Llms in Rl 2023

April 23, 2024 · 2 min · 242 words · Sukai Huang

Daniel Hierarchies of Reward Machines 2023

April 12, 2024 · 5 min · 965 words · Sukai Huang

Shanchuan Efficient N Robust Exploration Through Discriminative Ir 2023

April 12, 2024 · 9 min · 1795 words · Sukai Huang

How to Autostart Apps on Your Server

April 12, 2024 · 6 min · 1109 words · Sukai Huang

Programming-Notes

April 12, 2024 · 0 min · Sukai Huang

Discover Hierarchical Achieve in Rl via Cl 2023

April 2, 2024 · 5 min · 1047 words · Sukai Huang

March ¹

Using Kedro And Optuna for Your Project

March 27, 2024 · 4 min · 641 words · Sukai Huang

February ⁸

Jia Li Structured Cot Prompting for Code Generation 2023

February 28, 2024 · 2 min · 381 words · Sukai Huang

Stephanie Teaching Models to Express Their Uncertainty in Words 2022

February 28, 2024 · 2 min · 327 words · Sukai Huang

Gwenyth Estimating Confidence of Llm by Prompt Agreement 2023

February 27, 2024 · 2 min · 393 words · Sukai Huang

Sudhir Agarwal Translate Infer Compile for Accurate Text to Plan 2024

February 17, 2024 · 3 min · 639 words · Sukai Huang

How to Design Your Research Project Structure

February 2, 2024 · 2 min · 237 words · Sukai Huang

January ⁴⁹

Philip Cohen Intention Is Choice With Commitment 1990

January 30, 2024 · 4 min · 752 words · Sukai Huang

Christian Muise Planning for Goal Oriented Dialgue Systems 2019

January 30, 2024 · 2 min · 416 words · Sukai Huang

Vishal Pallagani Llm N Planning Survey 2024

January 29, 2024 · 3 min · 546 words · Sukai Huang

Ishika Singh Progprompt Program Generation for Robot Task Planning 2023

January 29, 2024 · 1 min · 101 words · Sukai Huang

Avichai Levy Understanding Natural Language in Context 2023

January 29, 2024 · 3 min · 477 words · Sukai Huang

Mingyu Jin the Impact of Reasoning Steps Length on Llm 2024

January 29, 2024 · 3 min · 568 words · Sukai Huang

Weak-To-Strong-Generalization: Eliciting Strong Capabilities with Weak Supervision

January 29, 2024 · 2 min · 377 words · Sukai Huang

Ziwei Xu Hallucination Is Inevitable an Innate Limitation Llm 2024

January 28, 2024 · 3 min · 543 words · Sukai Huang

Zhiwei He Improving Machine Translation Use Quality Estimation as a Reward Model 2024

January 28, 2024 · 2 min · 285 words · Sukai Huang

Krishan Rana Sayplan Grounding Llm for Scalable Task Planning 2023

January 28, 2024 · 2 min · 388 words · Sukai Huang

Luigi Bonassi Planning With Qualitative Constraints Pddl3 2022

January 28, 2024 · 1 min · 125 words · Sukai Huang

Parsa Mahmoudieh Zero Shot Reward Specification via Grounded Natural Language 2022

January 28, 2024 · 3 min · 538 words · Sukai Huang

Allen Z Ren Robots That Ask for Help Uncertainty Alignment 2023

January 26, 2024 · 3 min · 510 words · Sukai Huang

Marta Skreta Replan Robotic Replanning 2024

January 25, 2024 · 2 min · 261 words · Sukai Huang

Binghai Wang Secrets of Rlhf Reward Modelling 2024

January 24, 2024 · 1 min · 144 words · Sukai Huang

Rui Zheng Secrets of Rlhf in Llm Part Ppo 2023

January 22, 2024 · 3 min · 465 words · Sukai Huang

Zhiting Hu Language Agent and World Models 2023

January 22, 2024 · 4 min · 749 words · Sukai Huang

React Js Development 2024

January 21, 2024 · 1 min · 140 words · Sukai Huang

Gautier Dagan Dynamic Planning With a Llm 2023

January 21, 2024 · 2 min · 384 words · Sukai Huang

Jun Wang Conformal Temporal Logic Planning Using Llm 2023

January 21, 2024 · 2 min · 357 words · Sukai Huang

Python and Os Utils 2024

January 18, 2024 · 2 min · 325 words · Sukai Huang

Gerevini Plan Constraints and Preferences in Pddl3 2005

January 11, 2024 · 1 min · 122 words · Sukai Huang

Nir Lipo Planning With Perspectives Using Functional Strips 2022

January 11, 2024 · 2 min · 267 words · Sukai Huang

2023 ¹¹⁴

December ¹

Python Logger

December 4, 2023 · 3 min · 496 words · Sukai Huang

November ⁴

Alex_coulter Theory Alignment via a Classical Encoding of Regular Bismulation 2022

November 29, 2023 · 6 min · 1083 words · Sukai Huang

Pascal Bercher Detecting Ai Planning Modelling Mistakes Potential Errors and Benchmark Domains 2023

November 13, 2023 · 2 min · 408 words · Sukai Huang

October ⁸

Yecheng Jason Ma Eureka Human Level Reward Design via Coding Large Language Models 2023

October 27, 2023 · 6 min · 1163 words · Sukai Huang

Mark Chen Evaluating Large Language Models Trained on Code 2021

October 16, 2023 · 2 min · 298 words · Sukai Huang

Baptiste Roziere Code Llama Open Foundation Model for Code 2023

October 16, 2023 · 2 min · 284 words · Sukai Huang

Haotian Liu Improved Baselines With Visual Instruction Tuning 2023

October 8, 2023 · 2 min · 240 words · Sukai Huang

Christabel Wayllace Goal Recognition Design With Stochastic Agent Action Outcomes 2016

October 6, 2023 · 1 min · 191 words · Sukai Huang

September ⁶

Alba Gragera Pddl Domain Repair Fixing Domains With Incomplete Action Effects 2023

September 20, 2023 · 1 min · 153 words · Sukai Huang

Alba Gragera Exploring the Limitations of Using LLMs to Fix Planning Tasks 2023

September 20, 2023 · 2 min · 403 words · Sukai Huang

Tathagata Chakraborti Plan Explanations as Model Reconciliation 2017

September 19, 2023 · 3 min · 630 words · Sukai Huang

Vishal Pallagani Plansformer Tool Demonstrating Generation of Symbolic Plans Using Transformers 2023

September 16, 2023 · 1 min · 105 words · Sukai Huang

August ⁷

Junnan_li Blip2 Boostrapping Language Image Pretraining 2023

August 28, 2023 · 2 min · 327 words · Sukai Huang

Peng_gao Llama Adapter V2 2023

August 28, 2023 · 2 min · 246 words · Sukai Huang

Langchain Use Cases 2023

August 26, 2023 · 4 min · 700 words · Sukai Huang

Rodrigo Reward Machines Exploiting Reward Function Structure in Rl 2022

August 17, 2023 · 2 min · 321 words · Sukai Huang

Rodrigo Using Reward Machines for High Level Task Specification and Decomposition in Rl 2018

August 17, 2023 · 2 min · 360 words · Sukai Huang

July ⁷

Pytorch Multiprocessing 2023

July 18, 2023 · 1 min · 93 words · Sukai Huang

Remote Server, Tmux and Joshuto 2023

July 16, 2023 · 3 min · 557 words · Sukai Huang

William_berrios Towards Language Models That Can See 2023

July 3, 2023 · 1 min · 152 words · Sukai Huang

Lionel_wong From Word Models to World Models 2023

July 2, 2023 · 3 min · 460 words · Sukai Huang

Jianning_wang Boosting Language Models Reasoning With Chain of Knowledge Prompting 2023

July 2, 2023 · 2 min · 264 words · Sukai Huang

June ⁴

Undetected Chromedriver Use Case

June 22, 2023 · 10 min · 2086 words · Sukai Huang

Web Scrawler Using Selenium 2023

June 22, 2023 · 4 min · 813 words · Sukai Huang

Xpath-cheatsheet

June 22, 2023 · 1 min · 7 words · Sukai Huang

Lin_guan Leveraging Pretrained Llm to Construct and Utilise World Models for Model Based Task Planning 2023

June 4, 2023 · 3 min · 499 words · Sukai Huang

May ¹⁸

Python Module and Package Management 2023

May 28, 2023 · 5 min · 1024 words · Sukai Huang

Dharma_kc Neural Machine Translation for Code Generation 2023

May 28, 2023 · 1 min · 181 words · Sukai Huang

Jiannan_xiang Language Models Meet World Models 2023

May 26, 2023 · 2 min · 357 words · Sukai Huang

Ryan_yang PG3 Policy Guided Planning for Generalised Policy Generation 2022

May 24, 2023 · 2 min · 304 words · Sukai Huang

Shunyu_yao Tree of Thoughts 2023

May 24, 2023 · 1 min · 104 words · Sukai Huang

Tom_silver Generalised Planning in PDDL Domains With Pretrained Large Language Models 2023

May 23, 2023 · 3 min · 551 words · Sukai Huang

Yongliang Hugginggpt 2023

May 23, 2023 · 2 min · 288 words · Sukai Huang

Yaqi_xie Translating Natural Language to Planning Goals With Llm 2023

May 22, 2023 · 1 min · 142 words · Sukai Huang

Bo_liu Llmp Empowering Large Language Models With Optimal Planning Proficiency 2023

May 22, 2023 · 2 min · 251 words · Sukai Huang

Siyu_yuan Distilling Script Knowledge From Large Language Models for Constrainted Language Planning 2023

May 22, 2023 · 2 min · 304 words · Sukai Huang

Junnan_li BLIP Bootstrapping Language Image Pre Training for Unified Vision Language Understanding and Generation 2022

May 22, 2023 · 2 min · 240 words · Sukai Huang

Harsh_jhamtani Natural Language Decomposition and Interpretation of Complex Utterances 2023

May 22, 2023 · 10 min · 2088 words · Sukai Huang

Alexander_kirillov Segment Anything 2023

May 21, 2023 · 2 min · 356 words · Sukai Huang

Rohit_gridhar Imagebind One Embedding Space to Bind Them All 2023

May 15, 2023 · 2 min · 235 words · Sukai Huang

April ⁹

Qinghao_hitea Hierarchical Temporal Aware Video Language Pre Training 2022

April 6, 2023 · 2 min · 411 words · Sukai Huang

Jacob_andreas Guiding Pretraining in Reinforcement Learning With Llms 2023

April 5, 2023 · 2 min · 298 words · Sukai Huang

Luke_zettlemoyer Scaling Expert Language Models With Unsupervised Domain Discovery 2023

April 3, 2023 · 1 min · 161 words · Sukai Huang

Xuanting_chen How Robust Is GPT 3.5 to Predecessors a Comprehensive Study on Language Understanding Tasks

April 3, 2023 · 2 min · 409 words · Sukai Huang

Anthony_liu a Picture Is Worth a Thousand Words Language Models Plan From Pixels 2023

April 3, 2023 · 2 min · 359 words · Sukai Huang

March ³⁰

Wenlong_huang Grounded Decoding Guiding Text Generation With Grounded Models for Robot Control 2023

March 30, 2023 · 2 min · 229 words · Sukai Huang

Mariana_learning Generative Models With Goal Conditioned Reinforcement Learning 2023

March 30, 2023 · 2 min · 325 words · Sukai Huang

Itsugun_cho Deep Rl With Hierarchical Action Exploration for Dialogue Generation 2023

March 30, 2023 · 2 min · 358 words · Sukai Huang

Theodore_r_sumers How to Talk So Ai Will Learn 2022

March 15, 2023 · 3 min · 591 words · Sukai Huang

Cheng_chi Diffusion Policy Visuomotor Policy Learning via Action Diffusion 2023

March 9, 2023 · 1 min · 205 words · Sukai Huang

Alan_lindsay Framer Planning Models From Natural Language Action Descriptions 2017

March 9, 2023 · 3 min · 482 words · Sukai Huang

Siddharth_karamcheti Language Driven Representation Learning for Robotics 2023

March 3, 2023 · 3 min · 463 words · Sukai Huang

Tatsuki_kuribayashi Does Vision Accelerate Hierarchical Generalisation of Neural Language Learners 2023

March 3, 2023 · 1 min · 111 words · Sukai Huang

Jing_cheng_pang Natural Language Conditioned Reinforcement Learning With Inside Out Task Language Development and Translation 2023

March 3, 2023 · 1 min · 173 words · Sukai Huang

Suvaansh_bhambri Multi Level Compositional Reasoning for Interactive Instruction Following 2023

March 3, 2023 · 1 min · 144 words · Sukai Huang

Tianjun_zhang the Wisdom of Hindsight Makes Language Models Better Instruction Followers 2023

March 2, 2023 · 3 min · 427 words · Sukai Huang

Ying_shen Learning by Asking for Embodied Visual Navigation and Task Completion 2023

March 2, 2023 · 2 min · 411 words · Sukai Huang

Ernest_davis Benchmarks for Automated Commonsense Reasoning a Survey 2023

March 2, 2023 · 3 min · 573 words · Sukai Huang

Alexander_nikulin Anti Exploration by Random Network Distillation 2023

March 1, 2023 · 2 min · 359 words · Sukai Huang

Edoardo_cetin Learning Pessimism for Reinforcement Learning 2023

March 1, 2023 · 2 min · 222 words · Sukai Huang

Timo_schick Toolformer Language Models Can Teach Themselves to Use Tools 2023

March 1, 2023 · 3 min · 486 words · Sukai Huang

Almog_gueta Knowledge Is a Region in Weight Space for Fine Tuned Language Model 2023

March 1, 2023 · 3 min · 548 words · Sukai Huang

February ¹⁶

Xiwen_liang Contrastive Instruction Trajectory Learning for Vision Language Navigation 2022

February 10, 2023 · 2 min · 360 words · Sukai Huang

Jacob_andreas Lammp Language Models as Probabilistic Priors for Perception and Action 2023

February 10, 2023 · 2 min · 267 words · Sukai Huang

Zhuosheng_zhang Multimodal Chain of Thought Reasoning in Language Models 2023

February 8, 2023 · 3 min · 548 words · Sukai Huang

Siyuan_wang Unifying Structure Reasoning and Language Model Pre Training for Complex Reasoning 2023

February 8, 2023 · 2 min · 281 words · Sukai Huang

Ekin_akyurek Towards Tracing Factual Knowledge in Language Models Back to the Training Data 2022

February 8, 2023 · 2 min · 363 words · Sukai Huang

Danijar_hafner Mastering Diverse Domains Through World Models 2023

February 7, 2023 · 2 min · 291 words · Sukai Huang

Yuanhan_zhang What Makes Good Examples for Visual in Context Learning 2023

February 6, 2023 · 3 min · 427 words · Sukai Huang

Jing_yu_koh Grounding Language Models to Images for Multimodal Generation 2023

February 6, 2023 · 2 min · 239 words · Sukai Huang

Zhenfang_chen See Think Confirm Interactive Prompting Between Vision and Language Models for Knowledge Based Visual Reasoning 2023

February 6, 2023 · 2 min · 405 words · Sukai Huang

Xiaotian_liu a Planning Based Neural Symbolic Approach for Embodied Instruction Following 2022

February 2, 2023 · 2 min · 226 words · Sukai Huang

So_yeon_min Film Following Instructions in Language With Modular Methods 2022

February 1, 2023 · 3 min · 430 words · Sukai Huang

Yuki_inoue Prompter Utilizing Large Language Model Prompting for a Data Efficient Embodied Instruction Following 2022

February 1, 2023 · 3 min · 526 words · Sukai Huang

January ⁴

Kyle_mahowald Dissociating Language and Thought in Large Language Models a Cognitive Perspective 2023

January 31, 2023 · 4 min · 776 words · Sukai Huang

Michael_janner Planning With Diffusion for Flexible Behaviour Synthesis 2022

January 30, 2023 · 2 min · 317 words · Sukai Huang

Shailaja_keyur_sampat Reasoning About Actions Over Visual and Linguistic Modalities a Survey 2022

January 20, 2023 · 3 min · 524 words · Sukai Huang

Xin_wang Reinforced Cross Modal Matching and Self Supervised Imitation Learning for Vision Language Navigation 2019

January 18, 2023 · 1 min · 195 words · Sukai Huang

2022 ¹¹¹

December ³³

Alekh_agarwal PC-PG Policy Cover Directed Exploration for Provable Policy Gradient Learning 2020

December 28, 2022 · 2 min · 271 words · Sukai Huang

Alekh_agarwal on the Theory of Policy Gradient Methods Optimality Approximation and Distribution Shift 2020

December 28, 2022 · 3 min · 557 words · Sukai Huang

Chloe_ching_yun_hsu Revisiting Design Choices in Proximal Policy Optimisation 2020

December 28, 2022 · 3 min · 467 words · Sukai Huang

James_queeney Generalized Proximal Policy Optimisation With Sample Reuse 2021

December 28, 2022 · 5 min · 1033 words · Sukai Huang

Lun_wang Backdoorl Backdoor Attack Against Competitive Reinforcement Learning 2021

December 28, 2022 · 1 min · 202 words · Sukai Huang

Sandy_huang Adversarial Attacks on Neural Network Policies 2017

December 28, 2022 · 2 min · 346 words · Sukai Huang

Yinglun_xu Efficient Reward Poisoning Attacks on Online Deep Reinforcement Learning 2022

December 27, 2022 · 2 min · 302 words · Sukai Huang

Young_wu Reward Poisoning Attacks on Offline Multi Agent Reinforcement Learning 2022

December 27, 2022 · 1 min · 146 words · Sukai Huang

Xuezhou_zhang Robust Policy Gradient Against Strong Data Corruption 2021

December 27, 2022 · 2 min · 317 words · Sukai Huang

Kiarash_banihashem Defense Against Reward Poisoning Attacks in Reinforcement Learning 2021

December 27, 2022 · 2 min · 303 words · Sukai Huang

Amin_rakhsha Reward Poisoning in Reinforcement Learning Attacks Against Unknown Learners in Unknown Environments 2021

December 27, 2022 · 2 min · 233 words · Sukai Huang

Xuezhou_zhang Adaptive Reward Poisoning Attacks Against Reinforcement Learning 2020

December 27, 2022 · 2 min · 283 words · Sukai Huang

Anindya_sarkar Reward Delay Attacks on Deep Reinforcement Learning 2022

December 26, 2022 · 2 min · 374 words · Sukai Huang

Proximal Policy Optimisation Explained Blog

December 26, 2022 · 1 min · 196 words · Sukai Huang

Tom_everitt Reinforcement Learning With a Corrupted Reward Channel 2017

December 26, 2022 · 4 min · 757 words · Sukai Huang

Yunhan_huang Manipulating Reinforcement Learning Stealthy Attacks on Cost Signals 2020

December 25, 2022 · 2 min · 336 words · Sukai Huang

Vincent_zhuang No Regret Reinforcement Learning With Heavy Tailed Rewards 2021

December 25, 2022 · 2 min · 225 words · Sukai Huang

Wenshuai_zhao Towards Closing the Sim to Real Gap in Collaborative Multi Robot Deep Reinforcement Learning 2020

December 25, 2022 · 2 min · 365 words · Sukai Huang

Jan_corazza Reinforcement Learning With Stochastic Reward Machines 2022

December 24, 2022 · 3 min · 465 words · Sukai Huang

Oguzhan_dogru Reinforcement Learning With Constrained Uncertain Reward Function Through Particle Filtering 2022

December 24, 2022 · 2 min · 297 words · Sukai Huang

Inaam_ilahi Challenges and Countermeasures for Adversarial Attacks on Reinforcement Learning 2022

December 24, 2022 · 3 min · 517 words · Sukai Huang

Zuxin_liu on the Robustness of Safe Reinforcement Learning Under Observational Perturbations 2022

December 22, 2022 · 3 min · 532 words · Sukai Huang

Ruben_majadas Disturbing Reinforcement Learning Agents With Corrupted Rewards 2021

December 17, 2022 · 2 min · 383 words · Sukai Huang

Jingkang_wang Reinforcement Learning With Perturbed Rewards 2020

December 16, 2022 · 2 min · 402 words · Sukai Huang

Jacob_andreas Language Models as Agent Models 2022

December 10, 2022 · 3 min · 639 words · Sukai Huang

November ⁹

Charlie_snell Context Aware Language Modeling for Goal Oriented Dialogue Systems 2022

November 20, 2022 · 3 min · 489 words · Sukai Huang

Sanchit_agarwal Building Goal Oriented Dialogue Systems With Situated Visual Context 2021

November 20, 2022 · 1 min · 211 words · Sukai Huang

Yichi_zhang Danli Deliberative Agent for Following Natural Language Instructions 2022

November 20, 2022 · 2 min · 343 words · Sukai Huang

Xiang_li Diffusion-LM Improves Controllable Text Generation 2022

November 14, 2022 · 1 min · 104 words · Sukai Huang

Consider incremental publication of results Nov, 2022

November 13, 2022 · 7 min · Sukai Huang

Jie_huang Can Language Models Be Specific How 2022

November 8, 2022 · 3 min · 429 words · Sukai Huang

October ⁸

Yizhou_zhao Semantic Aligned Fusion Transformer for One Shot Object Detection 2022

October 24, 2022 · 1 min · 67 words · Sukai Huang

Ting_i_hsieh One Shot Object Detection With Co Attention and Co Excitation 2019

October 24, 2022 · 1 min · 158 words · Sukai Huang

Ayan_kumar_bhunia a Deep One Shot Network for Query Based Logo Retrieval 2019

October 24, 2022 · 2 min · 258 words · Sukai Huang

Yuetian_weng an Efficient Spatio Temporal Pyramid Transformer for Action Detection 2022

October 20, 2022 · 4 min · 649 words · Sukai Huang

Steven_kapturowski Human Level Atari 200x Faster 2022

October 5, 2022 · 2 min · 357 words · Sukai Huang

Andrea_banino Coberl Contrastive Bert for Reinforcement Learning 2022

October 5, 2022 · 2 min · 258 words · Sukai Huang

September ⁶

Alex_petrekno Sample Factory Asynchronous Rl at Very High Fps 2020

September 25, 2022 · 1 min · 154 words · Sukai Huang

Jonathan_ho Video Diffusion Models 2022

September 22, 2022 · 3 min · 471 words · Sukai Huang

Dongwon Fire Burns Sword Cuts Commonsense Inductive Bias for Exploration in Text Based Games 2022

September 22, 2022 · 2 min · 276 words · Sukai Huang

Wenlong_huang Language Models as Zero Shot Planners Extracting Actionable Knowledge for Embodied Agents 2022

September 19, 2022 · 2 min · 253 words · Sukai Huang

Pengchuan_zhang Vinvl Revisiting Visual Representations in Vision Language Models 2021

September 3, 2022 · 2 min · 332 words · Sukai Huang

Xiujun_li Oscar Object Semantic Aligned Pro Training for Vision Language Tasks 2020

September 3, 2022 · 3 min · 462 words · Sukai Huang

August ⁹

Yung_sung_chuang Diffcse Difference Based Contrastive Learning for Sentence Embeddings 2022

August 27, 2022 · 2 min · 351 words · Sukai Huang

Gregor_geigle Retrieve Fast Rerank Smart Cooperative and Joint Approaches for Improved Cross Modal Retrieval 2022

August 27, 2022 · 3 min · 453 words · Sukai Huang

Kaitao_song Mpnet Masked and Permuted Retrain for Language Understanding 2020

August 25, 2022 · 2 min · 378 words · Sukai Huang

Sergios_karagiannakos Vision Language Models Towards Multimodal Dl 2022

August 9, 2022 · 1 min · 24 words · Sukai Huang

Jiali_duan Multimodal Alignment Using Representation Codebook 2022

August 9, 2022 · 3 min · 513 words · Sukai Huang

A preliminary idea about using instruction following as a intermediate training step towards a general learning-based agent

August 7, 2022 · 5 min · Sukai Huang

Supplementary explanations for proposed methods and PhD thesis structure

August 4, 2022 · 11 min · Sukai Huang

July ¹

Younggyo_seo Masked World Models for Visual Control 2022

July 1, 2022 · 2 min · 227 words · Sukai Huang

June ¹

A Brief Overview of Rank Based Prioritized Experience Replay 2016

June 2, 2022 · 2 min · 365 words · Sukai Huang

May ²

Biography

May 31, 2022 · 1 min · Sukai Huang

Deepmind Flamingo a Visual Language Model for Few Shot Learning 2022

May 11, 2022 · 3 min · Sukai Huang

April ⁵

Angela_fan Augmenting Transformer With Knn Composite Memory for Dialog 2021

April 21, 2022 · 3 min · Sukai Huang

Hao_hu Generalisable Episodic Memory for Drl 2021

April 7, 2022 · 2 min · Sukai Huang

March ¹⁸

Ilya_kostrikov Offline Rl With Implicit Q Learning 2021

March 22, 2022 · 4 min · Sukai Huang

Qinqing_zheng Online Decision Transformer 2022

March 21, 2022 · 4 min · Sukai Huang

Sebastian_borgeaud Improving Language Models by Retrieving From Trillions of Tokens 2022

March 21, 2022 · 2 min · Sukai Huang

Machel_reid Can Wikipedia Help Offline Rl 2022

March 16, 2022 · 2 min · Sukai Huang

Stephen_cresswell Generalised Domain Model Acquisition From Action Traces 2013

March 15, 2022 · 2 min · Sukai Huang

Wenfeng_feng Extracting Action Sequences From Texts by Rl

March 15, 2022 · 1 min · Sukai Huang

Shivam_miglani Nltopddl Learning From Nlp Manuals 2020

March 14, 2022 · 2 min · Sukai Huang

Giuseppe_de_giacomo Foundations for Retraining Bolts Rl With Ltl 2019

March 4, 2022 · 2 min · Sukai Huang

Joseph_kim Collaborative Planning With Encoding of High Level Strategies 2017

March 4, 2022 · 2 min · Sukai Huang

Mikayel_samvelyan Minihack the Planet a Sandbox for Open Ended Rl Research 2021

March 4, 2022 · 3 min · Sukai Huang

Richard_shin Constrained Language Models Yield Few Shot Semantic Parsers 2021

March 2, 2022 · 1 min · Sukai Huang

Heinrich_kuttler the Nethack Learning Environment 2020

March 2, 2022 · 3 min · Sukai Huang

Pashootan_vaezipoor Ltl2action Generalising Ltl Instructions for Multi Task Rl 2021

March 1, 2022 · 3 min · Sukai Huang

February ¹¹

Roma_patel Learning to Ground Language Temporal Logical Form 2019

February 28, 2022 · 2 min · Sukai Huang

Thang_m_pham Out of Order How Important Is the Sequential Order of Words in a Sentence in Natural Language Understanding Tasks 2021

February 28, 2022 · 2 min · Sukai Huang

Anton_belyy Guided K Best Selection for Semantic Parsing Annotation 2021

February 23, 2022 · 3 min · Sukai Huang

S_teufel Argumentative Zoning 2000

February 16, 2022 · 2 min · Sukai Huang

Jacob_andreas Compositionality as Lexical Symmetry 2022

February 8, 2022 · 2 min · Sukai Huang

January ⁸

Tao_lei When Attention Meets Fast Recurrence Training Language Models With Reduced Compute 2021

January 14, 2022 · 1 min · Sukai Huang

Alex_nichol Glide Towards Photorealistic Image Generation and Editing With Text Guided Diffusion Models 2021

January 12, 2022 · 2 min · Sukai Huang

Junyang_lin M6 a Chinese Multimodal Pretrainer 2021

January 12, 2022 · 1 min · Sukai Huang

Tianshi_cao Babyai Plus Plus Towards Grounded Language Learning Beyond Memorization 2020

January 3, 2022 · 1 min · Sukai Huang

Federico_bianchi Language in a Search Box Grounding Language Learning in Real World Human Machine Interaction 2021

January 3, 2022 · 1 min · Sukai Huang

2021 ²⁵

December ¹⁸

Lili_chen Decision Transformer Reinforcement Learning via Sequence Modeling 2021

December 24, 2021 · 2 min · Sukai Huang

Jiayuan_mao Grammar Based Grounded Lexicon Learning 2021

December 22, 2021 · 2 min · Sukai Huang

Julia_kiseleva Interactive Grounded Language Understanding in a Collaborative Environment 2021

December 22, 2021 · 2 min · Sukai Huang

Dominik_drexler Expressing and Exploiting the Common Subgoal Structure of Classical Planning Domains Using Sketches 2021

December 17, 2021 · 3 min · Sukai Huang

Yiding_jiang Language as Abstraction for Hierarchical Deep Reinforcement Learning

December 15, 2021 · 3 min · Sukai Huang

Hengyuan_hu Hierarchical Decision Making by Generating and Following Natural Language Instructions 2019

December 15, 2021 · 2 min · Sukai Huang

David_ding Attention Over Learned Object Embeddings Enables Complex Visual Reasoning 2021

December 15, 2021 · 3 min · Sukai Huang

Jacob_andreas Modular Multitask Reinforcement Learning With Policy Sketches 2017

December 13, 2021 · 3 min · Sukai Huang

David_abel on the Expressivity of Markov Reward 2021

December 5, 2021 · 5 min · Sukai Huang

Rishabh_agarwal Deep Reinforcement Learning at the Edge of the Stats Precipice 2021

December 3, 2021 · 3 min · Sukai Huang

November ⁷

Borja_ibarz Reward Learning From Human Preferences and Demonstrations in Atari 2018

November 27, 2021 · 2 min · Sukai Huang

Adrien_ecoffet Go Explore a New Approach for Hard Exploration Problems 2021 Paper Review

November 27, 2021 · 4 min · Sukai Huang

Tuomas_haarnoja Soft Actor Critic Off Policy Maximum Entropy Deep Reinforcement Learning With a Stochastic Actor 2018 Paper Review

November 18, 2021 · 1 min · Sukai Huang

Adria Badia Agent57 Outperforming the Atari Human Benchmark 2020 Paper Review

November 18, 2021 · 5 min · Sukai Huang

Stefan O Toole Width Based Lookaheads With Learnt Base Policies and Heuristics Over the Atari 2600 Benchmark 2021 Paper Reivew

November 16, 2021 · 4 min · Sukai Huang

Cristian Paul Bara Mindcraft Theory of Mind Modelling 2021 Paper Review

November 12, 2021 · 3 min · Sukai Huang

2025 48

September 5

Instruction Granularity Literature Review (NLP side)

Research-Idea

June 11

Multi-agent Communication with Varying Levels of Granularities

Account for Levels of Granularity of Language Instructions for Embodied Agents

Behavior Aware Training Data Balancing for Behavior Cloning

Generalization Ability of Policy Sketch VLA

Incremental Research Proposal of Policy Sketch VLA

Pragmatic Feature Selection

VLA action model separation

Literature Review For Different Language Abstractions

Deprecated Research Notes June-2025

Literature Review Generated by Ai2 ScholarQA

Related Work Advice

April 7

Posts

SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models

March 21

Awesome_life_long_rl_2025

Awesome LLMs with Different Abstraction of Language Data 2025

Survey of LLMs for Planning 2025

HTN planning @ Pascal Bercher ANU

Learning General Policies Through Sketch @ Hector Geffner

Model-Based Reparameterization Policy Gradient Methods: Theory and Practical Algorithms 2023

VLM/LLM for Embodied Agents, LLMs working as part of the policy

February 4

Neuro Symbolic Works From A.Prof. Hamid @ Monash

Awesome LLMs Reasoning Abilities Papers

2024 96

December 3

Pallagani Plansformer Generating Plans 2023

June 14

Damai Dai Deepseekmoe 2024

Jessy Lin Learning to Model the World With Language 2024

Verification in Llm Topic 2024

Jiuzhou Reward Engineering for Generating Semi Structured Explan 2023

Jiuzhou Towards Uncertainty Aware Lang Agent 2024

May 8

Silviu Pitis Failure Modes of Learning Reward Models for Sequence Model 2023

Gaurav Ghosal the Effect of Modeling Human Rationality Level 2023

Nate Rahn Policy Optimization in Noisy Neighbourhood 2023

Ademi Adeniji Language Reward Modulation for Pretraining Rl 2023

Thomas Coste Reward Model Ensembles Help Mitigate Overoptimization 2024

Mengdi Li Internally Rewarded Rl 2023

April 13

Xuran Pan on the Integration of Self Attention and Convolution 2022

Recent Language Model Technique 2024

Thomas Carta Grounding Llms in Rl 2023

Daniel Hierarchies of Reward Machines 2023

Shanchuan Efficient N Robust Exploration Through Discriminative Ir 2023

How to Autostart Apps on Your Server

Programming-Notes

Discover Hierarchical Achieve in Rl via Cl 2023

March 1

Using Kedro And Optuna for Your Project

February 8

Jia Li Structured Cot Prompting for Code Generation 2023

Stephanie Teaching Models to Express Their Uncertainty in Words 2022

Gwenyth Estimating Confidence of Llm by Prompt Agreement 2023

Sudhir Agarwal Translate Infer Compile for Accurate Text to Plan 2024

How to Design Your Research Project Structure

January 49

Philip Cohen Intention Is Choice With Commitment 1990

Christian Muise Planning for Goal Oriented Dialgue Systems 2019

Vishal Pallagani Llm N Planning Survey 2024

Ishika Singh Progprompt Program Generation for Robot Task Planning 2023

Avichai Levy Understanding Natural Language in Context 2023

Mingyu Jin the Impact of Reasoning Steps Length on Llm 2024

Weak-To-Strong-Generalization: Eliciting Strong Capabilities with Weak Supervision

Ziwei Xu Hallucination Is Inevitable an Innate Limitation Llm 2024

Zhiwei He Improving Machine Translation Use Quality Estimation as a Reward Model 2024

Krishan Rana Sayplan Grounding Llm for Scalable Task Planning 2023

Luigi Bonassi Planning With Qualitative Constraints Pddl3 2022

Parsa Mahmoudieh Zero Shot Reward Specification via Grounded Natural Language 2022

Allen Z Ren Robots That Ask for Help Uncertainty Alignment 2023

Marta Skreta Replan Robotic Replanning 2024

Binghai Wang Secrets of Rlhf Reward Modelling 2024

Rui Zheng Secrets of Rlhf in Llm Part Ppo 2023

2025 ⁴⁸

September ⁵

June ¹¹

April ⁷

March ²¹

February ⁴

2024 ⁹⁶

December ³

June ¹⁴

May ⁸

April ¹³

March ¹

February ⁸

January ⁴⁹

2023 ¹¹⁴

December ¹

November ⁴

October ⁸

September ⁶

August ⁷

July ⁷

June ⁴

May ¹⁸

April ⁹

March ³⁰