Xihui Liu

Highlighted Publications (Full List of Publications and Google Scholar)

ECCV

MemLearner: Learning to Query Context Memory for Video World Models
Jiwen Yu, Jianxiong Gao, Jianhong Bai, Yiran Qin, Kaiyi Huang, Quande Liu, Xintao Wang, Pengfei Wan, Kun Gai, Xihui Liu
ECCV 2026
[Paper] [Project Page]

ECCV

SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models
Weiyang Jin, Yuwei Niu, Jiaqi Liao, Chengqi Duan, Aoxue Li, Shenghua Gao, Xihui Liu
ECCV 2026
[Paper] [Project Page] [Code]

ECCV

OmniX: From Unified Panoramic Generation and Perception To Graphics-Ready 3D Scenes
Yukun Huang, Jiwen Yu, Yanning Zhou, Jianan Wang, Xintao Wang, Pengfei Wan, Xihui Liu
ECCV 2026
[Paper] [Project Page] [Code]

ICML

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World
Yunhan Yang, Chunshi Wang, Junliang Ye, Yang Li, Zanxin Chen, Zehuan Huang, Yao Mu, Zhuo Chen, Chunchao Guo, Xihui Liu
ICML 2026
[Paper] [Project Page] [Code]

ICML

World Guidance: World Modeling in Condition Space for Action Generation
Yue Su, Sijin Chen, Haixin Shi, Mingyu Liu, Zhengshen Zhang, Ningyuan Huang, Weiheng Zhong, Zhengbang Zhu, Yuxiao Liu, Xihui Liu
ICML 2026
[Paper] [Project Page] [Code]

ICML

G2TAM: Geometry Grounded Track Anything Model
Chenming Zhu, Peizhou Cao, Jingli Lin, Wenbo Hu, Yunlong Ran, Tai Wang, Jiangmiao Pang, Xihui Liu
ICML 2026
[Paper]

CVPR Highlight

CineScene: Implicit 3D as Effective Scene Representation for Cinematic Video Generation
Kaiyi Huang, Yukun Huang, Yu Li, Jianhong Bai, Xintao Wang, Zinan Lin, Xuefei Ning, Jiwen Yu, Pengfei Wan, Yu Wang, Xihui Liu
CVPR 2026 Highlight
[Paper] [Project Page]

CVPR Highlight

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens
Yuqing Wang, Chuofan Ma, Zhijie Lin, Yao Teng, Lijun Yu, Shuai Wang, Jiaming Han, Jiashi Feng, Yi Jiang, Xihui Liu
CVPR 2026 Highlight
[Paper] [Project Page] [Code]

CVPR

UniVerse: Empower Unified Generation with Reasoning and Knowledge
Kaiyue Sun, Weiyang Jin, Chengqi Duan, Rongyao Fang, Xian Liu, Yuwei Niu, Chunwei Wang, Aoxue Li, Xihui Liu
CVPR 2026
[Paper]

CVPR

EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation
Tianwei Xiong, Jun Hao Liew, Zilong Huang, Zhijie Lin, Jiashi Feng, Xihui Liu
CVPR 2026
[Paper] [Project Page] [Code]

ICLR

Ground Slow, Move Fast: A Dual-System Foundation Model for Generalizable Vision-and-Language Navigation
Meng Wei, Chenyang Wan, Jiaqi Peng, Xiqian Yu, Yuqiang Yang, Delin Feng, Wenzhe Cai, Chenming Zhu, Tai Wang, Jiangmiao Pang, Xihui Liu
ICLR 2026
[Paper] [Project Page] [Code]

ICLR

FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation
Kaiyi Huang, Yukun Huang, Xintao Wang, Zinan Lin, Xuefei Ning, Pengfei Wan, Di Zhang, Yu Wang, Xihui Liu
ICLR 2026
[Paper] [Project Page]

ICLR

HoloPart: Generative 3D Part Amodal Segmentation
Yunhan Yang, Yuan-Chen Guo, Yukun Huang, Zi-Xin Zou, Zhipeng Yu, Yangguang Li, Yan-Pei Cao, Xihui Liu
ICLR 2026
[Paper] [Project Page] [Code] [Interactive Demo]

ICLR

GoT-R1: Unleashing Reasoning Capability of Autoregressive Visual Generation with Reinforcement Learning
Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu
ICLR 2026
[Paper] [Code]

ICRA

DSPv2: Improved Dense Policy for Effective and Generalizable Whole-body Mobile Manipulation
Yue Su, Chubin Zhang, Sijin Chen, Liufan Tan, Yansong Tang, Jianan Wang, Xihui Liu
ICRA 2026
[Paper] [Project Page] [Code]

ICRA

Open-Vocabulary Object-Goal Navigation by Generalizing Semantic Mapping with Dense CLIP
Meng Wei, Chenyang Wan, Tai Wang, Yuqiang Yang, Wenzhe Cai, Yilun Chen, Hanqing Wang, Jiangmiao Pang, Xihui Liu
ICRA 2026
[Paper]

IJCV

EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning
Yi Chen, Yuying Ge, Yixiao Ge, Mingyu Ding, Bohao Li, Rui Wang, Ruifeng Xu, Ying Shan, Xihui Liu
IJCV 2026
[Paper] [Project Page] [Code] [Challenge] [Data] [Leaderboard]

IJCV

EgoPlan-Bench2: A Benchmark for Multimodal Large Language Model Planning in Real-World Scenarios
Lu Qiu, Yi Chen, Yuying Ge, Yixiao Ge, Ying Shan, Xihui Liu
IJCV 2026
[Paper] [Project Page] [Code]

NeurIPS

TTS-VAR: A Test-Time Scaling Framework for Visual Auto-Regressive Generation
Zhekai Chen, Ruihang Chu, Yukang Chen, Shiwei Zhang, Yujie Wei, Yingya Zhang, Xihui Liu
NeurIPS 2025
[Paper] [Code]

NeurIPS

Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation
Yao Teng, Fuyun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu
NeurIPS 2025
[Paper]

Siggraph Asia

Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval
Jiwen Yu, Jianhong Bai, Yiran Qin, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu
Siggraph Asia 2025
[Paper] [Project Page]

Siggraph Asia

OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion
Yunhan Yang, Yufan Zhou, Yuan-Chen Guo, Zi-Xin Zou, Yukun Huang, Ying-Tian Liu, Hao Xu, Ding Liang, Yan-Pei Cao, Xihui Liu
Siggraph Aisa 2025
[Paper] [Project Page]

ICCV Oral

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation
Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu
ICCV 2025 Oral
[Paper] [Project Page] [Code]

ICCV Highlight

GameFactory: Creating New Games with Generative Interactive Videos
Jiwen Yu, Yiran Qin, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu
ICCV 2025 Highlight
[Paper] [Project Page] [Code] [Dataset]

ICCV

TokenBridge: Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation
Yuqing Wang, Zhijie Lin, Yao Teng, Yuanzhi Zhu, Shuhuai Ren, Jiashi Feng, Xihui Liu
ICCV 2025
[Paper] [Project Page] [Code]

ICCV

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation
Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu
ICCV 2025
[Paper] [Project Page] [Code]

ICCV

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities
Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
ICCV 2025
[Paper] [Project Page] [Code]

ICCV

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation
Rongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu
ICCV 2025
[Paper] [Project Page] [Code]

ICCV

DreamCube: 3D Panorama Generation via Multi-plane Synchronization
Yukun Huang, Yanning Zhou, Jianan Wang, Kaiyi Huang, Xihui Liu
ICCV 2025
[Paper] [Project Page] [Code] [Video]

TPAMI

DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion
Yukun Huang, Jianan Wang, Ailing Zeng, Zheng-Jun Zha, Lei Zhang, Xihui Liu
TPAMI 2025
[Paper] [Project page] [Code]

TPAMI

DreamComposer++: Empowering Diffusion Models with Multi-View Conditions for 3D Content Generation
Yunhan Yang*, Shuo Chen*, Yukun Huang*, Xiaoyang Wu, Yuan-Chen Guo, Edmund Y. Lam, Hengshuang Zhao, Tong He, Xihui Liu
TPAMI 2025
[Paper]

TPAMI

T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-Image Generation
Kaiyi Huang, Chengqi Duan, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
TPAMI 2025
[Paper] [Project page] [Code]

CVPR Highlight

Parallelized Autoregressive Visual Generation
Yuqing Wang, Shuhuai Ren, Zhijie Lin, Yujin Han, Haoyuan Guo, Zhenheng Yang, Difan Zou, Jiashi Feng, Xihui Liu
CVPR 2025 Highlight
[Paper] [Project Page] [Code]

CVPR

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
CVPR 2025
[Paper] [Project Page] [Code] [LeaderBoard]

ICLR

Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding
Yao Teng, Han Shi, Xian Liu, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu
ICLR 2025
[Paper] [Code]

NeurIPS Spotlight

GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing
Zhenyu Wang, Aoxue Li, Zhenguo Li, Xihui Liu
NeurIPS 2024 Spotlight
[Paper] [Project Page] [Code]

NeurIPS

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu
NeurIPS 2024
[Paper] [Project Page] [Code and Dataset]

ECCV

Empowering 3D Visual Grounding with Reasoning Capabilities
Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu
ECCV 2024
[Paper] [Project Page] [Code] [Data]

CVPR

DreamComposer: Controllable 3D Object Generation via Multi-View Conditions
Yunhan Yang*, Yukun Huang*, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu
CVPR 2024
[Paper] [Project Page] [Code] [Hugging Face Daily Papers]

NeurIPS

T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation
Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
NeurIPS 2023
[Paper] [Project Page] [Code] [Data] [Hugging Face Daily Papers] [T2I-CompBench++]

Xihui Liu 刘希慧

Highlighted Publications (Full List of Publications and Google Scholar)