Xihui Liu

Publications

Siggraph Asia

Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval
Jiwen Yu, Jianhong Bai, Yiran Qin, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu
Siggraph Asia 2025
[Paper] [Project Page]

Siggraph Asia

OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion
Yunhan Yang, Yufan Zhou, Yuan-Chen Guo, Zi-Xin Zou, Yukun Huang, Ying-Tian Liu, Hao Xu, Ding Liang, Yan-Pei Cao, Xihui Liu
Siggraph Aisa 2025
[Paper] [Project Page]

ICCV Oral

Moto: Latent Motion Token as the Bridging Language for Robot Manipulation
Yi Chen, Yuying Ge, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu
ICCV 2025 Oral
[Paper] [Project Page] [Code]

ICCV Highlight

GameFactory: Creating New Games with Generative Interactive Videos
Jiwen Yu, Yiran Qin, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu
ICCV 2025 Highlight
[Paper] [Project Page] [Code] [Dataset]

ICCV

TokenBridge: Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation
Yuqing Wang, Zhijie Lin, Yao Teng, Yuanzhi Zhu, Shuhuai Ren, Jiashi Feng, Xihui Liu
ICCV 2025
[Paper] [Project Page] [Code]

ICCV

GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation
Tianwei Xiong, Jun Hao Liew, Zilong Huang, Jiashi Feng, Xihui Liu
ICCV 2025
[Paper] [Project Page] [Code]

ICCV

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D Capabilities
Chenming Zhu, Tai Wang, Wenwei Zhang, Jiangmiao Pang, Xihui Liu
ICCV 2025
[Paper] [Project Page] [Code]

ICCV

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation
Rongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu
ICCV 2025
[Paper] [Project Page] [Code]

ICCV

DreamCube: 3D Panorama Generation via Multi-plane Synchronization
Yukun Huang, Yanning Zhou, Jianan Wang, Kaiyi Huang, Xihui Liu
ICCV 2025
[Paper] [Project Page] [Code] [Video]

ICCV

RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints
Yiran Qin, Li Kang, Xiufeng Song, Zhenfei Yin, Xiaohong Liu, Xihui Liu, Ruimao Zhang, Lei Bai
ICCV 2025
[Paper] [Project Page] [Code]

ICCV

V2PE: Improving Multimodal Long-Context Capability of Vision-Language Models with Variable Visual Position Encoding
Junqi Ge, Ziyi Chen, Jintao Lin, Jinguo Zhu, Xihui Liu, Jifeng Dai, Xizhou Zhu
ICCV 2025
[Paper] [Project Page] [Code]

ICCV

LiT: Delving into a Simple Linear Diffusion Transformer for Image Generation
Jiahao Wang, Ning Kang, Lewei Yao, Mengzhao Chen, Chengyue Wu, Songyang Zhang, Shuchen Xue, Yong Liu, Taiqiang Wu, Xihui Liu, Kaipeng Zhang, Shifeng Zhang, Wenqi Shao, Zhenguo Li, Ping Luo
ICCV 2025
[Paper]

TPAMI

DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion
Yukun Huang, Jianan Wang, Ailing Zeng, Zheng-Jun Zha, Lei Zhang, Xihui Liu
TPAMI 2025
[Paper] [Project page] [Code]

TPAMI

DreamComposer++: Empowering Diffusion Models with Multi-View Conditions for 3D Content Generation
Yunhan Yang*, Shuo Chen*, Yukun Huang*, Xiaoyang Wu, Yuan-Chen Guo, Edmund Y. Lam, Hengshuang Zhao, Tong He, Xihui Liu
TPAMI 2025
[Paper]

TPAMI

T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-Image Generation
Kaiyi Huang, Chengqi Duan, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
TPAMI 2025
[Paper] [Project page] [Code]

ICML

WorldSimBench: Towards Video Generation Models as World Simulators
Yiran Qin*, Zhelun Shi*, Jiwen Yu, Xijun Wang, Enshen Zhou, Lijun Li, Zhenfei Yin, Xihui Liu, Lu Sheng, Jing Shao, Lei Bai, Wanli Ouyang, Ruimao Zhang
ICML 2025
[Paper] [Project page]

ICML

UniMC: Taming Diffusion Transformer for Unified Keypoint-Guided Multi-Class Image Generation
Qin Guo, Ailing Zeng, Dongxu Yue, Ceyuan Yang, Yang Cao, Hanzhong Guo, Fei Shen, Wei Liu, Xihui Liu, Dan Xu
ICML 2025

CVPR Highlight

Parallelized Autoregressive Visual Generation
Yuqing Wang, Shuhuai Ren, Zhijie Lin, Yujin Han, Haoyuan Guo, Zhenheng Yang, Difan Zou, Jiashi Feng, Xihui Liu
CVPR 2025 Highlight
[Paper] [Project Page] [Code]

CVPR

T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation
Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu
CVPR 2025
[Paper] [Project Page] [Code] [LeaderBoard]

CVPR

T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation
Lijun Li, Zhelun Shi, Xuhao Hu, Bowen Dong, Yiran Qin, Xihui Liu, Lu Sheng, Jing Shao
CVPR 2025
[Paper]

CVPR

MBQ: Modality-Balanced Quantization for Large Vision-Language Models
Shiyao Li, Yingchun Hu, Xuefei Ning, Xihui Liu, Ke Hong, xiaotao jia, Xiuhong Li, Yaqi Yan, PEI RAN, Guohao Dai, Shengen Yan, Huazhong Yang, Yu Wang
CVPR 2025
[Paper] [Code]

CVPR

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation
Zehuan Huang, Yuan-Chen Guo, Xingqiao An, Yunhan Yang, Yangguang Li, Zi-Xin Zou, Ding Liang, Xihui Liu, Yan-Pei Cao, Lu Sheng
CVPR 2025
[Paper] [Project Page] [Code]

CVPR

HMAR: Efficient Hierarchical Masked AutoRegressive Image Generation
Hermann Kumbong, Xian Liu, Tsung-Yi Lin, Ming-Yu Liu, Xihui Liu, Ziwei Liu, Daniel Y Fu, Christopher Re, David W. Romero
CVPR 2025
[Paper Coming Soon]

ICLR

Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding
Yao Teng, Han Shi, Xian Liu, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu
ICLR 2025
[Paper] [Code]

A Survey of Interactive Generative Video
Jiwen Yu*, Yiran Qin*, Haoxuan Che*, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Hao Chen, Xihui Liu
arXiv 2025
[Paper]

Position: Interactive Generative Video as Next-Generation Game Engine
Jiwen Yu*, Yiran Qin*, Haoxuan Che, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu
arXiv 2025
[Paper]

HoloPart: Generative 3D Part Amodal Segmentation
Yunhan Yang, Yuan-Chen Guo, Yukun Huang, Zi-Xin Zou, Zhipeng Yu, Yangguang Li, Yan-Pei Cao, Xihui Liu
arXiv 2025
[Paper] [Project Page] [Code] [Interactive Demo]

SAMPart3D: Segment Any Part in 3D Objects
Yunhan Yang, Yukun Huang, Yuan-Chen Guo, Liangjun Lu, Xiaoyang Wu, Edmund Y. Lam, Yan-Pei Cao, Xihui Liu
arXiv 2024
[Paper] [Project Page] [Code] [Dataset]

GenMAC: Compositional Text-to-Video Generation with Multi-Agent Collaboration
Kaiyi Huang, Yukun Huang, Xuefei Ning, Zinan Lin, Yu Wang, Xihui Liu
arXiv 2024
[Paper] [Project Page] [Code]

NeurIPS Spotlight

GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing
Zhenyu Wang, Aoxue Li, Zhenguo Li, Xihui Liu
NeurIPS 2024 Spotlight
[Paper] [Project Page] [Code]

NeurIPS

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu
NeurIPS 2024
[Paper] [Project Page] [Code and Dataset]

NeurIPS

BEACON: Benchmark for Comprehensive RNA Tasks and Language Models
Yuchen Ren, Zhiyuan Chen, Lifeng Qiao, Hongtai Jing, Yuchen Cai, Sheng Xu, Peng Ye, Xinzhu Ma, Siqi Sun, Hongliang Yan, Dong Yuan, Wanli Ouyang, Xihui Liu
NeurIPS 2024
[Paper] [Project Page] [Code and Dataset]

NeurIPS

4Diffusion: Multi-view Video Diffusion Model for 4D Generation
Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, Yu Qiao
NeurIPS 2024
[Paper] [Project Page] [Code]

NeurIPS

Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation
Yunnan Wang, Ziqiang Li, Wenyao Zhang, Zequn Zhang, Baao Xie, Xihui Liu, Wenjun Zeng, Xin Jin
NeurIPS 2024
[Paper]

ECCV

Empowering 3D Visual Grounding with Reasoning Capabilities
Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu
ECCV 2024
[Paper] [Project Page] [Code] [Data]

ECCV

TC4D: Trajectory-Conditioned Text-to-4D Generation
Sherwin Bahmani*, Xian Liu*, Yifan Wang*, Ivan Skorokhodov, Victor Rong, Ziwei Liu, Xihui Liu, Jeong Joon Park, Sergey Tulyakov, Gordon Wetzstein, Andrea Tagliasacchi, David B. Lindell
ECCV 2024
[Paper] [Project Page] [Code]

ECCV

PredBench: Benchmarking Spatio-Temporal Prediction across Diverse Disciplines
ZiDong Wang, Zeyu Lu, Di Huang, Tong He, Xihui Liu, Wanli Ouyang, Lei Bai
ECCV 2024
[Paper] [Code]

EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning
Yi Chen, Yuying Ge, Yixiao Ge, Mingyu Ding, Bohao Li, Rui Wang, Ruifeng Xu, Ying Shan, Xihui Liu
arXiv 2024
[Paper] [Project Page] [Code] [Challenge] [Data] [Leaderboard]

DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis
Yao Teng, Yue Wu, Han Shi, Xuefei Ning, Guohao Dai, Yu Wang, Zhenguo Li, Xihui Liu
arXiv 2024
[Paper] [Code]

ICML

FiT: Flexible Vision Transformer for Diffusion Model
Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai
ICML 2024
[Paper] [Code]

CVPR

DreamComposer: Controllable 3D Object Generation via Multi-View Conditions
Yunhan Yang*, Yukun Huang*, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu
CVPR 2024
[Paper] [Project Page] [Code]

CVPR Highlight

HumanGaussian: Text-driven 3d Human Generation with Gaussian Splatting
Xian Liu, Xiaohang Zhan, Jiaxiang Tang, Ying Shan, Gang Zeng, Dahua Lin, Xihui Liu, Ziwei Liu
CVPR 2024 Highlight
[Paper] [Project Page] [Code] [video]

CVPR

EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards Embodied AI
Tai Wang*, Xiaohan Mao*, Chenming Zhu*, Runsen Xu, Ruiyuan Lyu, Peisen Li, Xiao Chen, Wenwei Zhang, Kai Chen, Tianfan Xue, Xihui Liu, Cewu Lu, Dahua Lin, Jiangmiao Pang
CVPR 2024
[Paper] [Project Page] [Code] [Data]

CVPR Oral

Point Transformer V3: Simpler, Faster, Stronger
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao
CVPR 2024 Oral
[Paper] [Code]

CVPR

Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao
CVPR 2024
[Paper] [Code]

ICLR

HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion
Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov
ICLR 2024
[Paper] [Project Page] [Code] [Short video] [Long video]

WACV

Shape-Guided Diffusion with Inside-Outside Attention
Dong Huk Park*, Grace Luo*, Clayton Andrew Toste, Samaneh Azadi, Xihui Liu, Makrine Karalashvili, Anna Rohrbach, Trevor Darrell
WACV 2024
[Paper] [Project Page] [Code]

NeurIPS

T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional Text-to-image Generation
Kaiyi Huang, Kaiyue Sun, Enze Xie, Zhenguo Li, Xihui Liu
NeurIPS 2023
[Paper] [Project Page] [Code] [Data] [T2I-CompBench++]

NeurIPS

OV-PARTS: Towards Open-Vocabulary Part Segmentation
Meng Wei, Xiaoyu Yue, Wenwei Zhang, Shu Kong, Xihui Liu, Jiangmiao Pang
NeurIPS 2023
[Paper] [Code] [Data] [Challenge]

NeurIPS

Seeing is not always believing: A Quantitative Study on Human Perception of AI-Generated Images
Zeyu Lu*, Di Huang*, Lei Bai*, Jingjing Qu, Chengyue Wu, Xihui Liu, Wanli Ouyang
NeurIPS 2023
[Paper] [Project Page] [Data]

NeurIPS

CorresNeRF: Image Correspondence Priors for Neural Radiance Fields
Yixing Lao, Xiaogang Xu, Zhipeng Cai, Xihui Liu, Hengshuang Zhao
NeurIPS 2023
[Paper] [Project Page] [Code]

ICCV

DDP: Diffusion Model for Dense Visual Prediction
Yuanfeng Ji*, Zhe Chen*, Enze Xie, Lanqing Hong, Xihui Liu, Zhaoqiang Liu, Tong Lu, Zhenguo Li, Ping Luo
ICCV 2023
[Paper] [Code]

ICCVW

SAM3D: Segment Anything in 3D Scenes
Yunhan Yang, Xiaoyang Wu, Tong He, Hengshuang Zhao, Xihui Liu
ICCV Workshop 2023
[Paper] [Code]

CVPR

Back to the Source: Diffusion-Driven Test-Time Adaptation
Jin Gao*, Jialing Zhang*, Xihui Liu, Trevor Darrell, Evan Shelhamer, Dequan Wang
CVPR 2023
[Paper] [Code]

CVPR

Learning Transferable Spatiotemporal Representations from Natural Script Knowledge
Ziyun Zeng*, Yuying Ge*, Xihui Liu, Bin Chen, Ping Luo, Shu-Tao Xia, Yixiao Ge
CVPR 2023
[Paper] [Code]

CVPR

Masked Scene Contrast: A Scalable Framework for Unsupervised 3D Representation Learning
Xiaoyang Wu, Xin Wen, Xihui Liu, Hengshuang Zhao
CVPR 2023
[Paper] [Code]

CVPR

RIFormer: Keep Your Vision Backbone Effective But Removing Token Mixer
Jiahao Wang, Songyang Zhang, Yong Liu, Taiqiang Wu, Yujiu Yang, Xihui Liu, Kai Chen, Ping Luo, Dahua Lin
CVPR 2023
[Paper] [Project Page] [Code]

CVPR

GLeaD: Improving GANs with A Generator-Leading Task
Qingyan Bai, Ceyuan Yang, Yinghao Xu, Xihui Liu, Yujiu Yang, Yujun Shen
CVPR 2023
[Paper] [Project Page] [Code]

WACV

More Control for Free! Image Synthesis with Semantic Diffusion Guidance
Xihui Liu, Dong Huk Park, Samaneh Azadi, Gong Zhang, Arman Chopikyan, Yuxiao Hu, Humphrey Shi, Anna Rohrbach, Trevor Darrell
WACV 2023
[Paper] [Project Page] [Code]

NeurIPS

Point Transformer V2: Grouped Vector Attention and Partition-based Pooling
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao
NeurIPS 2022
[Paper] [Code]

ECCV

MILES: Visual BERT Pre-training with Injected Language Semantics for Video-text Retrieval
Yuying Ge, Yixiao Ge, Xihui Liu, Alex Jinpeng Wang, Jianping Wu, Ying Shan, Xiaohu Qie, Ping Luo
ECCV 2022
[Paper] [Code]

CVPR Oral

Bridging Video-text Retrieval with Multiple Choice Questions
Yuying Ge, Yixiao Ge, Xihui Liu, Alex Jinpeng Wang, Jianping Wu, Ying Shan, Xiaohu Qie, Ping Luo
CVPR 2022 Oral
[Paper] [Project Page] [Code]

The ArtBench Dataset: Benchmarking Generative Models with Artworks
Peiyuan Liao*, Xiuyu Li*, Xihui Liu, Kurt Keutzer
arXiv 2022
[Paper] [Project Page] [Data]

NeurIPS

Benchmark for Compositional Text-to-Image Synthesis
Dong Huk Park, Samaneh Azadi, Xihui Liu, Trevor Darrell, Anna Rohrbach
NeurIPS Datasets and Benchmarks 2021
[Paper] [Code] [Data]

ECCV

Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary Instructions
Xihui Liu, Zhe Lin, Jianming Zhang, Handong Zhao, Quan Tran, Xiaogang Wang, Hongsheng Li
ECCV 2020
[Paper] [Code] [Video] [Slides]

NeurIPS

Learning to Predict Layout-to-image Conditional Convolutions for Semantic Image Synthesis
Xihui Liu, Guojun Yin, Jing Shao, Xiaogang Wang, Hongsheng Li
NeurIPS 2019
[Paper] [Code] [Slides]

ICCV

CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval
Zihao Wang, Xihui Liu, Hongsheng Li, Lu Sheng, Junjie Yan, Xiaogang Wang, Jing Shao
ICCV 2019
[Paper] [Code]

CVPR

Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing
Xihui Liu, Zihao Wang, Jing Shao, Xiaogang Wang, Hongsheng Li
CVPR 2019
[Paper] [Code]

ECCV

Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data
Xihui Liu, Hongsheng Li, Jing Shao, Dapeng Chen, Xiaogang Wang
ECCV 2018
[Paper]

ECCV

Improving Deep Visual Representation for Person Re-identiﬁcation by Global and Local Image-language Association
Dapeng Chen, Hongsheng Li, Xihui Liu, Yantao Shen, Jing Shao, Zejian Yuan, Xiaogang Wang
ECCV 2018
[Paper]

BMVC

Localization Guided Learning for Pedestrian Attribute Recognition
Pengze Liu, Xihui Liu, Junjie Yan, Jing Shao
BMVC 2018
[Paper] [Code]

ICCV

HydraPlus-Net: Attentive Deep Features for Pedestrian Analysis
Xihui Liu*, Haiyu Zhao*, Maoqing Tian, Lu Sheng, Jing Shao, Shuai Yi, Junjie Yan, Xiaogang Wang
ICCV 2017
[Paper] [Project Page] [Code] [Data]

ICCV

Orientation Invariant Feature Embedding and Spatial Temporal Regularization for Vehicle Re-identification
Zhongdao Wang*, Luming Tang*, Xihui Liu, Zhuliang Yao, Shuai Yi, Jing Shao, Junjie Yan, Shengjin Wang, Hongsheng Li, Xiaogang Wang
ICCV 2017
[Paper] [Data]

CVPR

Object Detection in Videos With Tubelet Proposal Networks
Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, Xihui Liu, Xiaogang Wang
CVPR 2017
[Paper] [Code] [Winner of ImageNet ILSVRC 2016 Task 3c: Object detection/tracking from video]