Xingyi Zhou

I am a Research Scientist at Meta GenAI. I did my Ph.D. in Computer Science at The University of Texas at Austin, supervised by Prof. Philipp Krähenbühl. Before that, I obtained my bachelor degree from School of Computer Science at Fudan University. I have worked at Google DeepMind, and have interned at Microsoft Research Asia, Google Research, Intel Labs, and Facebook AI Research.

My current research interest is introducing fine-grained understanding capability in vision-language models.

CV / Google Scholar / GitHub / LinkedIn

Last updated February 2025

2025

Visual Lexicon: Rich Image Features in Language Space
XuDong Wang, Xingyi Zhou, Alireza Fathi, Trevor Darrell, Cordelia Schmid
arXiv

Dense Video Object Captioning from Disjoint Supervision
Xingyi Zhou*, Anurag Arnab*, Chen Sun, Cordelia Schmid (* Equal contribution)
ICLR (spotlight), 2025
code

2024

Streaming Dense Video Captioning
Xingyi Zhou*, Anurag Arnab*, Shyamal Buch, Shen Yan, Austin Myers, Xuehan Xiong, Arsha Nagrani, Cordelia Schmid (* Equal contribution)
CVPR, 2024
code

Pixel Aligned Language Models
Jiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid
CVPR, 2024
code

2023

How can objects help action recognition?
Xingyi Zhou, Anurag Arnab, Chen Sun, Cordelia Schmid
CVPR, 2023
code

2022

Detecting Twenty-thousand Classes using Image-level Supervision
Xingyi Zhou, Rohit Girdhar, Armand Joulin, Philipp Krähenbühl, Ishan Misra
ECCV, 2022
bibtex / code / models / web demo

Global Tracking Transformers
Xingyi Zhou, Tianwei Yin, Vladlen Koltun, Philipp Krähenbühl
CVPR, 2022
bibtex / code / models

Simple multi-dataset detection
Xingyi Zhou, Vladlen Koltun, Philipp Krähenbühl
CVPR, 2022
bibtex / code / models

2021

Probabilistic two-stage detection
Xingyi Zhou, Vladlen Koltun, Philipp Krähenbühl
arXiv technical report, 2021
bibtex / code / models

Multimodal Virtual Point 3D Detection
Tianwei Yin, Xingyi Zhou, Philipp Krähenbühl
NeurIPS, 2021
bibtex / code /

Center-based 3D Object Detection and Tracking
Tianwei Yin, Xingyi Zhou, Philipp Krähenbühl
CVPR, 2021
bibtex / code / models

2020

Tracking Objects as Points
Xingyi Zhou, Vladlen Koltun, Philipp Krähenbühl
ECCV, 2020 (Spotlight)
bibtex / code / model zoo

2019

Objects as Points
Xingyi Zhou, Dequan Wang, Philipp Krähenbühl
arXiv technical report, 2019
bibtex / code / model zoo

Bottom-up Object Detection by Grouping Extreme and Center Points
Xingyi Zhou, Jiacheng Zhuo, Philipp Krähenbühl
Computer Vision and Pattern Recognition (CVPR), 2019
bibtex / code / model / supplementary

2018

StarMap for Category-Agnostic Keypoint and Viewpoint Estimation
Xingyi Zhou, Arjun Karpur, Linjie Luo, Qixing Huang
European Conference on Computer Vision (ECCV), 2018
bibtex / code / model / supplementary / poster

Unsupervised Domain Adaptation for 3D Keypoint Estimation via View Consistency
Xingyi Zhou, Arjun Karpur, Chuang Gan, Linjie Luo, Qixing Huang
European Conference on Computer Vision (ECCV), 2018
bibtex / code / model / poster

2017

Towards 3D Human Pose Estimation in the Wild: A weakly-supervised Approach
Xingyi Zhou, Qixing Huang, Xiao Sun, Xiangyang Xue, Yichen Wei
International Conference on Computer Vision (ICCV), 2017
bibtex / code (torch) / code (PyTorch) / model / supplementary / poster

2016

Deep Kinematic Pose Regression
Xingyi Zhou, Xiao Sun, Wei Zhang, Shuang Liang, Yichen Wei
ECCV Workshop on Geometry Meets Deep Learning, 2016
bibtex / code / model / poster

Model-based Deep Hand Pose Estimation
Xingyi Zhou, Qingfu Wan, Wei Zhang, Xiangyang Xue, Yichen Wei
International Joint Conference on Artificial Intelligence (IJCAI), 2016
bibtex / code / slides / poster