Publications

2026

HA-VLN 2.0 human-aware navigation benchmark overview

arXiv 2026

HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions

Yifei Dong, Fengyi Wu, Qi He, Heng Li, Minghan Li, Zebang Cheng, Yuxuan Zhou, Jingdong Sun, Qi Dai, Zhi-Qi Cheng, et al.

arXiv preprint, 2026

Paper Project Code

Foundation Models & Reasoning · Embodied AI & World Models

Lossless Hierarchical Speculative Decoding overview

Overcoming Joint Intractability with Lossless Hierarchical Speculative Decoding

Yuxuan Zhou, Fei Huang, Heng Li, Fengyi Wu, Tianyu Wang, Jianwei Zhang, Junyang Lin, Zhi-Qi Cheng

In International Conference on Learning Representations (ICLR), Oral presentation, 2026

Paper Code

Foundation Models & Reasoning

GoVIG goal-conditioned navigation overview

ACL Findings 2026

GoVIG: Goal-Conditioned Visual Navigation Instruction Generation via Multimodal Reasoning

Fengyi Wu, Yifei Dong, Zhi-Qi Cheng, Yilong Dai, Guangyu Chen, Hang Wang, Qi Dai, Alexander G. Hauptmann

Findings of the Association for Computational Linguistics (ACL Findings), 2026

Paper Project

Foundation Models & Reasoning · Embodied AI & World Models

BlackVIP black-box visual prompting for foundation model adaptation

Robust Adaptation of Foundation Models with Black-Box Visual Prompting

Changdae Oh, Gyeongdeok Seo, Geunyoung Jung, Zhi-Qi Cheng, Hosik Choi, Jiyoung Jung, Kyungwoo Song

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2026

Paper Code

Foundation Models & Reasoning

Language-Conditioned World Modeling for Visual Navigation

Yifei Dong, Fengyi Wu, Yilong Dai, Lingdong Kong, Guangyu Chen, Qiyu Hu, Yetong Sha, Feng Liu, Siyu Huang, Qi Dai, Zhi-Qi Cheng

arXiv preprint, 2026

Code

Embodied AI & World Models

FlexMap HD map construction from flexible camera configurations

arXiv 2026

FlexMap: Generalized HD Map Construction from Flexible Camera Configurations

Run Wang, Chaoyi Zhou, Amir Salarpour, Xi Liu, Zhi-Qi Cheng, Feng Luo, Mert D. Pesé, Siyu Huang

arXiv preprint, 2026

Paper

Mobility & Public Safety

Towards Unified World Models for Visual Navigation via Memory-Augmented Planning and Foresight

Yifei Dong, Fengyi Wu, Guangyu Chen, Lingdong Kong, Xu Zhu, Qiyu Hu, Yuxuan Zhou, Jingdong Sun, Jun-Yan He, Qi Dai, Alexander G. Hauptmann, Zhi-Qi Cheng

arXiv preprint, 2026

Code

Foundation Models & Reasoning · Embodied AI & World Models

Emotion-LLaMAv2 and MMEVerse benchmark overview

arXiv 2026

Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding

Xiaojiang Peng, Jingyi Chen, Zebang Cheng, Bao Peng, Fengyi Wu, Yifei Dong, Shuyuan Tu, Qiyu Hu, Huiting Huang, Yuxiang Lin, et al.

arXiv preprint, 2026

Paper Code & Benchmark

Foundation Models & Reasoning

ATSS anomalous temporal self-similarity for AI-generated video detection

arXiv 2026

ATSS: Detecting AI-Generated Videos via Anomalous Temporal Self-Similarity

Hang Wang, Chao Shen, Lei Zhang, Zhi-Qi Cheng

arXiv preprint, 2026

Paper Code

Foundation Models & Reasoning · Mobility & Public Safety

2025

MaxSup Grad-CAM visualization comparison

MaxSup: Overcoming Representation Collapse in Label Smoothing

Yuxuan Zhou, Heng Li, Zhi-Qi Cheng, Xudong Yan, Mario Fritz, Margret Keuper

In Advances in Neural Information Processing Systems (NeurIPS), Oral presentation, 2025

Code

Foundation Models & Reasoning

StableAnimator: High-Quality Identity-Preserving Human Image Animation

Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai, Chong Luo, Zuxuan Wu

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025

Code Website

Foundation Models & Reasoning · Embodied AI & World Models

MetaDesigner pipeline, glyph, and texture designer example

MetaDesigner: AI-Driven, User-Centric, Multilingual WordArt Synthesis

Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Qi He, Wangmeng Xiang, Hanyuan Chen, Jin-Peng Lan, Xianhui Lin, Kang Zhu, et al.

In International Conference on Learning Representations (ICLR), 2025

Website

Foundation Models & Reasoning

Emphasizing Discriminative Features for Dataset Distillation in Complex Scenarios

Kai Wang, Zekai Li, Zhi-Qi Cheng, Samir Khaki, Ahmad Sajedi, Ramakrishna Vedantam, Konstantinos N. Plataniotis, Alexander Hauptmann, Yang You

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2025

Code

Foundation Models & Reasoning

ICME 2025 · Oral

SituLM: Leveraging Visual Instruction Tuning and an Augmented SWiG Dataset for Enhanced Grounded Situation Recognition

Yuran Wang, Zhi-Qi Cheng

In IEEE International Conference on Multimedia and Expo (ICME), Oral presentation, 2025

Paper Code

Foundation Models & Reasoning · Embodied AI & World Models

VDAct: A Video-grounded Dialogue Dataset and Metric for Event-driven Activities

Wiradee Imrattanatrai, Masaki Asada, Kimihiro Hasegawa, Zhi-Qi Cheng, Ken Fukuda, Teruko Mitamura

In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), Oral presentation, 2025

Code & Data

Foundation Models & Reasoning · Embodied AI & World Models

ProMQA procedural activity understanding

ProMQA: Question Answering Dataset for Multimodal Procedural Activity Understanding

Kimihiro Hasegawa, Wiradee Imrattanatrai, Zhi-Qi Cheng, Masaki Asada, Susan Holm, Yuran Wang, Ken Fukuda, Teruko Mitamura

In Proceedings of the 2025 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), Oral presentation, 2025

Code & Data

Foundation Models & Reasoning · Embodied AI & World Models

DyRoNet: Dynamic Routing and Low-Rank Adapters for Autonomous-Driving Streaming Perception

Xiang Huang, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Wangmeng Xiang, Baigui Sun

In IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2025

Code Website

Foundation Models & Reasoning · Mobility & Public Safety

UCDR-Adapter: Exploring Adaptation of Pre-Trained Vision-Language Models for Universal Cross-Domain Retrieval

Haoyu Jiang, Zhi-Qi Cheng, Gabriel Moreira, Jiawen Zhu, Jingdong Sun, Bukun Ren, Jun-Yan He, Qi Dai, Xian-Sheng Hua

In IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2025

Code

Foundation Models & Reasoning

POPoS parallel optimal position search overview

POPoS: Improving Efficient and Robust Facial Landmark Detection with Parallel Optimal Position Search

Chong-Yang Xiang, Jun-Yan He, Zhi-Qi Cheng, Xiao Wu, Xian-Sheng Hua

In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), 2025

Paper

Foundation Models & Reasoning

CVPR 2025 Workshop · Best Paper

Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions

Yifei Dong, Fengyi Wu, Sanjian Zhang, Guangyu Chen, Yuzhi Hu, Masumi Yano, Jingdong Sun, Siyu Huang, Feng Liu, Qi Dai, Zhi-Qi Cheng, et al.

In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Anti-UAV Workshop, Workshop Best Paper Award, 2025

Paper

Foundation Models & Reasoning · Mobility & Public Safety

MotionFollower video motion editing via score-guided diffusion

MotionFollower: Editing Video Motion via Score-Guided Diffusion

Shuyuan Tu, Qi Dai, Zihao Zhang, Sicheng Xie, Zhi-Qi Cheng, Chong Luo, Xintong Han, Zuxuan Wu, Yu-Gang Jiang

In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2025

Paper Website Code

Foundation Models & Reasoning · Embodied AI & World Models

Large Language Model Agents in Finance: A Survey Bridging Research, Practice, and Real-World Deployment

Yifei Dong, Fengyi Wu, Kunlin Zhang, Yilong Dai, Sanjian Zhang, Wanghao Ye, Sihan Chen, Zhi-Qi Cheng

Findings of the Association for Computational Linguistics: Empirical Methods in Natural Language Processing (EMNLP Findings), 2025

Paper Website

Foundation Models & Reasoning · Mobility & Public Safety

RTPCA refined temporal pyramidal compression-and-amplification transformer overview

ICME 2025

Refined Temporal Pyramidal Compression-and-Amplification Transformer for 3D Human Pose Estimation

Hanbing Liu, Zhi-Qi Cheng, Wangmeng Xiang, Jun-Yan He, Bin Luo, Yifeng Geng, Xuansong Xie

In IEEE International Conference on Multimedia and Expo (ICME), 2025

Foundation Models & Reasoning · Embodied AI & World Models · Mobility & Public Safety

UMETTS emotional text-to-speech synthesis overview

ICASSP 2025

UMETTS: A Unified Framework for Emotional Text-to-Speech Synthesis with Multimodal Prompts

Zhi-Qi Cheng, Xiang Li, Jun-Yan He, Junyao Chen, Xiaomao Fan, Xiaojiang Peng, Alexander G. Hauptmann

In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2025

Paper Code

Foundation Models & Reasoning

ICASSP 2025

DeformAvatar: Point-Based Human Avatar Re-targeting and Rendering

Renyi Zhan, Zhi-Qi Cheng, Junyao Chen, Xiaojiang Peng

In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2025

Paper

Foundation Models & Reasoning · Embodied AI & World Models

IVAC-P2L video action counting with irregular repetition priors

IVAC-P2L: Leveraging Irregular Repetition Priors for Improving Video Action Counting

Hang Wang, Zhi-Qi Cheng, Youtian Du, Lei Zhang

IEEE Transactions on Multimedia (TMM), 2025

Paper Code

Foundation Models & Reasoning · Embodied AI & World Models · Mobility & Public Safety

Why We Feel emotional reasoning with multimodal large language models

Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models

Yuxiang Lin, Jingdong Sun, Zhi-Qi Cheng, Jue Wang, Haomin Liang, Zebang Cheng, Yifei Dong, Jun-Yan He, Xiaojiang Peng, Xian-Sheng Hua

In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) NEXD Workshop, Oral presentation, 2025

Paper Code

Foundation Models & Reasoning

Robotic manipulation survey with LLMs overview

Neurocomputing 2025

A Survey of Robotic Manipulation: From Bottom-Up Approaches to End-to-End Paradigms with LLMs

Kai Peng, Qing Li, Zhijian He, Bowen Zhang, Xianghua Fu, Bin Li, Xiaohui Wang, Zhi-Qi Cheng, Yan Yan, Xiaojiang Peng

Neurocomputing, 2025

Paper

Foundation Models & Reasoning · Embodied AI & World Models

Combo co-speech holistic 3D human motion generation overview

Combo: Co-Speech Holistic 3D Human Motion Generation and Efficient Customizable Adaptation in Harmony

Chao Xu, Mingze Sun, Zhi-Qi Cheng, Fei Wang, Yang Liu, Baigui Sun, Ruqi Huang, Alexander Hauptmann

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

Paper Project

Foundation Models & Reasoning · Embodied AI & World Models

LEAF semi-supervised facial expression recognition overview

CVIU 2025

LEAF: Unveiling Two Sides of the Same Coin in Semi-Supervised Facial Expression Recognition

Fan Zhang, Zhi-Qi Cheng, Jian Zhao, Xiaojiang Peng, Xuelong Li

Computer Vision and Image Understanding (CVIU), 2025

Paper

Foundation Models & Reasoning

StableAnimator++ pose misalignment and face distortion mitigation

StableAnimator++: Overcoming Pose Misalignment and Face Distortion for Human Image Animation

Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai, Chong Luo, Zuxuan Wu, Yu-Gang Jiang

arXiv preprint, 2025

Paper Website Code

Foundation Models & Reasoning · Embodied AI & World Models

Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance

Yuchu Jiang, Jian Zhao, Yuchen Yuan, Tianle Zhang, Yao Huang, Yanghao Zhang, Yan Wang, Yanshu Li, Xizhong Guo, Yusheng Zhao, et al.

arXiv preprint, 2025

Paper Project

Foundation Models & Reasoning · Mobility & Public Safety

Cell Behavior Video Classification Challenge overview

arXiv 2026

Cell Behavior Video Classification Challenge: A Benchmark for Computer Vision Methods in Live-Cell Imaging

Diego Ulisse Pizzagalli, Raffaella Fiamma Cabini, Deborah Barkauskas, Guangyu Chen, Zhi-Qi Cheng, et al.

CBVCC Challenge, under submission, 2025

Paper Website Code

Foundation Models & Reasoning

2024

Human-Aware Vision-and-Language Navigation

Heng Li, Minghan Li, Zhi-Qi Cheng, Yifei Dong, Yuxuan Zhou, Jun-Yan He, Qi Dai, Teruko Mitamura, Alexander Hauptmann

In Advances in Neural Information Processing Systems (NeurIPS), Spotlight presentation, 2024

V2 Code V1 Code Website

Foundation Models & Reasoning · Embodied AI & World Models

Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning

Zebang Cheng, Zhi-Qi Cheng, Jun-Yan He, Kai Wang, Yuxiang Lin, Zheng Lian, Xiaojiang Peng, Alexander Hauptmann

In Advances in Neural Information Processing Systems (NeurIPS), 2024

Code Website

Foundation Models & Reasoning

Towards Calibrated Robust Fine-Tuning of Vision-Language Models

Changdae Oh, Hyesu Lim, Mijoo Kim, Dongyoon Han, Sangdoo Yun, Jaegul Choo, Alexander Hauptmann, Zhi-Qi Cheng, Kyungwoo Song

In Advances in Neural Information Processing Systems (NeurIPS), 2024

Code

Foundation Models & Reasoning

BlockGCN: Redefine Topology Awareness for Skeleton-Based Action Recognition

Yuxuan Zhou, Xudong Yan, Zhi-Qi Cheng, Yan Yan, Qi Dai, Xian-Sheng Hua

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024

Code

Foundation Models & Reasoning · Embodied AI & World Models · Mobility & Public Safety

MotionEditor: Editing Video Motion via Content-Aware Diffusion

Shuyuan Tu, Qi Dai, Zhi-Qi Cheng, Han Hu, Xintong Han, Zuxuan Wu, Yu-Gang Jiang

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024

Code

Foundation Models & Reasoning · Embodied AI & World Models

PROS: Prompting-to-Simulate Generalized Knowledge for Universal Cross-Domain Retrieval

Kaipeng Fang, Jingkuan Song, Lianli Gao, Pengpeng Zeng, Zhi-Qi Cheng, Xiyao Li, Heng-Tao Shen

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024

Code

Foundation Models & Reasoning

SHIELD EV battery supply-chain disruption framework

SHIELD: LLM-Driven Schema Induction for Predictive Analytics in EV Battery Supply-Chain Disruptions

Zhi-Qi Cheng, Yifei Dong, Aike Shi, Wei Liu, Yuzhi Hu, Jason O’Connor, Alexander G. Hauptmann, Kate Whitefoot

In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Industry Track Oral presentation, 2024

Code Website

Foundation Models & Reasoning · Mobility & Public Safety

DCPT: Darkness Clue-Prompted Tracking in Night-Time UAVs

Jiawen Zhu, Huayi Tang, Zhi-Qi Cheng, Jun-Yan He, Bin Luo, Shihao Qiu, Shengming Li, Huchuan Lu

In IEEE International Conference on Robotics and Automation (ICRA), 2024

Code

Foundation Models & Reasoning · Mobility & Public Safety

FaceChain-ImagineID listening and imagining examples

FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio

Chao Xu, Yang Liu, Jiazheng Xing, Weida Wang, Mingze Sun, Jun Dan, Tianxin Huang, Siyuan Li, Zhi-Qi Cheng, Ying Tai, et al.

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024

Code

Foundation Models & Reasoning · Embodied AI & World Models

CMU CHRONOS-KAIROS Final Systems Description

Teruko Mitamura, David R. Mortensen, Alex Hauptmann, Yiming Yang, Graham Neubig, Anatole Gersham, Alan W. Black, Zhi-Qi Cheng, Susan Holm, Yukari Yamakawa

DARPA KAIROS Final Research Report, 2024

Paper

Foundation Models & Reasoning · Mobility & Public Safety

SemEval 2024

MIPS at SemEval-2024 Task 3: Multimodal Emotion-Cause Pair Extraction in Conversations with Multimodal Language Models

Zebang Cheng, Fuqiang Niu, Yuxiang Lin, Zhi-Qi Cheng, Bowen Zhang, Xiaojiang Peng

In Proceedings of the 18th International Workshop on Semantic Evaluation (SemEval), 3rd place, 2024

Paper Code

Foundation Models & Reasoning

MRAC 2024

SZTU-CMU at MER2024: Improving Emotion-LLaMA with Conv-Attention for Multimodal Emotion Recognition

Zebang Cheng, Shuyuan Tu, Dawei Huang, Minghan Li, Xiaojiang Peng, Zhi-Qi Cheng, Alexander G. Hauptmann

In Proceedings of the 2nd International Workshop on Multimodal and Responsible Affective Computing, 1st in MER24@IJCAI and MRAC24@ACM Multimedia, 2024

Paper Code

Foundation Models & Reasoning

CIKM 2024 · Demo

Music2P: A Multi-Modal AI-Driven Tool for Simplifying Album Cover Design

Joong Ho Choi, Geonyeong Choi, Ji Eun Han, Wonjin Yang, Zhi-Qi Cheng

In Proceedings of the ACM International Conference on Information and Knowledge Management (CIKM), Demo Track, 2024

Paper Code

Foundation Models & Reasoning

arXiv 2024

Prioritize Alignment in Dataset Distillation

Zekai Li, Ziyao Guo, Wangbo Zhao, Tianle Zhang, Zhi-Qi Cheng, Samir Khaki, Kaipeng Zhang, Ahmad Sajedi, Konstantinos N. Plataniotis, Kai Wang, et al.

arXiv preprint, 2024

Paper Code

Foundation Models & Reasoning

2023

WordArt Designer API: User-Driven Artistic Typography Synthesis with LLMs on ModelScope

Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Wangmeng Xiang, Xianhui Lin, Xiaoyang Kang, Zengke Jin, Yusen Hu, Bin Luo, et al.

NeurIPS 2023 — Workshop: Machine Learning for Creativity and Design (Spotlight presentation)

Paper Project Model Studio Demo

Foundation Models & Reasoning

DAMO-StreamNet: Optimizing Streaming Perception in Autonomous Driving

Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Wangmeng Xiang, Binghui Chen, Bin Luo, Yifeng Geng, Xuansong Xie

In International Joint Conference on Artificial Intelligence (IJCAI), 2023

Code

Foundation Models & Reasoning · Mobility & Public Safety

HDFormer: High-Order Directed Transformer for 3D Human Pose Estimation

Hanyuan Chen, Jun-Yan He, Wangmeng Xiang, Zhi-Qi Cheng, Wei Liu, Hanbing Liu, Bin Luo, Yifeng Geng, Xuansong Xie

In International Joint Conference on Artificial Intelligence (IJCAI), 2023

Code

Foundation Models & Reasoning · Embodied AI & World Models · Mobility & Public Safety

Implicit Temporal Modeling with Learnable Alignment for Video Recognition

Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu, Yu-Gang Jiang

In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), Oral presentation, 2023

Paper Code

Foundation Models & Reasoning · Embodied AI & World Models

ChartReader: A Unified Framework for Chart Derendering and Comprehension

Zhi-Qi Cheng, Qi Dai, Alexander G. Hauptmann

In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2023

Code

Foundation Models & Reasoning

WordArt Designer: User-Driven Artistic Typography Synthesis Using Large Language Models

Jun-Yan He, Zhi-Qi Cheng, Chenyang Li, Jingdong Sun, Wangmeng Xiang, Xianhui Lin, Xiaoyang Kang, Zengke Jin, Yusen Hu, Bin Luo, et al.

In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Industry Track, 2023

Paper Project Model Studio Demo

Foundation Models & Reasoning

KeyPosS: Plug-and-Play Facial Landmark Detection through GPS-Inspired True-Range Multilateration

Xu Bao, Zhi-Qi Cheng, Jun-Yan He, Wangmeng Xiang, Chenyang Li, Jingdong Sun, Hanbing Liu, Wei Liu, Bin Luo, Yifeng Geng, et al.

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), 2023

Code

Foundation Models & Reasoning · Embodied AI & World Models

Posynda: Multi-Hypothesis Pose Synthesis Domain Adaptation for Robust 3D Human Pose Estimation

Hanbing Liu, Jun-Yan He, Zhi-Qi Cheng, Wangmeng Xiang, Qize Yang, Wenhao Chai, Gaoang Wang, Xu Bao, Bin Luo, Yifeng Geng, et al.

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), 2023

Paper Code

Foundation Models & Reasoning · Embodied AI & World Models · Mobility & Public Safety

Robust Automatic Detection of Traffic Activity

Alexander Hauptmann, Lijun Yu, Wenhe Liu, Yijun Qian, Zhiqi Cheng, Liangke Gui, et al.

U.S. DOT / Mobility21 Final Research Report, 2023

Paper

Foundation Models & Reasoning · Mobility & Public Safety

LongShortNet streaming perception framework

ICASSP 2023

LongShortNet: Exploring Temporal and Semantic Features Fusion in Streaming Perception

Chenyang Li, Zhi-Qi Cheng, Jun-Yan He, Pengyu Li, Bin Luo, Hanyuan Chen, Yifeng Geng, Jin-Peng Lan, Xuansong Xie

In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023

Paper arXiv Code

Foundation Models & Reasoning · Mobility & Public Safety

ProContEXT progressive context transformer for tracking

ICASSP 2023 · Oral

ProContEXT: Exploring Progressive Context Transformer for Tracking

Jin-Peng Lan, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Xu Bao, Wangmeng Xiang, Yifeng Geng, Xuansong Xie

In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Oral presentation, 2023

Paper arXiv Code

Foundation Models & Reasoning · Mobility & Public Safety

Disentangled product-of-experts for online multi-view anomaly detection

ACM MM 2023

Debunking Free Fusion Myth: Online Multi-View Anomaly Detection with Disentangled Product-of-Experts Modeling

Hao Wang, Zhi-Qi Cheng, Jingdong Sun, Xin Yang, Xiao Wu, Hongyang Chen, Yan Yang

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), 2023

Paper arXiv

Foundation Models & Reasoning · Mobility & Public Safety

Multi-granularity cross-domain alignment for anomaly segmentation

ACM MM 2023

Improving Anomaly Segmentation with Multi-Granularity Cross-Domain Alignment

Ji Zhang, Xiao Wu, Zhi-Qi Cheng, Qi He, Wei Li

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), 2023

Paper arXiv

Foundation Models & Reasoning · Mobility & Public Safety

arXiv 2023

Tracking with Human-Intent Reasoning

Jiawen Zhu, Zhi-Qi Cheng, Jun-Yan He, Chenyang Li, Bin Luo, Huchuan Lu, Yifeng Geng, Xuansong Xie

arXiv preprint, 2023

Paper

Foundation Models & Reasoning · Embodied AI & World Models · Mobility & Public Safety

≤ 2022

Rethinking Spatial Invariance of Convolutional Networks for Object Counting

Zhi-Qi Cheng, Qi Dai, Hong Li, Jingkuan Song, Xiao Wu, Alexander G. Hauptmann

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2022

Code

Foundation Models & Reasoning · Mobility & Public Safety

GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement

Zhi-Qi Cheng, Qi Dai, Siyao Li, Teruko Mitamura, Alexander Hauptmann

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), Oral presentation, 2022

Code

Foundation Models & Reasoning · Embodied AI & World Models

Learning spatial awareness for crowd counting

Learning Spatial Awareness to Improve Crowd Counting

Zhi-Qi Cheng, Jun-Xiu Li, Qi Dai, Xiao Wu, Alexander G. Hauptmann

In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), Oral presentation, 2019

Paper arXiv

Foundation Models & Reasoning · Mobility & Public Safety

Video2Shop matching clothes in videos to shopping images

Video2Shop: Exact Matching Clothes in Videos to Online Shopping Images

Zhi-Qi Cheng, Xiao Wu, Yang Liu, Xian-Sheng Hua

In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Special Oral presentation, 2017

Paper arXiv Code

Foundation Models & Reasoning

Video eCommerce++: Toward Large-Scale Online Video Advertising

Zhi-Qi Cheng, Xiao Wu, Yang Liu, Xian-Sheng Hua

IEEE Transactions on Multimedia (TMM), 2017

Paper

Foundation Models & Reasoning

Stacked Pooling for scale-invariant crowd counting overview

ICASSP 2020

Stacked Pooling for Boosting Scale Invariance of Crowd Counting

Siyu Huang, Xi Li, Zhi-Qi Cheng, Zhongfei Zhang, Alexander Hauptmann

In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020

Paper arXiv Code

Foundation Models & Reasoning · Mobility & Public Safety

MTAP 2018

Personalized Clothing Recommendation Combining User Social Circle and Fashion Style Consistency

Guang-Lu Sun, Zhi-Qi Cheng, Xiao Wu, Qiang Peng

Multimedia Tools and Applications, 2018

Paper

Foundation Models & Reasoning

TRECVID 2017

VIREO@TRECVID 2017: Video-to-Text, Ad-hoc Video Search and Video Hyperlinking

Phuong Anh Nguyen, Qing Li, Zhi-Qi Cheng, Yi-Jie Lu, Hao Zhang, Xiao Wu, Chong-Wah Ngo

TREC Video Retrieval Evaluation (TRECVID), 2017

Paper

Foundation Models & Reasoning

Learning to Transfer generalizable attribute learning overview

ACM MM 2018 · Spotlight

Learning to Transfer: Generalizable Attribute Learning with Multitask Neural Model Search

Zhi-Qi Cheng, Xiao Wu, Siyu Huang, Jun-Xiu Li, Alexander G. Hauptmann, Qiang Peng

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), Spotlight presentation, 2018

Paper

Foundation Models & Reasoning

ICMR 2017 · Special Oral

On the Selection of Anchors and Targets for Video Hyperlinking

Zhi-Qi Cheng, Hao Zhang, Xiao Wu, Chong-Wah Ngo

In Proceedings of the ACM International Conference on Multimedia Retrieval (ICMR), Special Oral presentation, 2017

Paper arXiv

Foundation Models & Reasoning

TRECVID 2017

Minimizing Risk in Video Hyperlinking

Chong-Wah Ngo, Zhi-Qi Cheng, Xiao Wu

TREC Video Retrieval Evaluation (TRECVID), keynote, 2017

Slides

Foundation Models & Reasoning

Video eCommerce online video advertising overview

ACM MM 2017 · Oral

Video eCommerce: Towards Online Video Advertising

Zhi-Qi Cheng, Yang Liu, Xiao Wu, Xian-Sheng Hua

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), Oral presentation; ACM-SCF Best Student Paper, 2017

Paper

Foundation Models & Reasoning

GNAS greedy neural architecture search overview

ACM MM 2018 · Oral

GNAS: A Greedy Neural Architecture Search Method for Multi-Attribute Learning

Siyu Huang, Xi Li, Zhi-Qi Cheng, Zhongfei Zhang, Alexander Hauptmann

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), Oral presentation, 2018

Paper arXiv

Foundation Models & Reasoning

Improving multi-column CNN for crowd counting overview

ACM MM 2019

Improving the Learning of Multi-Column Convolutional Neural Network for Crowd Counting

Zhi-Qi Cheng, Jun-Xiu Li, Qi Dai, Xiao Wu, Jun-Yan He, Alexander G. Hauptmann

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), 2019

Paper arXiv

Foundation Models & Reasoning · Mobility & Public Safety

Parallel multi-view feature augmentation for real-time semantic segmentation

ACM MM 2022

Real-Time Semantic Segmentation with Parallel Multiple Views Feature Augmentation

Jian-Jun Qiao, Zhi-Qi Cheng, Xiao Wu, Wei Li, Ji Zhang

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), 2022

Paper

Foundation Models & Reasoning · Mobility & Public Safety

CrossNet crowd counting with localization overview

ACM MM 2022

CrossNet: Boosting Crowd Counting with Localization

Ji Zhang, Zhi-Qi Cheng, Xiao Wu, Wei Li, Jian-Jun Qiao

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), 2022

Paper

Foundation Models & Reasoning · Mobility & Public Safety

ACM MM 2018 · Oral

Multi-View Image Generation from a Single View

Bo Zhao, Xiao Wu, Zhi-Qi Cheng, Hao Liu, Zequn Jie, Jiashi Feng

In Proceedings of the ACM International Conference on Multimedia (ACM Multimedia), Oral presentation, 2018

Paper arXiv

Foundation Models & Reasoning · Embodied AI & World Models

DB-LSTM densely-connected bi-directional LSTM for action recognition

Neurocomputing 2021

DB-LSTM: Densely-Connected Bi-Directional LSTM for Human Action Recognition

Jun-Yan He, Xiao Wu, Zhi-Qi Cheng, Zhaoquan Yuan, Yu-Gang Jiang

Neurocomputing, 2021

Paper

Foundation Models & Reasoning · Embodied AI & World Models · Mobility & Public Safety

Perceiving physical equations by observing visual scenarios

NeurIPS Workshop 2018

Perceiving Physical Equation by Observing Visual Scenarios

Siyu Huang, Zhi-Qi Cheng, Xi Li, Xiao Wu, Zhongfei Zhang, Alexander Hauptmann

NeurIPS Workshop on Modeling the Physical World, 2018

Paper

Foundation Models & Reasoning · Embodied AI & World Models

Appearance-aware pose stylizer person image generation

IJCAI 2020

Generating Person Images with Appearance-Aware Pose Stylizer

Siyu Huang, Haoyi Xiong, Zhi-Qi Cheng, Qingzhong Wang, Xingran Zhou, Bihan Wen, Jun Huan, Dejing Dou

In International Joint Conference on Artificial Intelligence (IJCAI), 2020

Paper arXiv Code

Foundation Models & Reasoning · Embodied AI & World Models

arXiv 2022

Hypergraph Transformer for Skeleton-Based Action Recognition

Yuxuan Zhou, Zhi-Qi Cheng, Chao Li, Yanwen Fang, Yifeng Geng, Xuansong Xie, Margret Keuper

arXiv preprint, 2022

Paper Code

Foundation Models & Reasoning · Embodied AI & World Models · Mobility & Public Safety

Patents

Patent 2020

Determining Recommended Object

Zhiqi Cheng, Yang Liu, Xiansheng Hua

U.S. Patent 10,671,851, 2020

Patent

Foundation Models & Reasoning

View all publications on Google Scholar →

Selected work in multimodal foundation models, embodied AI, and deployable systems.

2026

2025

SituLM: Leveraging Visual Instruction Tuning and an Augmented SWiG Dataset for Enhanced Grounded Situation Recognition

2024

2023

≤ 2022

Patents