Publications

MultiModal Large Language Models (MLLM)

ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models
Chunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng
arXiv code

LLaVA-UHD: an lmm perceiving any aspect ratio and high-resolution images
Ruyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang.
arXiv

T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs
Yin, Shukang, Fu, Chaoyou, Zhao, Sirui, Shen, Yunhang, Chunjiang Ge, Yang, Yan, Long, Zuwei, Dai, Yuhan, Xu, Tong, Sun, Xing, and others.
arXiv

OVO-Bench: How Far is Your Video-LLMs from Real-World Online Video Understanding? Yifei Li, Junbo Niu, Ziyang Miao, Chunjiang Ge, Yuanhang Zhou, Qihao He, Xiaoyi Dong, Haodong Duan, Shuangrui Ding, Rui Qian, and others.
arXiv

Vision Network Architectures

On the Integration of Self-Attention and Convolution
Pan, Xuran, Chunjiang Ge, Rui Lu, Shiji Song, Guanfu Chen, Zeyi Huang, and Gao Huang.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2022)
arXiv Code

Large Scale Air Pollution Prediction with Deep Convolutional Networks

Chunjiang Ge$^\ast$, Gao Huang, Tianyu Xiong, Shiji Song, Le Yang, Baoxian Liu, Wenjun Yin and Cheng Wu.
Science China Information Sciences. (IF：8.8)
Paper

Demystify Mamba in Vision: A Linear Attention Perspective
Dongchen Han, Ziyi Wang, Zhuofan Xia, Yizeng Han, Yifan Pu, Chunjiang Ge, Jun Song, Shiji Song, Bo Zheng, Gao Huang.
Paper

Cross-Modal Adapter for Text-Video Retrieval
Haojun Jiang, Jianke Zhang, Rui Huang, Chunjiang Ge, Zanlin Ni, Shiji Song, Gao Huang
Pattern Recognition (PR) (IF: 7.5)
arXiv code

Traditional Computer Vision

Domain Adaptation via Prompt Learning
Chunjiang Ge, Rui Huang, Mixue Xie, Zihang Lai, Shiji Song, Shuang Li, Gao Huang.
IEEE Transactions on Neural Networks and Learning Systems (TNNLS) (IF: 10.4)
arXiv code

Causal Intervention for Human Trajectory Prediction with Cross Attention Mechanism
Chunjiang Ge, Shiji Song and Gao Huang.
AAAI Conference on Artificial Intelligence (AAAI 2023)
paper

Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model

Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Weihan Shen, Xiaolong Zhu, Xiu Li.
Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.
Paper

Ge chunjiang

Publications

MultiModal Large Language Models (MLLM)

Vision Network Architectures

Traditional Computer Vision