# MutualFormer: Multi-modal Representation Learning via Cross-Diffusion Attention

> Research article (International Journal of Computer Vision, 2024) · cited 11× · AI/ML

**Wikidata**: [openalex:W4395111538](https://www.wikidata.org/wiki/openalex:W4395111538)  
**Source**: https://4ort.xyz/entity/mutualformer-multi-modal-representation-learning-via-cross-diffusion-attention