10月20日至24日,第29届ACM国际多媒体顶级会议(ACM International Conference on Multimedia, 即ACM Multimedia)在成都举办。京东探索研究院凭借跨模态分析技术、多模态交互数字人技术分别斩获最佳开源项目奖及最佳演示奖(Demo)。会上,IEEE Fellow、京东集团副总裁梅涛(9610)当选ACM Multimedia 2023大会共同主席(General Co-Chair)。
(1)最佳Demo奖:ViDA-MAN: Visual Dialog with Digital Humans
贡献:展示了一个完整的多模态数字人系统,包含语音模块、对话模块、视觉模块、驱动模块以及流模块等。
(2)最佳开源奖:X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics
贡献:跨模态分析的多功能和高性能的代码库,统一了最先进的视觉语言技术中的全面的高质量模块。
一、关于X-modaler和ViDA-Man
过去十年多媒体领域视觉和语言之间的跨模态分析出现了稳定创新和突破的势头。然而,X-modaler出现之前,还没有一个开源的代码库来支持以统一和模块化的方式训练和部署众多的跨模态分析的神经网络模型。京东探索研究院AI团队模态视觉分析代码库X-modaler是业界首个模块化、标准化的跨模态视觉分析代码库,涵盖了视觉语言领域各种前沿技术,并支持各种多模态任务。它可以轻松复现视觉语言领域目前主流的技术,促进学术界在视觉语言领域的发展。同时也便于工业界集成跨模态视觉分析的模块,推动技术进步。