公司殷亚凤老师课题组近期在手语识别与翻译领域取得新进展:提出了一种层级手语图模型以及基于伪标注词的训练策略,用于提升手语理解任务的性能,旨在为聋人提供更好的沟通和交流服务。

MixSignGraph: A Sign Sequence is Worth Mixed Graphs of Nodes. 为了解决卷积神经网络难以提取跨区域特征的问题,研究工作SignGraph提出了将手语序列表示为图,并设计了基于图的手语处理模块:局部手语图模块用于学习帧内跨区域特征的相关性,时间手语图模块用于跟踪相邻帧之间跨区域特征之间的交互。然而,这种特征建模方式虽然可以有效地提取跨区域,但会弱化局部区域特征,并使局部区域之间的相对空间关系与时序关系被弱化。为此,我们提出了层级双向手语图模型,通过在不同尺度的手语特征图中构建双向的层级手语图,来增强局部的手语特征,提高模型对手语动作的表示能力。此外,为了进一步提升手语理解任务的性能,该研究工作针对无手语标注词情况下的手语翻译任务,提出了基于伪标注词的手语模型预训练策略。具体而言,该研究工作考虑到手语动作的连续特征与自然语言的离散特征存在差异,提出通过文本生成伪标注,用于离散化手语视频特征,缓解视频与文本特征分布的差异,提升无手语标注词情况下的手语翻译性能。最后,该工作在当前公开的手语数据集上进行了大量的实验,证明了MixSignGraph的优越性:与SOTA模型相比,MixSignGraph在多个手语任务中均能达到有竞争力的性能,并且不需要使用额外的线索。


该项研究工作已被The Thirty-Ninth Annual Conference on Neural Information Processing Systems(NeurIPS 2025)(CCF-A类会议)录用。欢迎对该研究工作感兴趣的学术同行来信交流:yafeng@nju.edu.cn.