常毅教授指导的2019级硕士研究生余尔鑫同学的论文"Learning Semantic Textual Similarity via Topic-informed Discrete Latent Variables" 被国际会议EMNLP 2022(清华推荐A类,CCF B类)接收为长文 (Main conference)。本篇论文与澳大利亚莫纳什大学杜岚教授和Yuan Jin博士合作完成。
会议简介:EMNLP(Conference on Empirical Methods in Natural Language Processing)是计算语言学和自然语言处理领域的顶级国际会议,由ACL SIGDAT(语言学数据特殊兴趣小组)主办,每年举办一次,Google Scholar计算语言学刊物指标中排名第二。EMNLP 2022将于2022年12月09日至11日在阿拉伯联合酋长国阿布扎比及在线会议的形式同时举办。
会议类别:清华推荐A类,CCF B类会议
会议时间:9th–11th December 2022, Abu Dhabi
第一作者:余尔鑫
论文题目:Learning Semantic Textual Similarity via Topic-informed Discrete Latent Variables
论文概述:最近,离散潜变量模型在自然语言处理 (NLP) 和计算机视觉 (CV) 中引起了极大的兴趣,这归因于它们在表示学习中的性能与连续模型相当,同时在预测中更易于解释。在本文中,我们开发了一种用于语义文本相似性的主题感知的离散潜在变量模型,该模型通过向量量化学习了用于句子对表示的共享潜在空间。与以前仅限于局部语义上下文的模型相比,我们的模型可以通过主题建模探索更丰富的语义信息。我们通过将量化表示注入到预训练语言模型中,进一步提高了语义相似性的性能。我们通过对各种英语数据集的广泛实验证明,我们的模型能够在语义文本相似性任务中超越几个强大基线。