2021级硕士研究生王蕊同学在图像重定向方向取得进展

发布时间:2022-09-17 点击:

BETVLCTOR伟德官方网站2021级硕士研究生王蕊的论文《Language-driven Diversified Image Retargeting》被SIGGRAPH Asia Poster Program 2022接收。SIGGRAPH Asia由国际图形图像协会(ACM SIGGRAPH)举办,是世界上影响最广、规模最大,同时也是最权威的一个集科学、艺术、商业于一身的CG及互动技术展览及会议,该会议固定在每年的12月举行。

王蕊同学一直从事多模态生成相关的研究工作,本篇工作与BETVLCTOR伟德官方网站助理教授唐帆,中科院自动化所董未名研究员、黄妮莎同学及台湾国立成功大学李同毅教授共同完成。

论文详情:

论文题目:Language-driven Diversified Image Retargeting

第一作者:王蕊

会议名称:The 15th ACM SIGGRAPH Conference and Exhibition on Computer Graphics and Interactive Techniques in Asia

会议类别:CCF A类会议、清华A类会议

论文概述:由于手机,平板,电脑等不同电子设备的广泛使用,图像重定向(image retargeting)的相关研究获得了广泛关注。传统的基于内容感知的图像重定向方法可以自动地将图像重新定位到不同的纵横比同时保留重要的图像内容。但是用户很难与其交互控制重定向结果。本文提出了一个语言引导的多样化图像重定向方法。用户可以通过提供不同的文本描述控制重定向过程生成多样化的重定向结果。为了实现这一控制过程,我们将图像重定向过程看作为多步预测过程。其中,Multi-operator based agent作为决策者预测每一步中最优的operator对图像进行处理,而Multimodal reward function用于对每一步的预测结果进行评估并返回结果的Reward值用于优化Agent。我们还引入了CLIP用于图文相似度度量,使我们的重定向结果与原始图像相似的同时又符合文本描述的内容。