论文阅读：Gibberish, Assistant, or Master? Using Tweets Linking to News for Extractive Single-Document Su

xiaoxiao2021-03-25 65

这是SIGIR 2015的论文，名字是Gibberish, Assistant, or Master? Using Tweets Linking to News for Extractive Single-Document Summarization，我这个周末就在看这篇文章，现在记录一下该文章的阅读经历与知识总结。

首先这篇论文的目的在于想要提取新闻的摘要，是一个文本摘要自动提取问题。做这件文本摘要问题与Tweet挂钩，找寻到了Tweet与转发的新闻链接间的关系，并通过这种关系设计基于Tweet的对于新闻的摘要提取。

1. 明确文章目的：单文本的自动摘要

存在的问题：如果用Tweet作为使用方法面临的问题主要是Tweet的内容表述不够正规、含有很多噪声，用户的具体表现也很难捕捉。推文又不可避免的受到时间、长短、数量等因素的影响。这些都有可能影响摘要的性能。

本文想要解决的主要问题：（1）链接Tweet做文本摘要是否有用？

（2）如果有用，是起一个辅助(assistant)作用还是主要(master)作用？（3）诸如发布Tweet的时间等影响因素起了什么作用？是阻碍了摘要的准确还是考虑了摘要质量的合理权衡？

本文主要用的东西和采取的思路：采用无监督的方法进行构建，再进行比较判断效果以及数量和时间的影响因素。

2. 实际工作一：分析Tweet的价值

采取的新闻语料来自于CNN/USA，包含121篇文档，455个要点，78419个链接Tweet。Tweet含有指向新闻内容的链接，然后通过统计图像说明Tweet对于文本摘要的作用

这张图说明了那些要点句子所在文章中的位置.。

这张图表示那些前4被Tweet命中的句子在新闻中的位置

要点位置与Tweet选出的前四的句子位置比较，二者具有高度重合

每篇文档的Highlight和Tweet的最大相似度比较

实际工作二：采用的模型构建方法，构建了2个模型，其中一个是Social Vote，也就是采用投票机制选出与Tweet最相关的top-4的句子作为摘要，简单粗暴。Heterogeneous Graph Random Walk模型，仿照LexRank算法（注：与pagerank的思想近似，图排序。Lexrank）。只不过我们的图是异质的，链接二者的分别是Tweet和Sentence。采用如下规则设置权重:

3. 效果比较：

可以看到采用Tweet后性能有了显著提升（其中CrossL2R采用双t检验）。

4. 结果分析：我们还需要考虑Tweet的Volume和Lantency对于摘要准确率的影响。（首先我们选取F测评而不是Recall，是因为句子长度无限制，为了防止不公）

（1）首先我们比较了β对于HGRW模型的影响，经过比较发现当β的取值越高，在HGRW模型下表现的效果越好。对比图形我们采用0.8。事实上当β>0.85的时候，HGRW-S的的分会下降，这是因为对Tweet考虑过多，噪声导致了Sentence的精度下降。

（2）分析延时和数量众多的Tweet的影响（The impact of tweets volume and latency）：我们下载news并记录时间，转成TimeStamp，然后我们重新下载并记录Tweet的时间，就二者做比较。并可以比较Tweet的数目对于得分的影响。

这幅图体现了Tweet Volume和score的关系，当数目达到250时趋于平稳，Tweet数目越大更有利。Social Vote模型略微有些不稳定。

这个图表展现了时间之间的联系，随着时间的增长Tweet数量会增加，而整体随着时间的增长得分也会升高。

时间和Tweet数目的关系

5. 未来需要还要考虑的问题：寻找那些数目巨大但是与News之间无链接的Tweet。交叉语言进行摘要。

转载请注明原文地址: https://ju.6miu.com/read-36136.html

技术

最新回复(0)