技术进展国际期刊

技术进展国际期刊
开放获取

国际标准期刊号: 0976-4860

抽象的

主题进化推文流聚类算法和 TCV 排名汇总

Selvaraj K* 和 Balaji S

Twitter 每天收到超过 4 亿条推文,已成为新闻、博客、观点等的宝贵来源。我们提出的工作包括三个组件推文流聚类,使用 kmeans 聚类算法对推文进行聚类,第二个推文聚类向量技术使用贪婪算法生成排名摘要,因此需要与传统摘要显着不同的功能。一般来说,推文摘要和第三个功能是检测和监视基于摘要和基于量的变化,以从推文流自动生成时间线。然而,实现连续推文流以减少文本文档并不是一项简单的任务,因为由于推文的社交性质,大量推文本质上是毫无价值、不相关且喧闹的。更远,推文与其发布的实例密切相关,并且最新的推文往往以非常快的速度到达。效率推文流的级别总是非常大,因此摘要算法应该具有很强的能力。灵活性——它应该提供随机时刻持续时间的推文摘要。主题演变——它应该定期检测子主题的变化及其发生的时刻。

Top