信息技术与软件工程杂志

信息技术与软件工程杂志
开放获取

国际标准期刊号: 2165- 7866

抽象的

社交媒体上发布的新闻项目的阿姆哈拉语文本摘要

Abaynew Guadie*、Debela Tesfaye、Teferi Kebebew

本文介绍了社交媒体上发布的新闻项目的阿姆哈拉语文本摘要,总结了在 Twitter 和 Facebook 上发布社交媒体文档时发布的阿姆哈拉语文本的新闻项目;社交媒体发布的文本的主要问题是,大多数人可能会看到它们以阿姆哈拉语文本发布,并带有重复的发布文档。然而,为了找到用户正在寻找的信息,需要找到摘要发布的文本,并将帖子的重要部分作为阿姆哈拉语文档阅读,以在社交媒体上提取所需的信息。摘要是处理用文本文档呈现和发布信息过载的问题,以便对发布的文档的当前时间表示进行总结。我们提出的方法包含三个主要组成部分:首先,计算两对句子中每个发布文档之间的相似度。其次,根据文档的相似度结果,利用Kmeans算法对文档进行聚类。第三,使用 TF-IDF 算法单独总结聚类的发布文档,该算法涉及寻找常用术语的统计方法来对文档进行排名。我们应用的摘要技术是一种提取式摘要方法,该方法被指定提取已发布文档中排名最高的句子以形成摘要,并且摘要的大小可以由用户识别。在实验一中,在抗议帖子聚集组中,提取率为 30% 时,最高 F 测量得分为 87.07%。在第二个实验中,提取率为 30% 时,最高 F 测量得分为 84%,在干旱岗位组。在第三个实验中,提取率为 30% 时,最高 F 测量得分为 91.37%,在体育帖子组中,第四个实验中,提取率为 30% 时,生成摘要的最高 F 测量得分为 93.52%发布文本。如果系统生成摘要的大小增加,则发布文本的提取率也会增加。为此,评估系统显示了对社交媒体上发布的文本进行总结的非常好的结果。发布的文本中的提取率也有所提高。为此,评估系统显示了对社交媒体上发布的文本进行总结的非常好的结果。发布的文本中的提取率也有所提高。为此,评估系统显示了对社交媒体上发布的文本进行总结的非常好的结果。

Top