国际标准期刊号: 2165- 7866
Mgbeafulike IJ 和克里斯托弗·埃加福特
尽管电子形式的文档越来越多,并且桌面出版软件也越来越多,但摘要仍然是手动生成的。CONDENZA 的目的是开发一个从给定源文档中提取摘要的系统。CONDENZA 描述了一种自动获取摘要方法的系统。摘要的基本原理是为了方便快速准确地识别已发表论文的主题。这个想法是为了节省潜在读者在给定文章或报告中查找有用信息的时间和精力。系统会生成给定句子的较短版本,同时尝试保留其含义。这项任务是使用总结技术来完成的。CONDENZA 实现了一种方法,该方法结合了用于关键字频率检测的先验算法和用于将相似句子分组在一起的基于聚类的方法。系统的结果表明,我们的方法有助于通过避免文档中单词之间的冗余来有效地总结文本文档,并确保与输入文本的最高相关性。我们结果的指导因素是摘要后输入与输出句子的比率。