Sorry, your browser cannot access this site
This page requires browser support (enable) JavaScript
Learn more >

使用TF-IWF关键词提取技术改进TF-IDF

动机

但 IDF 的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TF-IDF 算法的精度并不是很高,尤其是当文本集已经分类的情况下

TF-IDF

TFIDFi,jTFi,j×IDFi=ni,jknk,j×logDj:tidjTF-IDF_{i,j} \\ \to TF_{i,j}\times IDF_{i} \\ = \frac{n_{i,j}}{\sum_{k}n_{k,j}} \times log\frac{|D|}{|{j:t_i \in d_j}|}

TF

  1. nijn_{ij} 表示词语tijt_{ij}在文本j中的频数
  2. 分母表示文本中所有词语的频数之和

IDF

  1. |D|表示语料库d的文档数
  2. j:tidj|{j:t_i \in d_j}|表示本语料库d中包含文档j中词语tit_i的文档数

缺陷

IDF的简单结构并不能使提取的关键词,十分有效地反应单词的重要程度特征词的分布情况,使其无法很好地完成对权值调整的功能。尤其是在同类语料库中,一些同类文本的关键词将被掩盖。

例如:语料库D中教育类文章篇多,而文本j是一篇属于教育类的文章,那么教育类相关的词语的IDF值会偏小,使提取文本关键词的召回率更低

TF-IWF

TFIWFi,jTFi,j×IWFi=ni,jknk,j×logi=1mntintiTF-IWF_{i,j} \\ \to TF_{i,j} \times IWF_{i}\\ = \frac{n_{i,j}}{\sum_k n_{k,j}} \times log\frac{\sum_{i=1}^m nt_{i}}{nt_{i}}

TF

  1. nijn_{ij}表示词语tit_i在文本j中的频数
  2. 分母表示文本j中所有词语频数和

IWF

  1. 分子表示语料库中所有词语的频数之和
  2. 分母表示词语tit_i在语料库中的总频数

这种加权方法降低了语料库中同类型文本对词语权重的影响,更加精确地表达了这个词语在待查文档中的重要程度

评论