Sorry, your browser cannot access this site
This page requires browser support (enable) JavaScript
Learn more >

使用TF-IWF关键词提取技术改进TF-IDF

动机

但 IDF 的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TF-IDF 算法的精度并不是很高,尤其是当文本集已经分类的情况下

TF-IDF

$$
TF-IDF_{i,j} \
\to TF_{i,j}\times IDF_{i} \
= \frac{n_{i,j}}{\sum_{k}n_{k,j}} \times log\frac{|D|}{|{j:t_i \in d_j}|}
$$

TF

  1. $n_{ij}$ 表示词语$t_{ij}$在文本j中的频数
  2. 分母表示文本中所有词语的频数之和

IDF

  1. |D|表示语料库d的文档数
  2. $|{j:t_i \in d_j}|$表示本语料库d中包含文档j中词语$t_i$的文档数

缺陷

IDF的简单结构并不能使提取的关键词,十分有效地反应单词的==重要程度==和==特征词的分布情况==,使其无法很好地完成对权值调整的功能。尤其是在同类语料库中,一些同类文本的关键词将被掩盖。

例如:语料库D中教育类文章篇多,而文本j是一篇属于教育类的文章,那么教育类相关的词语的IDF值会偏小,使提取文本关键词的召回率更低

TF-IWF

$$
TF-IWF_{i,j} \
\to TF_{i,j} \times IWF_{i}\
= \frac{n_{i,j}}{\sum_k n_{k,j}} \times log\frac{\sum_{i=1}^m nt_{i}}{nt_{i}}
$$

TF

  1. $n_{ij}$表示词语$t_i$在文本j中的频数
  2. 分母表示文本j中所有词语频数和

IWF

  1. 分子表示语料库中所有词语的频数之和
  2. 分母表示词语$t_i$在语料库中的总频数

这种加权方法降低了语料库中同类型文本对词语权重的影响,更加精确地表达了这个词语在待查文档中的重要程度

评论