使用TF-IWF关键词提取技术改进TF-IDF
动机
但 IDF 的简单结构并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,所以TF-IDF 算法的精度并不是很高,尤其是当文本集已经分类的情况下
TF-IDF
TF−IDFi,j→TFi,j×IDFi=∑knk,jni,j×log∣j:ti∈dj∣∣D∣
TF
- nij 表示词语tij在文本j中的频数
- 分母表示文本中所有词语的频数之和
IDF
- |D|表示语料库d的文档数
- ∣j:ti∈dj∣表示本语料库d中包含文档j中词语ti的文档数
缺陷
IDF的简单结构并不能使提取的关键词,十分有效地反应单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能。尤其是在同类语料库中,一些同类文本的关键词将被掩盖。
例如:语料库D中教育类文章篇多,而文本j是一篇属于教育类的文章,那么教育类相关的词语的IDF值会偏小,使提取文本关键词的召回率更低
TF-IWF
TF−IWFi,j→TFi,j×IWFi=∑knk,jni,j×lognti∑i=1mnti
TF
- nij表示词语ti在文本j中的频数
- 分母表示文本j中所有词语频数和
IWF
- 分子表示语料库中所有词语的频数之和
- 分母表示词语ti在语料库中的总频数
这种加权方法降低了语料库中同类型文本对词语权重的影响,更加精确地表达了这个词语在待查文档中的重要程度