- 首页
- 分类
- 标签
- 归档
- 友链
- 关于
- 摸!
  - 2048!
  - MoonSweeper!
- 更多
  - 黑暗模式

改进TF-IDF关键词提取方法

Ender

发布于：Nov 14, 2021

次浏览

使用TF-IWF关键词提取技术改进TF-IDF

动机

但 IDF 的简单结构并不能有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能，所以TF-IDF 算法的精度并不是很高，尤其是当文本集已经分类的情况下

TF-IDF

$$
TF-IDF_{i,j} \
\to TF_{i,j}\times IDF_{i} \
= \frac{n_{i,j}}{\sum_{k}n_{k,j}} \times log\frac{|D|}{|{j:t_i \in d_j}|}
$$

TF

$n_{ij}$ 表示词语$t_{ij}$在文本j中的频数
分母表示文本中所有词语的频数之和

IDF

|D|表示语料库d的文档数
$|{j:t_i \in d_j}|$表示本语料库d中包含文档j中词语$t_i$的文档数

缺陷

IDF的简单结构并不能使提取的关键词，十分有效地反应单词的==重要程度==和==特征词的分布情况==，使其无法很好地完成对权值调整的功能。尤其是在同类语料库中，一些同类文本的关键词将被掩盖。

例如：语料库D中教育类文章篇多，而文本j是一篇属于教育类的文章，那么教育类相关的词语的IDF值会偏小，使提取文本关键词的召回率更低

TF-IWF

$$
TF-IWF_{i,j} \
\to TF_{i,j} \times IWF_{i}\
= \frac{n_{i,j}}{\sum_k n_{k,j}} \times log\frac{\sum_{i=1}^m nt_{i}}{nt_{i}}
$$

TF

$n_{ij}$表示词语$t_i$在文本j中的频数
分母表示文本j中所有词语频数和

IWF

分子表示语料库中所有词语的频数之和
分母表示词语$t_i$在语料库中的总频数

这种加权方法降低了语料库中同类型文本对词语权重的影响，更加精确地表达了这个词语在待查文档中的重要程度

更新于：Apr 7, 2024

计算机网络综合组网实验

北航计算机网络实验——综合组网实验，实验流程总体介绍综合组网的总体规划与设计网络路由设计 NAT地址转换与访问控制的设计网络管理和网络应用的部署应用背景场景设置：北航沙河校区信...

高级计算机网络报告

802.11发展史研究背景2019年9月16日，Wi-Fi联盟宣布启动Wi-Fi 6认证计划，该计划旨在使采用下一代802.11ax Wi-Fi无线通信技术的设备达到既定标准。近年来，获得Wi-...

评论

粘贴文本
全选文本
剪切文本
复制文本
站内搜索
必应搜索
新标签页打开
复制链接地址
复制图片
谷歌识图
常见问题

本站源码
主题源码

暗黑模式
打印页面
阅读模式