专业IT网络知识平台,分享IT百科知识、生活百科知识解答!

易企推科技
易企推科技

关于TF-IDF分词加权算法与关键词频率的原理分析!

来源:小易整编  作者:小易 发布时间:2021-06-02 05:57
摘要:尽管搜索引擎对内容相关性的计算还是以TF-IDF为基础的,但并非是唯一的决定性因素。一般来说网页与用户搜索词相关度越高,那么该页面在搜索引擎结果中的排名也就越靠前。 我们都...

尽管搜索引擎对内容相关性的计算还是以TF-IDF为基础的,但并非是唯一的决定性因素。一般来说网页与用户搜索词相关度越高,那么该页面在搜索引擎结果中的排名也就越靠前。

我们都知道提升页面关键词密度有利于提升排名,那么对于SEO关键词密度背后的TF-IDF分词加权算法了解多少?尽管SEOer不需要对这些搜索技术如数家珍,但通过对技术原理的了解却能更好的理解SEO。

TF-IDF分词加权算法既然是搜索引擎判定网页内容的技术手段,那么SEOer能否依据技术原理进行网页关键词排名优化呢?该技术命名中TF即词频(Term Frequency)即就是关键词出现次数与整个页面词量的比值,IDF指逆文本频率指数(Inverse Document Frequency)为可被搜索展现的网页数量与包含关键词网页数量比值的对数(log)值。

关于TF-IDF分词加权算法与关键词频率的原理分析
关于TF-IDF分词加权算法与关键词频率的原理分析

TF-IDF分词加权算法仅仅搜索引擎判定网页内容的基础技术,而决定最终排名的因素还有网站整体权重、页面质量度、以及该页面链接资源等多个维度的因素。本文旨在解释TF-IDF分词加权算法,同时涉及到的数据不具有客观准确性,只是为了更好的举例说明做出的合理假设,帮助大家更好的理解“关键词密度”概念背后的技术原理。

01

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术,用以评估关键词对于一个文件集或一个语料库中的某一份文件的重要程度。其中关键词的重要性随着出现次数的增多而成正比增加,但同时会随着该关键词在语料库中出现的频率成反比下降。即相同关键词内容的页面越多,则该关键词的重要性就越低。

上边的概念或许有点苦涩难懂,下边我们用举例的形式进行说明。比如在一千词量的网页中,“白皮松”“的”“价格”分别出现10次、35次、15次,那么词频分别为0.01、0.035、0.015,直接相加之后其和为0.06就是该网页与搜索词“白皮松的价值”之间相关性的一个简单度量。

02

这时候很多人就会发现“的”占据了58%的贡献,而该词对确定页面主题几乎不存在任何影响,所以在分词加权计算中应将此类词删除不计(应删除词),此时上述网页与搜索词“白皮松的价格”相关性数值为0.025,其中“白皮松”占比40%“价值”占比60%,在汉语中“价格”相对比较通用,而“白皮松”则更能对文章主体进行预测,所以就需要将通用词对相似度的贡献占比降低,因此引入了逆文本频率指数这一概念。

这里用SEO的思维理解就是可被用于搜索展现的网页数量,或者叫内容稀缺程度,如果一个关键词只在很少的网页中出现,我们就很容易通过该关键词找到目标页面。一般将可用于搜索展现的网页数量(语料库)记为D,包含关键词的页面数量记为d,IDF的值为lg(D/d)。如果假定可被搜索展现的网页数量为1亿(即将百度索引在库的中文网页数量记为1亿),当包含关键词“白皮松”的网页有2万时,其IDF=lg(1亿/2万)=lg5000=3.7,关键词“价格”出现在500万个页面中,其IDF=lg(1亿/500万)=lg20=1.3,而删除词“的”基本上在任何网页中都有出现,其IDF=lg(1亿/1亿)=0。此时该网页和搜索词“白皮松的价格”相关性TF-IDF值为0.0565,其中“白皮松”贡献了0.037,“的”贡献为0,而“价格”只贡献了0.0195,此时各分词对搜索词相关性权值贡献占比才符合常理。

03

无论百度还是谷歌又或者其他搜索引擎,TF-IDF虽然是比较基础的网页核心内容识别技术,但在搜索排名算法中也是比较小一部分。如果刻意提升关键词频率则会导致用户搜索体验降低,因此为了打击关键词恶意堆砌,各大搜索引擎又对TF值做了一定的限制。一般我们用2%-8%的关键词密度作为把控词频的量化标准,但也有人认为过于宽泛而提出安全词频以不超过15次为宜。不同的搜索引擎对关键词堆砌容忍程度不同,因此我们在内容建设过程中,做到恰当合理自然的出现关键词即可。

总结

在进行网站内容更新时,依然按照TF-IDF分词加权算法作为指导,但却不必用具体的数量关系作为衡量标准,更不必花很多时间精力去计算关键词密度是否合理。


本文地址:武汉SEO频道 https://www.hkm168.com/seojishu/1726.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们处理,谢谢!


武汉SEO
小编:小易整编
相关文章相关阅读
  • c语言的输入函数有哪些

    c语言的输入函数有哪些

    c语言的输入函数有:1、scanf()函数、从标准输入stdin读取格式化输入;2、getchar()函数,从标准输入stdin获取一个字符;3、gets()函数,从标准输入stdin读取一行;4、getch()函数,从stdin流中读取字...

  • 奇异值分解(SVD)简介及其在图片压缩中的示例

    奇异值分解(SVD)简介及其在图片压缩中的示例

    奇异值分解(SVD)是一种用于矩阵分解的方法。它将一个矩阵分解为三个矩阵的乘积,分别是左奇异向量矩阵、右奇异向量矩阵和奇异值矩阵。SVD在数据降维、信号处理、推荐系统等领域广泛应用。通过SVD,我们可以将高维数据降低到低维空间,从而提取出数...

  • 用U盘轻松实现一键重装系统的小白装机教程

    用U盘轻松实现一键重装系统的小白装机教程

    在现代社会,电脑已经成为人们生活中不可或缺的工具。然而,由于各种原因,我们有时候需要重装电脑系统来解决一些问题或提升性能。但是,对于一些小白用户来说,重装系统可能是一项困难的任务。因此,本文将介绍一款小白一键重装系统的u盘装机教程,帮助小白...

  • 因特网能提供的最基本服务有哪些

    因特网能提供的最基本服务有哪些

    因特网能提供的最基本服务有:1、www服务;2、电子邮件e-mail服务;3、远程登录telnet服务;4、文件传输ftp服务;5、usenet网络新闻组服务;6、电子公告牌服务。本教程操作环境:windows7系统、DellG3电脑。因...

  • 某台微机安装的是64位操作系统中,64位指的是什么

    某台微机安装的是64位操作系统中,64位指的是什么

    某台微机安装的是64位操作系统中,64位指的是cpu的字长,即cpu每次能处理64位二进制数据。字长是cpu的主要技术指标之一,指的是cpu一次能并行处理的二进制位数,字长总是8的整数倍,通常pc机的字长为32位,64位。本教程操作环境:w...

  • 总结CreateJS的详细介绍

    总结CreateJS的详细介绍

    CreateJS库是一款HTML5游戏开发的引擎,是一套可以构建丰富交互体验的HTML5游戏的开源工具包,旨在降低HTML5项目的开发难度和成本,让开发者以熟悉的方式打造更具现代感的网络交互体验。掌握了CreateJS可以更方便的完成HTM...

  • 修复:在 Xbox 应用上的 Halo Infinite(Campaign)安装错误代码 0X80070032、0X80070424 或 0X80070005

    修复:在 Xbox 应用上的 Halo Infinite(Campaign)安装错误代码 0X80070032、0X80070424 或 0X80070005

    haloinfinite(campaign)是一款第一人称射击视频游戏,于2021年11月推出,可供单人和多用户使用。该游戏是halo系列的延续,适用于windows、xboxone和xbox系列的用户x|s。最近...

  • 有没有录制电脑屏幕的方法

    有没有录制电脑屏幕的方法

    电脑屏幕有录制的方法吗有两个方法一是用win10电脑自带的录屏软件来录,打游戏的时候按一下【win+g】就行了二是用其他的录制软件来录制,比如“迅捷屏幕录像工具”,操作方法如下:1、首先在电脑上将这个工具下载下来。下载完成后打开工具,主页...

  • 周排行
  • 月排行
  • 年排行