专业IT网络知识平台,分享IT百科知识、生活百科知识解答!

易企推科技
易企推科技

武汉SEO剖析搜索引擎分词的算法逻辑和语法思路

来源:小易整编  作者:小易 发布时间:2019-08-27 10:00
摘要:武汉SEO剖析搜索引擎分词的算法逻辑和语法思路,分词在我们这个圈子里是很容易被提及的一个词汇和概念,笔者通过对搜索引擎分词原理的研究,去进一步优化标题和关键词撰写的手法和标准...

分词在我们这个圈子里是很容易被提及的一个词汇和概念,笔者通过对搜索引擎分词原理的研究,去进一步优化标题和关键词撰写的手法和标准。做外贸也是如此,注重搜索引擎对英文长句的拆分,词组的分词和理解,也是很有必要的。

武汉SEO剖析搜索引擎分词的算法逻辑和语法思路

这篇文章为主的笔者先以中文分词的搜索引擎算法逻辑讲解一下我学习后理解中的分词逻辑,英文分词后续会继续更新,可以多多关注!

1.紧密性

词组的紧密性:紧密性原则是写标题的优先考虑原则,配合生意参谋的数据分析工具,获取这些买家自身输入的搜索行为词,保证原则上不做分割,维护其紧密性

2.通顺性

语句的通顺性:堆砌词组,堆砌关键词,堆砌标题是很多年前的手法了,这里不用细说,是一定要规避堆砌的。因此写标题的时候要考虑的一点是语句的通顺性(虽然买家看首焦图来决定点击的行为轨迹更大,而不是看标题,相信很多人买一些并不要求很高的技术性或产品匹配度的产品,都是直接看图就买,不会仔细看标题)但是,现在是2019年了,AI算法和词意的判断准确度已经有了很大的提高,因此标题不仅仅是给访客看,也是要给搜索引擎看的。保证语句的通顺性,可理解性,能辅助加大搜索算法对产品的理解和二次判断,是很必要的

3.逻辑性

分词的逻辑性:分词常规算法上基础原理分为最大正向匹配,逆向最大匹配法,双向最大匹配法

最大匹配

什么是最大匹配模型?

首先什么是最大匹配?最大匹配是指以当前已有词典为数据库,捕获词典数据库中最长的单词为第一次取字数量的扫描串数据,执行扫描

例如数据库中最长的单个词为“现在最流行的歌”,统计共有7个汉字字符,最大匹配的计算算法则是按照起始字数为7个汉字。然后逐字递减,每次减少1个词,进行扫描和分析,同理进行第三次,第四次的匹配,在对应的词典中进行查找。

注:切分结果中非词典词越少越好,单字字典词数越少越好,这里的“非词典词”就是不包含在词典中的单字,而“单字字典词”指的是可以独立运用的单字,如“的”、“了”、“和”、“你”、“我”、“他”。例如:“技术和服务”,可以分为“技术和服务”以及“技术和服务”,但“务”字无法独立成词(即词典中没有),但“和”字可以单独成词(词典中要包含),因此“技术和服务”有1个非词典词,而“技术和服务”有0个非词典词,因此选用后者。

武汉SEO剖析搜索引擎分词的算法逻辑和语法思路

而正向,逆向,双向就是基于上面这个扫描和分词逻辑进行的,下面我以”我们在天文博物馆玩“一词举例子:

最大正向匹配:从左往右,或者说从前往后,从开始往结束进行扫描

那么,我们..........

开始吧

扫描1:从左往右取7个字-我们在天文博物,扫描7字的词典数据,不存在此类词语,执行下一次扫描

扫描2:我们在天文博,扫描6字的词典数据,不存在此类词语,执行下一次扫描

扫描3:我们在天文,扫描到5字的词典数据,不存在此类词语,执行下一次扫描

......依次同理

当执行到扫描6的时候,扫描到我们,存在这个词语,因此分词:我们,我们这个词搜索算法分析和理解出来了,存储:我们

那么下一次要执行的就是去掉已经识别和分词的“我们”,开始执行对”在天文博物馆玩“的扫描和分词,按照上面的程序运行,依次类推扫描1:在天文博物馆玩,扫描7字的词典数据,不存在此类词语,执行下一次扫描

扫描2:在天文博物馆,扫描6字的词典数据,不存在此类词语,执行下一次扫描

扫描3:在天文博物,扫描5字的词典数据,不存在此类词语,执行下一次扫描

以此同理,一直这样扫描和分词,最后分出:我们/在/天文/博物馆/玩”,其中,单字字典词为2,非词典词为0。

而逆向最大匹配法的思路是即从后往前取词,其他逻辑和正向匹配的相同。

不过正向匹配和逆向匹配都有其缺陷,因此搜索引擎也会运用双向最大匹配法和双向最大匹配法。分别计算正向最大匹配和逆向最大匹配的结果

计算逻辑:非字典词(越少越好)+单字字典词(越少越好),最后统计出正向和逆向的这个结果和的数值

假设:

正向:非词典词=2,单字词典词=3,共5

逆向:非词典词=1,单字词典词=2,共3

取决其中数值更低的作为结果,那么选择逆向作为输出,输出逆向最大匹配时候的分词的逻辑结果

文本总结

零售春风吹满地,运营喵们真牛逼。在这个懵逼树上懵逼果,懵逼树下你和我的年代,风雨飘摇,电商平台,搜索算法变幻莫测。辛苦的运营喵还是得烧脑的学习一些搜索引擎的底层逻辑SEO运营的思维。


本文地址:武汉SEO频道 https://www.hkm168.com/seojishu/1190.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们处理,谢谢!


武汉SEO
小编:小易整编
相关文章相关阅读
  • 二进制算法怎么算

    二进制算法怎么算

    二进制算法是一种基于二进制数的运算方法,其基本运算包括加法、减法、乘法和除法。除了基本运算外,二进制算法还包括逻辑运算、位移运算等操作。逻辑运算包括与、或、非等操作,位移运算包括左移和右移操作。这些操作都有对应的规则和操作数的要求。二进制算...

  • PHP百钱百鸡问题(三种解题思路及答案)

    PHP百钱百鸡问题(三种解题思路及答案)

    假设:如果公鸡1只,母鸡1只,小鸡1只,则总价为:......,不对。如果公鸡1只,母鸡1只,小鸡2只,则总价为:......,不对。如果公鸡1只,母鸡1只,小鸡3只,则总价为:......,不对。........................

  • DTW算法是什么

    DTW算法是什么

    dtw算法是指动态时间规整算法,是基于动态规划dp的思想,是一种计算2个时间序列尤其是不同长度序列相似度的一种动态规划算法;它解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。dtw算法主要应用在时序数据上,比如孤...

  • PHP搜索引擎性能优化:Algolia的妙用之道

    PHP搜索引擎性能优化:Algolia的妙用之道

    php搜索引擎性能优化:algolia的妙用之道随着互联网的发展和用户对搜索体验的要求不断提高,搜索引擎的性能优化变得至关重要。在PHP开发领域,Algolia是一个强大且易于集成的搜索引擎服务。本文将介绍Algolia的妙用之道以及如何通...

  • 在算法中mod是什么意思?

    在算法中mod是什么意思?

    在算法中,mod的意思是取模,就是取余数。mod运算,即求余运算,是在整数运算中求一个整数x除以另一个整数y的余数的运算,且不考虑运算的商。mod运算,即求余运算,是在整数运算中求一个整数x除以另一个整数y的余数的运算,且不考虑运算的商...

  • 什么是广度优先搜索算法

    什么是广度优先搜索算法

    广度优先搜索算法又称为【宽度优先搜索】或【横向优先搜索】,简称bfs。它是用于图的查找算法(要求能用图表示出问题的关联性)。bfs是最简便的图的搜索算法之一,这一算法也是很多重要的图的搜索算法的原型。什么是广度优先搜索算法?怎么用PHP实现...

  • 一文详解JS中三元运算符的语法和常见用法

    一文详解JS中三元运算符的语法和常见用法

    本篇文章带大家探讨一下javascript中三元运算符的语法及其一些常见用法,希望对大家有所帮助!三元运算符(也称为条件运算符)可用于执行内联条件检查,而不是使用if...else语句。它使代码更短,更易读。它可用于根据条件为变量赋值,...

  • php基本语法有哪些?PHP基本用法的介绍

    php基本语法有哪些?PHP基本用法的介绍

    PHP是一款功能强大的嵌入式HTML脚本语言,经常被程序员用来作为网站开发的基础语言。在PHP中基本的语法有哪些呢?本篇文章我将给大家总结一下php常用语法。php基本语法一,php脚本代码标记PHP的脚本是文件中一对特殊标记所包括的内容,...

  • 周排行
  • 月排行
  • 年排行