专业IT网络知识平台,分享IT百科知识、生活百科知识解答!

易企推科技
易企推科技

什么是中文分词,搜索引擎中文分词算法解读

来源:小易整编  作者:小易 发布时间:2019-08-25 04:47
摘要:什么是中文分词,搜索引擎中文分词算法解读,在国内,多数搜索引擎优化工作都是针对中文做的。由于中文搜索引擎都是基于“搜索引擎系统的词典”作为排名算法处理的基础,因此通过深入...

什么是中文分词,搜索引擎中文分词算法解读,在国内,多数搜索引擎优化工作都是针对中文做的。由于中文搜索引擎都是基于“搜索引擎系统的词典”作为排名算法处理的基础,因此通过深入研究搜索引擎的中文分词算法对于网站的优化(尤其是标题优化)具有重大的帮助意义!因此,SEOer们对中文分词技巧的掌握也是尤为重要的一门功课!下面Ian就根据个人理解并通过实际案例来分析介绍下搜索引擎是如何通过中文分词将用户的“搜索句”拆分并匹配“搜索引擎系统的词典”:

一、字符串匹配分词算法:

这种分词算法是机器将一句话拆分成多个字符串,然后通过字符串中的单词进行匹配组合!通常这类分词算法有以下4种情况,本文将对不同情况进行实例分析,直接分析本文的title“中文搜索引擎分词算法分析”这个句子在搜索引擎中的算法:

1.正向匹配:本文title通过正序扫描匹配算法可以分词出“中文搜索、中文搜索引擎、中文分词、搜索引擎、搜索分词、分词算法……”;
2.逆向匹配:本文title通过逆向扫描匹配可以分词出“分析分词、算法搜索….”;
3.最少切分:使每一句中切出的词数最小);例如本文就能切分为“中文 搜索引擎 分词 算法 分析”;
4.双向最大匹配法:结合正向、逆向匹配,可以将本文title分词出“分析(逆向)中文(正向)分词”。

上面介绍的是4中基础的中文分词算法,搜索引擎系统在实际工作的时候往往会把它们几种匹配按照最大匹配法混合运用。

二、基于统计的分词方法:

这种分词是指搜索引擎通过分析大量的文字样本,计算出字与字相邻出现的统计概率,当几个词相邻出现的概率高了,就可能形成一个“新词”。例如本文中的“中文、分词、算法”,当实际应用中很多人把它们相邻使用,那么搜索引擎就会把它们连在一起形成一个“新词”并加入“系统词典”。

推荐一个中文分词分析,高频词分析工具:在线中文分词、高频词分析工具

扩展阅读:什么是中文分词?

 

fencifenxi

 

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
中文分词对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。因此中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。


本文地址:武汉SEO频道 https://www.hkm168.com/seojishu/947.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们处理,谢谢!


武汉SEO
小编:小易整编
相关文章相关阅读
  • 二进制算法怎么算

    二进制算法怎么算

    二进制算法是一种基于二进制数的运算方法,其基本运算包括加法、减法、乘法和除法。除了基本运算外,二进制算法还包括逻辑运算、位移运算等操作。逻辑运算包括与、或、非等操作,位移运算包括左移和右移操作。这些操作都有对应的规则和操作数的要求。二进制算...

  • DTW算法是什么

    DTW算法是什么

    dtw算法是指动态时间规整算法,是基于动态规划dp的思想,是一种计算2个时间序列尤其是不同长度序列相似度的一种动态规划算法;它解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。dtw算法主要应用在时序数据上,比如孤...

  • 解读DDR5内存的含义

    解读DDR5内存的含义

    关注内存条的用户肯定都看到过ddr5内存吧,对于这个名称肯定有大部分使用者不知道具体的意思,为此我们带来了详细的介绍帮助你们了解,一起看看ddr5内存是什么意思吧。ddr5内存是什么意思:答:ddr5内存的意思是一种计算机内存的规格。如今大...

  • PHP搜索引擎性能优化:Algolia的妙用之道

    PHP搜索引擎性能优化:Algolia的妙用之道

    php搜索引擎性能优化:algolia的妙用之道随着互联网的发展和用户对搜索体验的要求不断提高,搜索引擎的性能优化变得至关重要。在PHP开发领域,Algolia是一个强大且易于集成的搜索引擎服务。本文将介绍Algolia的妙用之道以及如何通...

  • 在算法中mod是什么意思?

    在算法中mod是什么意思?

    在算法中,mod的意思是取模,就是取余数。mod运算,即求余运算,是在整数运算中求一个整数x除以另一个整数y的余数的运算,且不考虑运算的商。mod运算,即求余运算,是在整数运算中求一个整数x除以另一个整数y的余数的运算,且不考虑运算的商...

  • 什么是广度优先搜索算法

    什么是广度优先搜索算法

    广度优先搜索算法又称为【宽度优先搜索】或【横向优先搜索】,简称bfs。它是用于图的查找算法(要求能用图表示出问题的关联性)。bfs是最简便的图的搜索算法之一,这一算法也是很多重要的图的搜索算法的原型。什么是广度优先搜索算法?怎么用PHP实现...

  • 探讨寻路算法及代码实现的线路规划解析

    探讨寻路算法及代码实现的线路规划解析

    寻路算法是计算机图形学和人工智能领域中常用的算法之一,用于计算从一个点到另一个点的最短路径或最优路径。在本文中,我将详细介绍两种常用的寻路算法:Dijkstra算法和A*算法Dijkstra算法dijkstra算法是一种用于寻找图中两点之间...

  • 浅谈图嵌入算法

    浅谈图嵌入算法

    Part01●  什么是图嵌入 ● 图嵌入是将图结构数据映射为低维稠密向量的过程,同时使得原图中拓扑结构相似或属性接近的节点在向量空间上的位置也接近,能够很好地解决图结构数据难以高效输入机器学习算法的问题。对于图的表示和存储,最容易想到的...

  • 周排行
  • 月排行
  • 年排行