网站优化seo中需要注意的百度的中文分词三点原理
发布时间:2020-06-20作者:帝国建站网
百度中文分词算法:指搜索引擎为了更好的辨别用户的需求,并且为了快速提供给用户需求性信息而使用的算法。
搜索引擎要在单位时间内处理千万亿级的页面数据量,因此搜索引擎拥有一个中文词库。比如百度现在大约有9万个中文词,那么搜索引擎就可以对千亿级的页面进行分析,按照中文词库进行了分类。
百度分词基本有三种分法
1、基于理解:傻瓜式匹配,小于等于3个中文字符百度是不进行切词的,比如搜索“大学堂”。
2、基于统计:百度把一个词标红的原因:标红的词一般是一个关键词,你搜索“学”字的时候,百度它自认的把“学习”也当成了一个关键词,所以出现“学习”这个词标红,这就是百度分词法:基于统计分词。
3、基于字符串匹配(百度的分词法:正向最大切词法)
最大与最小(最大匹配:一直匹配到没词可配;最小匹配:匹配出词了就停止匹配,再从另一个词开始匹配)比如:百度搜索“湖南大学堂屋顶”,百度的一个分词算法我们把它当成一个黑盒子,我们通过一些输入关键词,根据百度的输出结果来判定百度的分词算法。正向与反向(正向:从前往后配;反向:从后往前配)(湖南大学堂屋顶)正向分法:湖南大学 堂屋 顶 (刘强大地方法)正向分法:刘 强大 地方 法。反向分法:方法 大地 刘 强。而在这个词语当中“大地”不是一个词。
另外,切词原理:百度有专有词库(是不可分割的)比如杰出人物(如:毛泽东)明星(如:刘德华)检索量大的词(如:买票难) 。
当然这些只是百度中文分词原理的一部分,也不是全对。因为百度算法是不可能透露出来,商业机秘如果让你知道,那岂不是有N多的百度了。
相关建站知识
- 08-29帝国CMS二次开发替换“当前位置导航newsnav
- 05-31帝国CMS灵动标签调用广告列表
- 04-05帝国CMS任意页面调用指定信息的图集内容
- 10-06帝国cms内容页文章种添加广告,环绕内容显示
- 04-08帝国cms模板里用灵动标签按照字段排序方式显示
- 10-14帝国cms灵动标签标题简介字数限制方法 标题简介文字数量字符截取
- 10-08帝国CMS7.0灵动标签调用商城内容页购买记录
- 05-27帝国CMS在内容页调用当前专题名称和链接
- 12-24帝国CMS内容模板添加“顶”的方法
- 10-12帝国cms一句js实现列表页或者内容页当前栏目高亮
- 08-01帝国CMS列表页调用随机数字
- 09-24帝国CMS报错Fatal error: Maximum execution time of
- 09-15帝国cms后台发布信息时的多图上传去掉链接a标签
- 06-01帝国CMS内容页模板文章阅读数用中文千万为单位
- 05-07帝国CMS二次开发会员中心调用评论列表
- 08-07帝国CMS7.5版预留实名认证系统接口
- 11-23帝国cms网站栏目ID怎么设置从0开始
- 06-20帝国CMS判断栏目有无下级栏目的方法
- 03-07帝国CMS首页文章列表、栏目列表页、内容页调用TAG标签的方法
- 05-17帝国CMS灵动标签多表调用最新信息