核心揭秘百度核心排序算法之中文分词算法排序

编辑:北京SEO实战派- -人气:

核心揭秘百度核心排序算法之中文分词算法排序

一、关于中文分词:
 
1.中文分词难度分析
关于百度核心分词算法之分词,首先要说明下的是:普通用户的搜索与做SEO或者更大说熟悉网络搜索用户的搜索习惯是非常不一样的,而恰巧普通搜索用户是百度搜索的基础力量。在开头赘述 这一点是飘渺蝶舞为了表达其对于百度搜索算法中的中文分词的重视。因为,对于百度google这样的第二代搜索引擎来说,采用的检索技术主要是依靠关键字来 匹配的,而用户对于关键词的理解与机器程序对于关键词的理解是有很大距离的。
 
分词算法
在中文分词方面百度胜过了Google,这是baidu取胜google的关键因素之一,中文的分词比英文要复杂得多(同样与中文分词一样麻烦的重要语言 还有日语、韩语、俄语,这也是Google没办法在这几个地区取胜的原因之一),飘渺蝶舞SEO培训在这里因为篇幅不做赘述,有兴趣的朋友可以研究一下拉丁语系(以英 文为例)的造句与中文造句的区别,中文造句不仅近义词很多,而且语序变化无常,副词太多(主谓宾之外的定状补,叹词等等)。
 
简单举个例子“网站如何排名”“网站是如何排名的”“网站怎么排名”“网站是怎么排名的”“网站如何排位”“网站怎么排位”“网站按什么排名”“网站靠什 么排名”“网站的搜索是怎么排位的”……这几个短语短句至少都包含一个意思“百度搜索结果的排名是什么规则(原理)”,除此之外,每个句子都有其他的含 义,如这些句子还包含有“怎么做网站排名(实现这个目标的方法)”“百度是怎么进行搜索排名的(原理实现的过程)”……
 
拿上面的例子来说:当用户输入以上短句时(大多数情况下,普通用户把百度当做是万能的,所以才搜索SEO开来这么不符合规则的搜索行为),百度要迅速的响应出用户需要的结果,这个时候,百度面临的核心问题是:
A.首先要知道用户是要搜什么(语义分析,见“二”);
B.其次因为百度的检索方式目前仍然以关键词匹配技术为主,所以要对用户的搜索进行分词(下一段将分析百度如何分词);
C.然后百度要通过分词分出的结果,去数据库中检索匹配的快照;
D.上一步只是检索出来,还要进行第四部的排名,这个时候已经不是挑战百度的难题了(虽然在SEO看来,这一步确实是非常艰难的)
E.第五步要将得到的结果返回到搜索页面给用户使用,并且要完成其广告的投放(百度竞价广告),并要适当推广自己的产品(百度知道、百度文库……)写的有点乱,飘渺蝶舞SEO培训在此致歉,没找到更好的陈述方式,望朋友们整理发扬光大。

2.百度中文分词方式:
百度对于中文的分词不仅是大量的用户搜索(这点不同于Google,百度毕竟是植根于中国文化的,对中文更了解),而且还有庞大的中文词典数据库作支撑, 并且动态加入了搜索热词,搜索行为造词等技术,【从近期百度算法的调整看,百度比以前更加尊重用户的搜索行为,就是用户的输入为首要,百度纠正次要,这点 那很重要哦】下面以实例来说,用户搜索“百度如何排名?”时的分词:
 
A.自然分割:包括标点符号、空格引起的分割,这是首要因素,比如或者“百度 如何排名”这样的搜索行为会被百度首先划分为“百度”、“如何排名”,这一点是肯定的,要理解用户搜索的行为意图,首先是要尊重用户的搜索行为;(这是飘渺蝶舞SEO培训根据实战中的观察总结出的,做SEO的很多朋友可能没注意到,在此提个醒)
 
B.中文词库分割:不难理解,“百度如何排名”将被分为“百度”“如何”“排名”这几个词,因为这是中文词典里存在的词,百度有庞大的中文词典库支撑,这个不是难度;
 
C.分词组合分词:B中的分词显然是不够的,要更能理解用户意图,必须保证语义连贯,那么那三个词可以组合成“百度如何排名”;“百度如何”+“排名”; “百度排名”+“如何”;“如何排名”+“百度”以及这几个词颠倒的组合,重要程度按照顺序优先原则,紧接着是倒序和双向序列的分词组合,分析切分有个基本的原则就是最少的切分。
 
以上三点是通常意义上的分词,除此之外,还有更麻烦的分词需要百度处理,见后几点。
 
D.分字:如果用户搜索“百 度 如 何 排名”的时候,百度也是无可奈何的,因为你不能判断出来用户就是在搜索“百度 如何 排名”,还得尊重用户搜索行为,所以,不得不进一步将中文词进行分字:“百”“度”“如”“何”“排名”,然后在进行组合分词,组成不同的词组去数据库中匹配。
 
E.别音字/错别字:如有人搜索“白度如何排名”实际上是误将“百度”打成“白度”,那么百度还要纠正这种错误,但近期的调整看,百度不像以前通过词库近 义匹配来进行纠错【而更多的是以用户搜索后浏览的行为积累的数据来为纠错做准备】(如搜索“白度”的很多用户最后花更多时间在“百度”关键词页面上,那么 百度以后对于“白度”的搜索纠错会偏重到“百度”上!
 
当然,这个词是飘渺蝶舞SEO培训举例说明,实际上百度搜索“白度”不是这样的,例子可以参看百度的“美规车”查看,百度会提示或者说试探你“您要找的是不是: 美规车”),此外,百度对于纠错通过搜索下拉框相关词推荐、搜索页面底部“相关搜索”、百度知道(用户量很大,是百度搜索的重要补充)来进行纠错数据的统 计与纠错引导。
 
F.新词:新词的来源一般有两种:a.近期流行语造成,这个百度的数据库会根据用户搜索行为积累的数据以及网络热词监测数据来进行调整补充到词库;b.语言新词/用户造词,这个主要是靠搜索行为累积的数据调整,也针对部分语言新词人工作补充。
 
飘渺蝶舞SEO培训再次补充说明一下,百度其实很累的,它对用户的每一次搜索行为都要进行统计(当然是机器程序记录的方式):一般主要记录搜索的关键词、到访的页面及 到访方式(一般都是链接)、各页面停留时间(之前不容易读取到,现在百度通过浏览cookis、百度账户、IP记录、百度统计【如果网站装了百度统计的程 序,实际上百度很聪明,用各种方式想尽办法进入到网站,比如最近流行的百度分享按钮,这个工具实际上就是最大的间谍】等大量辅助工具来统计),一般测算是 根据搜索后到访的百度提供的快照页面的浏览行为(先打开哪个,然后打开哪个,在哪里停留的时间长,最后从哪里离开百度来实现,百度对于一个网页对用户是否 有用的观点:在该页面停留时间最长,并最终在此页面浏览完毕后离开百度为首要标准,其次还有在这些页面的互动程度所起的因素。
 
二、关于语义分析:
其实这段要说的在上一段已经都提到,列出来无非是将“语义分析”这一检索行为与“分词”区别开来,语义分析与分词是相辅相成的,语义分析更多的建立在分词 与用户浏览行为习惯数据的研究结论基础之上,如前所述,百度通过各种方式大量统计用户的行为并针对这些行为及所用的关键词及输入方式索索的统计数据进行分词的支撑与分词的匹配。
 
毕竟,再怎么算,那么多网页、每天数十亿次的检索行为,百度还是难以计算出来的(百度正在通过不断改进方式及完善机器算法来努力实现这一浩大工程),目前 主要采用的是针对热门搜索的抽样统计与其他搜索的随机统计来实现搜索语义分析(此为飘渺蝶舞SEO培训根据实战中的观察做的假想推断)。
 
百度最难以捉摸透的与其说是排名算法,不如说是语义分析算法,因为与SEO搞不懂百度算法一样,百度同样搞不懂搜索用户的搜索意图(所以百度一直在研究, 一直在调整,一直在完善,就像SEO一直在研究,一直在调整,一直在完善一样的道理)。捉摸不透是一个原因,更重要的是这些计算不仅仅是对于文字及分词、 匹配度的研究,更是通过统计学、线性数学、逻辑学、行为学、心理学等众多的学科的精华计算方法结合在一起设计出的算法结构,并不断修补完善的,说到这个算 法,百度有一个形容“海量基础算法”,更不用提每种算法的学科本身的难度了,这就是苦逼的SEO迟迟不能搞懂百度算法的根本原因,当然,作为苦逼的 SEO,飘渺蝶舞同样也是搞不懂的,如果能搞懂的,大多都是数学或计算机天才或顶尖人才,早都去搞自己的研究或者发明去了,还至于追在百度后面吹毛求疵?
 
更何况,百度本身对于搜索结果的“人为干涉”及“垄断”都带来各种斥责,更何况SEO为了一己之利不断刷排名给用户推荐低质量的信息,那就更加懂得并理解 搜索算法的牛人看不起了……所以看到这里,如果你觉得你很牛,就不要做SEO了,如果作为SEO你明白了作者飘渺蝶舞写此篇文章的意图,那你就站在SEM或者网络运营、网络营销的高度来看待SEO,而不是为了半夜趴在电脑前发外链混营生而SEO。
 
扯远了,回归正题,做不到像百度一样设计算法的那个能耐,如果说还能从语义分析中挖掘点对SEO有帮助的东西,那么飘渺蝶舞建议可以去研究研究你正在做的优化的相关词的用户搜索习惯,比如,飘渺蝶舞发现“美规车”这一词正在受到越来 越多的关注,而做这个词优化的很多SEO或者说站长都顶住“美规车”一个词做,而这个词用户搜索的时候,有可能衍生为“美规汽车”“美规汽车SUV”“美规车SUV”“美规SUV”“美规车销售”“美规车经销”“美规车经销商”“美规汽车经销”“美规汽车销售”“美规汽车进口代理”等众多的派生词,甚至 “美规车哪里买”“上海哪儿销售美规车”这样的更具有成交意义的长尾关键词,如果理解用户的搜索意图,再针对性的做SEO,这样取得的效果会更好。
 
三、关于关键词匹配度:
 
1.关键词分词匹配重点次序:
这是飘渺蝶舞根据SEO实际操作结合网友分享做的总结,精确度不高,但可作为参考。一般意义上的分词算法是“关键词比率”:计算该关键词在页面信息中的比重,通常包含的参数有:title(网页标题)、meta description(网页描述/摘要)、meta keywords(网页关键词)、网页H1~H6标签、锚文本(按照重点程度及页面位置排序)、内容文本(突出程度如字体、大小、颜色、周围的背景或者说 文字等,一般的位置顺序是从左上到右下)、图片及其他页面文件的Html标记语言属性。
 
2.关键词匹配度计算:
分词后,要对短语中的关键词进行“索库”,如果某个词在短语中与其他词相关性不大,将去除匹配,但是其他词计算匹配度时任然作为字数计算。以“百度如何排 名”来分析:一般意义上,这个搜索短语被分为“百度如何排名”;“百度如何”+“排名”;“百度排名”+“如何”……:那么“百度如何排名”匹配度就是 100%,紧接着就是“百度排名如何”,“如何排名百度”,“如何百度排名”,“排名百度如何”,“排名如何百度”;“百度排名”的匹配度是1/3+1 /3=2/3;“如何排名”的匹配度是1/2;“百度”的匹配度是1/3……以上只是粗略的估算,具体的都多分词算法还要加入相关参数计算,如顺序优先 度,倒序优先度,双序优先度,最少化切词度……(具体的算法因飘渺蝶舞学识有限,恕不能分享,在此只是一个基本思路的分析,可以供朋友们参考,另外分词中含 有很多关于标点符号、空格、单字等的处理)
 
3.title关键词匹配度:
title中的关键词在title本身的分词匹配中的计算方式与2中提到的一样,蒋鑫鹏在此想说明两点:A.根据观察推断,百度收录快照后,对快照的存档 中应该已经做好可能的分词及匹配度的数据标注(如果不是这样,那么百度检索的效率不会有这么高)B.每一次用户的检索百度都要进行分词,并依分词的结果从 从档的快照中的分词标注中做最大化的匹配。
 
另外,Title的公认长度一般认为是不超过80个字符(包含标点及空格,折合中文汉字约为40个字),但从百度检索结果的快照标题中看,对于不同站点百 度根据权重会有不同的限制,一般为60个字符,有的站能达到70个字符,超过的部分用“…”代替,但并不意味着百度不计算在内,以 “www.zhibaosuv.com”来说,蒋鑫鹏再添加标题的时候将“智宝美规车SUV”放到最后,但你百度“智宝美规车SUV”的时候现实的快照标 题可以正常显示“智宝美规车SUV”而将title超过显示的部分以段前段后省略的方式显示。
一般,如果没有特殊必要,建议不要超过公认的80字符,否则,不仅稀释了关键词的匹配度,还会影响搜索引擎对快照的打分。
 
【做title的技巧】,写到此,顺便分享下飘渺蝶舞的一点技巧,企业网站因为页面少,一般容易获得排名的主要是主页,所以主页的title一定要精心布置,如果实在放不下的关键词放到description中靠前的位置,另外,建议将站点名称简写放在后面,以保证重点关键词靠前而获得较好的匹配度,站点 名称用“【】”起来,虽然浪费了4个字符,但是在搜索结果中会比较突出,能吸引用户的注意而提高网站知名度和进入率。
 
顺便提下,飘渺蝶舞在操作中发现,如果头部标签更新频繁过度会被降权处理(一般头部修改后会进入快照观察期,搜索结果对于修改后的标题显示会延迟1~3周不 等,具体根据不同关键词在页面内容中的体现更新及外部链接锚文本中包含该关键词的更新度不等而延迟时间不等),头部标签一月内修改2次以上,百度会直接随 机抓取页面内的文本作为描述摘要。Google对于Title更新频繁的页面,会直接抓页面布局中重点体现的某段短语做标题。
 
4.description关键词匹配度:
与title的计算方式类似,只不过description不会被百度像title一样被分词,而只作为title中关键词和keyword中的关键词以 及给给页面带来流量较大的关键词的匹配计算,关键词在description中的匹配度按照顺序优先原则,以关键词在description总字符中的占有比率及连贯度计算。
 
description是对页面的摘要说明,做SEO的童鞋务必遵守规则,不要将无关信息或者说页面文本中不包含的关键词堆叠到此,以免降分。
description公认的允许最大字符量为200,百度快照显示的一般为140字符左右,飘渺蝶舞建议不要超过160字符,因为这样不仅稀释关键词匹配 度,而且百度最近的算法调整,对description超出快照显示的部分将不再做关键词匹配。
 
5.keywords关键词匹配度:
keywords对于百度来讲,貌似本身不作为匹配,但是有一点百度很在意:不要将页面没有的关键词加到keywords中,如果这样,有可能会被认为是在作弊,这点对于Google来说更是如此,Google对于keywords作弊比百度严格的多。
keywords一般公认的不超过100字符,这点,飘渺蝶舞的理解是,对于Google来讲:keywords一定不要过多,要与页面匹配,一般页面能容 忍的关键词也就十多个到头;对于百度来讲,建议keywords的设计根据百度权重(可用站长工具或爱站网测试)关键词来设计,有权重的词,可以加到 keywords中。
 
对于企业网站而言,因为Title和description限制而字数有限,无法容纳公司全称,这个时候可以考虑将公司全称及简称在keywords中体现一下,因为页面版权信息中一般会包含公司名和简称。
 
6.页面内容中的关键词匹配度:
页面内容不做分词计算,但标签中的分词和快照中存档的分词在页面所占比列计算中会对页面中包含的关键词进行匹配并计算次数及在整个页面字符中所占比例。
 
页面的关键词重要程度首要的是H标签和其他重要的标签,当然在百度快照中主要是按照页面世家显示的文字为标准,一般链接锚文本中包含的关键词、页面突出位 置出现的关键词、以突出的方式(字体、颜色)展示出的关键词会比较重要,这点要根据具体页面作分析,SEO朋友们可以在检索关键词结果中直接查看百度快照 中显示的关键词匹配程度,黄色最高,其次为红色和蓝色、绿色。
 
快照是存放在百度数据库中的静态网页,不是真实的网页,所以就有快照更新一说。从快照页面源代码中可以看出,百度快照中只是记载了页面的基本代码及文本文件,并为存储照片及其他文件,现实中的快照中的图片是从页面文件收录快照时记录的文件地址调用过来的。
 
百度快照的存在,才是大家都关心百度快站更新的根本原因,因为如果快照不跟新,获得排名的机会就会变少,这个时候的你的网站的快照在百度快照数据库中就像 一个弃婴……写到此,作者飘渺蝶舞SEO培训再次将自己的观察提醒一下:以前大家都认为静态页面更受搜索欢迎,随着2.0的不断发展及互联网社交化的趋势,似乎这点正 在被改写并朝着相反方向发展,静态页面、伪静态开始被搜索程序嫌弃……飘渺蝶舞是这样理解的,如果页面是静态的,那么搜索引擎更容易认为你的页面内容更新会 比较慢,这样自然影响收录频率,蜘蛛到访的频次也就降低了……
 
本文由飘渺蝶舞SEO培训(www.piaomiaodiewu.cn)收集于网络不代表本站观点,如果您还想了解更多关于SEO培训和SEO技术培训请查看相关文章!

99%的人还阅读了:

本文标题:核心揭秘百度核心排序算法之中文分词算法排序

本文链接:http://www.nplstu.com/jishu/326.html

回到顶部