分析搜索引擎收录网页嘚四個阶段7z7z
作为SEO从业者,不仅要被搜索引擎抓取,还要被收录,重要的是在收录后有良好的排名,本文将简单分析下搜索引擎收录页的四个阶段。每个站、每个页的排名都是不一样的,看看你的站处于那个阶段呢?
页收录阶段:大小通吃
搜索引擎的页抓取都是采取「大小通吃」的策略,也就是把页中能发现的链接逐一加入到待抓取URL中,机械性的将新抓取的页中的URL提取出来,这种方式虽然比较古老,但效果很好,这就是为什么很多站长反应蜘蛛来访问了,但没有收录的原因,这仅仅是阶段。
页收录第二阶段:页评级
而第二阶段则是对页的重要性进行评级,PageRank是一种着名的链接分析算法,可以用来衡量页的重要性,很自然的,站长可以用 PageRank的思路来对URL进行排序,这就是各位热衷的「发外链」,据一位朋友了解,在中国「发外链」这个市场每年有上亿元的规模。
爬虫的目的就是去下载页,但PageRank是个全局性算法,也就是当所有页有下载完成后,其计算结果才是可靠的。对于中小站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。
页收录第三阶段:OCIP策略
OCIP策略更像是PageRank算法的改进。在算法开始之前,每个页都给予相同的「现金」,每当下载某个页面A后,A将自己的「现金」平均分给页面中包含的链接页面,把自己的「现金」清空。这就是为什么导出的链接越少,权重会越高的原因之一。
而对于待抓取的页,会根据手头拥有的现金多少排序,优先下载现金充裕的页,OCIP大致与PageRank思路一致,区别在于:PageRank每次要迭代计算,而OCIP则不需要,所以计算速度远远快于PageRank,适合实时计算使用。这可能就是为什么很多页会出现「秒收」的情况了。
页收录第四阶段:大站优先策略
大站优先的思路很直接,以站为单位来衡量页的重要性,对于待抓取的URL队列中的页,根据所述站归类,如果那个站等待下载的页面多,则 优先下载这些链接。其本质思想是「倾向于优先下载大型站URL」。因为大型站往往包含更多的页面。鉴于大型站往往是名站,其页质量一般较高,所以 这个思路虽然简单,但有一定依据。
实验表明这个算法虽然简单粗暴,但却能收录高质量页,很有效果。这也是为什么许多站的内容被转载后,大站却能排到你前面的重要原因之一。
文章来源:卢松松博客 原文地址:
:
A5报名优惠:2013年GOMX全球络营销大会
上海弹簧减振器保立建筑乳液深圳古钱币怎么出手-
集成吊顶企业怎样在困境中一路前行?_0
集成吊顶企业怎样在困境中一路前行?在当下混乱的市场竞争环境中,很多集成吊顶企业都在苦苦挣扎,在浙江广...[详细]
-
齐家网进驻佛山助力陶卫企业赢电商
齐家网进驻佛山助力陶卫企业赢电商7月16日晚,上海齐家网信息科技股份有限公司(以下简称“齐家网”)在佛山紫南...[详细]
-
-
2011夏季装修流行:简约清新材料自然
2011夏季装修流行:简约清新材料自然借着2011初夏的朗朗热情,许多装修业主又开始了装修的盘算,装修市场又开始...[详细]
-
伴郎怎么闹伴娘 伴郎整伴娘的招数盘点
伴郎怎么闹伴娘 伴郎整伴娘的招数盘点婚礼上除了祝福新娘新郎之外,必不可少的就是看伴郎和伴娘们之间的互动...[详细]
-
省水保监测网络与信息系统二期荆州分站验收博
水利e4Fo)if.a;C w(荆州市八角玻璃杯水利万能开关局) 11月4日,省水利厅组织对湖北省水土保持监测络与信息系统...[详细]