天蚕在你身边
不方便打电话?让天蚕联络你
解说URL权重,以目录深度评估网页重要度参考
1、URL权值的设定:根据URL的目录深度来定,深度是多少,权值就减少多少,权值最小为零。
2、URL中出现字符”/”,”?”,或”&” 1次,则权值减1,出现”search”,”proxy”,或”gate” 1次,则权值减2;最多减到零。
(包含”?”,或”&”的URL是带参数的形式,需要经过被请求方程序服务获得网页,不是搜索引擎系统侧重的静态 网页,因此权值相应降低。包含”search”,”proxy”,或”gate”,说明该网页极大可能是搜索引擎中检索的结果页面,代理页面,因此要降低 权值)。
3、定URL初始权值为10(此值设定的越小,从未访问URL集合中排序输出就越快。但是也不能太小,否则URL的权值意义就不大了,导致搜集策略不明显);
4、选择未访问URL的策略。
因为权值小不一定说明不重要,所以有必要给一定的机会搜集权值小的未访问URL。选择未访问URL的策略可以采用轮流 的方法进行,一次按照权值排序取,一次随机取;或者N次按照权值排序取,M次随机取(N1,M1)。
N,M 的选择可以根据系统实际运行情况获得。
例如:URL多样化
抓取优先级
爬虫顺着一个个的URL在互联网上抓取网页,它一边下载这个网页,一边在提取这个网页中的链接。假设从搜索引擎某一个节点出来的爬虫有爬虫A、爬虫B、爬虫C,当它们到达www.ifaceseo.com这个网站的时候,每个爬虫都会抓取到很多URL
这里会有一个待抓取列表
重庆网络公司
地址:重庆市渝中区上清寺鑫隆达B座28-8
邮编:400015
电话:023-63612462
EMAIL:cnjl_net@163.com