解析搜索引擎爬取的规律
搜索引擎的工作原理总共有四步:
引擎工作原理:抓取——收录建库预处理——分析搜索企求——对结果排序
第一步:抓取,搜索引擎抓取到一个网页后,顺着当前网页抓取到下一个网页。
第二步:抓取之后会将这些网页收录到网页数据库后分析网页再放到网页索引数据库中。
第三步:分析用户搜索需求,从索引数据库找到用户的需求。
第四步:对结果排序,从索引数据库找到用户的需求后,对网页进行排序,展示给用户。
网站爬行规则:
1、优质网站专门有蜘蛛爬行,且实时爬行、收录、放出供网民搜索;
2、普通网站,有一定的蜘蛛爬行,但爬行限量。
3、遵循F型爬行规则,从左到右,从上到下的爬行原则。
提高搜索引擎蜘蛛爬取的技巧:
1、简单易记的域名,使用常用后缀且与网站主题相关。最好网站内容与域名相符,如有多个域名,可选用一个主域名,其他域名301重定向到主域名。
2、有一个稳定健康的服务器空间。提升用户体验感,Spider才能爬的越多,网站收录更多。
3、简化网站结构,url设置目录层级最好在4层以内。
4、优化网站部署结构,将网站的栏目页和相关内容页进行链接,使用户更快获得其他感兴趣的页面,蜘蛛也可更好的爬取内容。
5、文章标题要包含文章概要且包含文章主关键词,勿大幅修改,会影响蜘蛛抓取。
6、文章内容丰富且是原创内容,使用flash、frame、ajax可建立文字版索引页。
7、增加图片(alt),可使页面关键词密度增多还可在网络较差时给用户准确的信息说明。