搜索引擎原理大致分为三步:网页收集、预处理、查询服务。网页收集又有定期搜集和增量收集,定期收集就是每隔一段时间全面抓取一次,增量收集就是先搜集一批,后面再搜索新的页面和之前搜集过的有改变的网页。所有的搜索引擎不可能抓取到全部的web网页,为了提升效率,搜索引擎从种子站点开始抓取,并且抓取分为2种策略:1、深度优先策略:就是沿着一个链接一直往下抓取;2、广度优先策略:就是抓取到一个网页,然后横向把这个页面的所有URL先抓取一篇,然后再沿着这些URL往下重复执行以上动作,其实搜索引擎真实在爬取网页的时候是两种策略混合使用。为什么网站都先收录首页?因为对于一个新站来说,搜索引擎会先采取广度优先策略进行抓取,所以一般会先抓取你的网站首页,也就是先抓取比较重要的页面,至于内页的一些信息,后面根据网站情况再进行抓取。从这个点亿仁网络其实也可以看出一个现象:般搜索引擎给排名先给首页排名,如果我们评估一个网站做的怎么样?那我们直接看一下有没有内页排名就可以了,如果有内页排名,那基本可以判断这个网站做的还可以,做起SEO优化和排名也会容易一点。