营销资讯
关注我们可以获得更多行业最新、最快的快讯信息
浅析,网站抓取建设,常见的注意事项!
- 作者: 招商帮
- 发布时间: 2021-10-10
网站不收录,可能是最近,大量SEO从业者都在讨论的一件事情,这里面不乏更多的大型行业网站,这也是为什么我们要定期解读百度官方相关公开视频的一个重要原因。
每隔一定时间周期,百度搜索资源平台,都会定期开放相关课程,我们可以清晰的看出,官方搜索团队,也在不断的由浅入深的为大家分享日常建站的相关内容。
虽然,本期内容网站抓取建设更多的在陈述一些基础性的内容,但仍然有很多细节值得我们关注。
那么,百度官方网站抓取建设课程,有哪些值得关注?
根据以往针对百度蜘蛛的研究,招商帮,将通过如下内容阐述:
①网站URL规范化
所谓的URL规范化,通常来讲,主要就是指我们常见的一些URL基础性形态,一般来讲,我们通常建议大家选择伪静态的形式,一般可以是.html结尾。
常见的URL层级理论上越简单越好,比如:domain/mulu/123*.html
在这个过程中,我们尽量确保URL路径不要过长,尽量不要超过100个字符为最佳。
同时避免采用不友好的URL形态,比如:中文字符嵌入的形态,如下图:
当然,这里面需要强调的就是一个参数的问题,很多网站经常会有一些广告代码追踪,亦或是访问统计的后缀标识,这对于搜索引擎来讲,虽然是相同内容,但经常会自动添加不同的来路URL地址标识,很容易被识别成重复性内容。
官方建议在使用统计数据的时候,尽量规范化标识,适当采用“?”等相关的形式。
但根据实战经验来讲,合理的使用“?”同样会造成大量恶意的理由,比如:
domain/mulu/?123*.html?【URL地址】
因此,我们建议,如果非必须启用相关的动态参数,我们尽量在robots.txt中屏蔽“?”。
②合理发现链路
什么是链路?
简单的理解:所谓的链路就是从目标索引页,所展现的相关性页面超链接,搜索爬虫基于这些链接,可以更好的,更全面的抓取整站的页面内容。
一般来讲:一个网站的索引页面,主要包括:首页、列表页、Tag标签聚合页面。
这些类型的页面,每天都会进行大量的页面内容更新与调用。
也就是说,随着不断的运营,这些页面就像是一个种子页面,在固定周期内,每天特定时间吸引搜索引擎不断的来访抓取最新页面。
而一个良好的索引页,通常需要具备,定期更新的策略,最新的内容与文章,一般建议采用最新时间排序的策略进行展现。
这样可以辅助搜索引擎更快的发现新内容。
这里面值得强调的一个细节就是,我们新发布的内容,最好是实时同步在索引页面,这里一些需要静态手动更新,亦或是采用CDN加速的页面经常会遇到相关问题。
同时,官方建议,我们尽量不要建立大量的索引页面,这里我们给到的理解就是:
基于更新频率的策略,我们只需要保持核心索引页可以频繁的保持更新频率即可,如果大量启用不同的索引页面,而没有进行有效的内容展现,也是一种抓取资源的浪费。
③访问友好性
通常来讲,所谓的网站访问友好性,主要是指:
1)页面的访问速度,尽量控制在2秒以内。个人觉得可以合理启用百度CDN云加速。
2)确保DNS解析的稳定性,一般我们建议大家选择主流的DNS服务商。
3)避免页面产生大量的跳转,比如:索引页展现的链接,大量启用301,302,404类型页面。
4)避免只用技术手段,亦或是错误的操作策略封禁百度爬虫。
5)避免错误的使用防火墙,导致百度不能友好的抓取目标页面,特别是在购买一些虚拟主机的时候,需要格外注意。
6)注意网站的负载压力,比如:高质量站点,短期大量更新内容,导致同一时间节点,大量的蜘蛛访问,造成服务器加载延迟甚至卡顿的情况。
④提高抓取频率
我们知道想要试图提高网站的收录率,抓取频率的提升显得格外重要,通常来讲:
新站:搜索引擎更多的是在乎页面内容质量度的覆盖率。
老站:更多的是体现在页面的更新频率上。
这里面值得注意的就是:
对于企业新站而言,搜索引擎会在1-2个月的时间周期中,给予一定的流量倾斜与扶植,因此,在这个过程中,我们需要尽可能的提升内容输出质量。
从而获得较高的质量评估,这样在后期的运营过程中,才能够获得更好的展现。
一般新站上线,长期不收录的原因,主要可能是因为:内容质量不佳,内容增量覆盖行业的广度不够,为此,我们尽量避免采用伪原创和采集内容。
总结:本次百度官方公布的网站抓取建设内容,相对详尽,基本解决站长日常的常见问题,上述内容,我们认为最为值得注意的细节就是URL的长度不要超过200字符,以及页面加载速度控制在2秒内,仅供参考。