近日在网站日志中发现有多条百度蜘蛛抓取结尾为 /*&%5E%25$ 的网址的记录,因为这个莫名其妙的后缀,这些请求肯定是找不到页面的,这就导致 404 的比例异常地高,对 SEO 有一定负面影响。这串字符很像是 URL 编码,但解码出来什么都不是。为了解决这个问题,我尝试在网上搜索相关资料。
通过在百度搜索“%5E%25 site:zhanzhang.baidu.com”可以发现,早在 2017 年 1 月百度站长社区就已经有有人反馈过这个问题,但是没有有效的解答出现。此后的两年陆续有多位站长也在社群内反馈过同样的问题,但依旧没人能解释。
宝塔面板的论坛也有很多用户反馈这个问题,认为主要是面板的原因,但是我的网站没有用宝塔面板同样出现了此问题,宝塔只是因为用的站长多所以背锅了(宝塔内心OS:MMP!)。
现在可以确定的是
1. 只有百度蜘蛛会出现这种情况,其他蜘蛛均未发现此种 URL 的抓取记录。
2. 跟宝塔面板无关,未使用宝塔面板的网站也会出现此问题。
3. 跟建站程序无关,目前 WordPress、织梦等程序搭建的网站都出现过这个问题。
4. 历史已经有这种情况发生。最早是在 17 年就已经发生过,18 年 6 月和 19 年 1 月影响范围较大,因为绝大多数咨询这个问题的帖子都集中在这两个时间段发布。
综合推测一下,我认为是百度蜘蛛程序的问题,建议大家通过站长平台向百度反馈。另外有一个临时的处理办法,在 robots.txt 中添加 Disallow: /*%5E%25* 规则,禁止蜘蛛抓取此类链接
转载请注明:云深不知处 » 百度蜘蛛抓取 URL 带 /*&%5E%25$ 问题