首页 > 教程 >
宝塔面板根据访问协议头屏蔽字节跳动爬虫
2023-02-14教程围观次
简介最近,字节跳动搜索引擎的爬虫疯狂爬取全网资源,导致一些小网站服务器不堪重负,严重的直接使网站宕机。我们有很多方法可屏蔽掉爬虫,比如robot.txt,但是貌似字节跳动旗下的今日头条爬虫比较流氓,他不遵守这个!还有一个通过屏蔽IP的方式,但是一般爬虫的IP地址比较多,这个也挺麻烦。这里站长图库介绍一种方法,有一定的效果,如下:nginx在站点的设置,配置文件中server{}中添加#禁止爬虫工具的抓
最近, 字节跳动搜索引擎的 爬虫疯狂爬取全网资源,导致一些小网站服务器不堪重负,严重的直接使网站宕机。
我们有很多方法可屏蔽掉爬虫,比如 robot.txt ,但是貌似字节跳动旗下的今日头条爬虫比较流氓,他不遵守这个!还有一个通过屏蔽IP的方式,但是一般爬虫的IP地址比较多,这个也挺麻烦。
这里站长图库介绍一种方法,有一定的效果,如下:
nginx在站点的设置,配置文件中 server{ } 中添加
#禁止爬虫工具的抓取if ($http_user_agent ~* "Bytespider|YisouSpider") { return 403;}
注:Bytespider 为字节跳动爬虫的 协议头
Apache:
在伪静态里设置 这里以thinkphp为例!
<IfModule mod_rewrite.c>RewriteEngine onRewriteCond %{REQUEST_FILENAME} !-dRewriteCond %{REQUEST_FILENAME} !-fRewriteRule ^(.*)$ index.php [L,E=PATH_INFO:$1] #禁止爬虫工具的抓取RewriteCond %{HTTP_USER_AGENT} "^.*Bytespider.*|.*YisouSpider.*$" [NC]RewriteRule ^(.*)$ - [R=404,L]</IfModule>
以上,就是根据访问协议头屏蔽字节跳动爬虫的方法,希望能对大家有所帮助!
下载链接:网站源码/小程序源码/网站模板下载
下载排行
- 最新版去水印小程序源码/基于WordPress的短视频去水印小程序源码
- 某鱼最近卖的很火蓝色版微信去水印小程序源码+接口
- 帝国CMS仿管理资源吧资料下载网站模板源码/下载会员+积分付费下载功能自动采集资源网站源码
- 最新短视频去水印小程序源码/带流量主/外卖CPS系统/批量解析/修改MD5
- 文案馆头像壁纸小程序源码+带后台
- 苹果CMS二次元慕乔JOELEO模板/精美UI手机版影视模板
- 最新去水印小程序源码分享/无需后台/对接接口/支持全网去水印功能
- 知识付费小程序源码升级版知识付费变现小程序源码+卡密-独立后台版本
- 新版多功能去水印工具微信小程序源码下载+带流量主功能
- 爱看小说网源码全站带数据打包/ThinkPHP内核小说网站源码