首页 > 教程 >
网站源码爬取 网站爬取工具
2022-01-14教程围观次
简介新手求助:爬一个网页发现爬下来的网页源码隐藏的源代码?不知道你指的是什么?我的理解有两种,一是不在前段显示,但是查看源代码时有,二是,异步加载的内容在前端和源代码中均看不到,第一种很容易解决,想必你指的时第二种,解决方法有三种:模拟浏览器,动态获取,可以使用大杀器selenium工具使用这种方法可以实现只要能看到就能抓取到,如鼠标滑过,异步加载等,因为他的行为可以与浏览器一模一样,但是这种方式的效率却是最低的,一般不到实在没有办法的时候不推荐使用。执行js代码在python中执行异步加载的js代码,获得一
新手求助:爬一个网页发现爬下来的网页源码
隐藏的源代码?不知道你指的是什么?我的理解有两种,一是不在前段显示,但是查看源代码时有,二是,异步加载的内容在前端和源代码中均看不到,第一种很容易解决,想必你指的时第二种,解决方法有三种:模拟浏览器,动态获取,可以使用大杀器selenium工具使用这种方法可以实现只要能看到就能抓取到,如鼠标滑过,异步加载等,因为他的行为可以与浏览器一模一样,但是这种方式的效率却是最低的,一般不到实在没有办法的时候不推荐使用。 执行js代码在python中执行异步加载的js代码,获得一些诸如鼠标滑过,下拉加载更多等,但是现在的网站中都有非常多的js代码,要找到需要执行的目标js代码时非常困难和耗时的,此外python对js的兼容性也不是很好,也不推荐使用。 找到异步加载的json文件,最常用,最方便,最好用的方法,这是我平常抓取动态异步加载网站时最常用的方法,可以解决我99%的问题。 具体的使用方法是打开浏览器的开发者工具,转到network选项,之后重新加载网页,在network中的列表中找到加载过程中加载的需要动态异步加载的json文件,以京东为例,如图,第一张找到的是异步加载的库存信息的json文件,第二招找到的是异步加载的评论信息的json文件:具体更详细的方法可以google或百度
用requests库爬取网站源码问题
这个网页是 异步加载的,直接用requests爬不到你想要的网页源码。
python爬虫怎么获取动态的网页源码
一个月前实习导师布置任务说通过网络爬虫获取深圳市气象局发布的降雨数据,网页如下:心想,爬虫不太难的,当年跟zjb爬煎蛋网无(mei)聊(zi)图的时候,多么清高。 由于接受任务后的一个月考试加作业一大堆,导师也不催,自己也不急。 但是,导师等我一个月都得让我来写意味着这东西得有多难吧。 。 。 今天打开一看的确是这样。 网站是基于Ajax写的,数据动态获取,所以无法通过下载源代码然后解析获得。 从某不良少年写的抓取淘宝mm的例子中收到启发,对于这样的情况,一般可以同构自己搭建浏览器实现。 phantomJs,CasperJS都是不错的选择。 导师的要求是获取过去一年内深圳每个区每个站点每小时的降雨量,执行该操作需要通过如上图中的历史查询实现,即通过一个时间来查询,而这个时间存放在一个hidden类型的input标签里,当然可以通过js语句将其改为text类型,然后执行send_keys之类的操作。 然而,我失败了。 时间可以修改设置,可是结果如下图。 为此,仅抓取实时数据。 选取python的selenium,模拟搭建浏览器,模拟人为的点击等操作实现数据生成和获取。 selenium的一大优点就是能获取网页渲染后的源代码,即执行操作后的源代码。 普通的通过 url解析网页的方式只能获取给定的数据,不能实现与用户之间的交互。 selenium通过获取渲染后的网页源码,并通过丰富的查找工具,个人认为最好用的就是find_element_by_xpath("xxx"),通过该方式查找到元素后可执行点击、输入等事件,进而向服务器发出请求,获取所需的数据。 [python] view plain # coding=utf-8 from testString import * from selenium import webdriver import string import os from selenium.webdriver.common.keys import Keys import time import sys default_encoding = 'utf-8' if sys.getdefaultencoding() != default_encoding: reload(sys) sys.setdefaultencoding(default_encoding) district_navs = ['nav2','nav1','nav3','nav4','nav5','nav6','nav7','nav8','nav9','nav10'] district_names = ['福田区','罗湖区','南山区','盐田区','宝安区','龙岗区','光明新区','坪山新区','龙华新区','大鹏新区'] flag = 1 while (flag > 0): driver = webdriver.Chrome() driver.get("hianCe/") # 选择降雨量 driver.find_element_by_xpath("//span[@id='fenqu_H24R']").click() filename = time.strftime("%Y%m%d%H%M", time.localtime(time.time())) + '.txt' #创建文件 output_file = open(filename, 'w') # 选择行政区 for i in range(len(district_navs)): driver.find_element_by_xpath("//div[@id='" + district_navs[i] + "']").click() # print driver.page_source timeElem = driver.find_element_by_id("time_shikuang") #输出时间和站点名 output_file.write(timeElem.text + ',') output_file.write(district_names[i] + ',') elems = driver.find_elements_by_xpath("//span[@ ='jav :changeTextOver(this)']") #输出每个站点的数据,格式为:站点名,一小时降雨量,当日累积降雨量 for elem in elems: output_file.write(AMonitorRecord(elem.get_attribute(" ")) + ',') output_file.write('\n') output_file.close() driver.close() time.sleep(3600) 文件中引用的文件testString只是修改输出格式,提取有效数据。 [python] view plain #Encoding=utf-8 def OnlyCharNum(s, oth=''): s2 = s.lower() fomart = 'abcdefghijklmnopqrstuvwxyz0123456789,.' for c in s2: if not c in fomart: s = s.replace(c, '') return s def AMonitorRecord(str): str = str.split(":") return str[0] + "," + OnlyCharNum(str[1]) 一小时抓取一次数据,结果如下:
下载链接:网站源码/小程序源码/网站模板下载
下载排行
- WordPress主题 JustNews5.2.2 + QAPress问答插件适合源码站虚拟资源站个人博客
- 猜图达人小游戏V4.1微擎小程序源码
- ThinkPHP高仿蓝奏云网盘系统源码/对接易支付系统程序
- 最新去水印小程序源码分享/无需后台/对接接口/支持全网去水印功能
- 最新JustMedia V2.7.3主题破解版去授权WordPress主题模板
- 100%可用的总裁主题授权版 WordPress付费资源素材下载主题
- 自带多平台解析接口短视频去水印图集水印小程序源码下载
- 最新版手赚网整站源码 游戏试玩平台源码 可封装APP 手机版自适应 帝国cms7.5开发
- 最新短视频去水印小程序源码/带流量主/外卖CPS系统/批量解析/修改MD5
- 家政上门预约服务小程序源码+前端后端