首页 > 教程 >

网站源码爬取工具国内精品源码下载平台

2022-06-02教程围观次

简介python，求一个简单的selenium+re的网页源码爬取网页爬取不一定要用Selenium，Selenium是为了注入浏览器获取点击行为的调试工具，如果网页无需人工交互就可以抓取，不建议你使用selenium。要使用它，你需要安装一个工具软件，使用Chrome浏览器需要下载chromedriver.exe到system32下，如使用firefox则要下载geckodriver.exe到system32下。下面以chromedriver驱动chrome为例：# -*- coding:UTF-8 -*-

python，求一个简单的selenium+re的网页源码爬取

网页爬取不一定要用Selenium，Selenium是为了注入浏览器获取点击行为的调试工具，如果网页无需人工交互就可以抓取，不建议你使用selenium。要使用它，你需要安装一个工具软件，使用Chrome浏览器需要下载chromedriver.exe到system32下，如使用firefox则要下载geckodriver.exe到system32下。下面以chromedriver驱动chrome为例：# -*- coding:UTF-8 -*-from selenium import webdriverfrom bs4 import BeautifulSoupimport reimport timeif __name__ == '__main__': options = webdriver.ChromeOptions() options.add_argument('user-agent="Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19"') driver = webdriver.Chrome() driver.get('url')#你要抓取百度文库的URL，随便找个几十页的替换掉 html = driver.page_source bf1 = BeautifulSoup(html, 'l ') result = bf1.find_all(class_='rtcspage') bf2 = BeautifulSoup(str(result[0]), 'l ') = bf2.div.div.h1.string pagenum = bf2.find_all(class_='size') pagenum = BeautifulSoup(str(pagenum), 'l ').span.string pagepattern = re.compile('页数：(\d+)页') num = int(pagepattern.findall(pagenum)[0]) print('文章标题：%s' % ) print('文章页数：%d' % num) while True: num = num / 5.0 html = driver.page_source bf1 = BeautifulSoup(html, 'l ') result = bf1.find_all(class_='rtcspage') for each_result in result: bf2 = BeautifulSoup(str(each_result), 'l ') texts = bf2.find_all('p') for each_text in texts: main_body = BeautifulSoup(str(each_text), 'l ') for each in main_body.find_all(True): if each.name == 'span': print(each.string.replace('\xa0',''),end='') elif each.name == 'br': print('') print('\n') if num > 1: page = driver.find_elements_by_xpath("//div[@class='page']") driver.execute_ ('arguments[0].scrollIntoView();', page[-1]) #拖动到可见的元素去 nextpage = driver.find_element_by_xpath("//a[@data-fun='next']") nextpage.click() time.sleep(3) else: break执行代码，chromedriver自动为你打开chrome浏览器，此时你翻页到最后，点击阅读更多，然后等一段时间后关闭浏览器，代码继续执行。

如何使用python或R抓取网页被隐藏的源代码

隐藏的源代码？不知道你指的是什么？我的理解有两种，一是不在前段显示，但是查看源代码时有，二是，异步加载的内容在前端和源代码中均看不到，第一种很容易解决，想必你指的时第二种，解决方法有三种：模拟浏览器，动态获取，可以使用大杀器selenium工具使用这种方法可以实现只要能看到就能抓取到，如鼠标滑过，异步加载等，因为他的行为可以与浏览器一模一样，但是这种方式的效率却是最低的，一般不到实在没有办法的时候不推荐使用。执行js代码在python中执行异步加载的js代码，获得一些诸如鼠标滑过，下拉加载更多等，但是现在的网站中都有非常多的js代码，要找到需要执行的目标js代码时非常困难和耗时的，此外python对js的兼容性也不是很好，也不推荐使用。找到异步加载的json文件，最常用，最方便，最好用的方法，这是我平常抓取动态异步加载网站时最常用的方法，可以解决我99%的问题。具体的使用方法是打开浏览器的开发者工具，转到network选项，之后重新加载网页，在network中的列表中找到加载过程中加载的需要动态异步加载的json文件，以京东为例，如图，第一张找到的是异步加载的库存信息的json文件，第二招找到的是异步加载的评论信息的json文件：具体更详细的方法可以google或百度