加入收藏 | 设为首页 | 会员中心 | 我要投稿 辽源站长网 (https://www.0437zz.com/)- 云专线、云连接、智能数据、边缘计算、数据安全!
当前位置: 首页 > 综合聚焦 > 资源网站 > 资源 > 正文

如何用Selenium抓取动态网页数据?

发布时间:2019-11-28 01:57:59 所属栏目:资源 来源:网络大数据
导读:1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新,这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行
  1.selenium抓取动态网页数据基础介绍  1.1 什么是AJAX  AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新,这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行局部更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。  因为传统的网页在传输数据格式方面,使用的是XML语法,因此叫做AJAX,其实现在数据交互基本上都是使用JSON。使用AJAX加载的数据,即使使用了JS将数据渲染到了浏览器中,在右键->查看网页源代码还是不能看到通过ajax加载的数据,只能看到使用这个url加载的html代码。  1.2 获取ajax数据的方式  法1:直接分析ajax调用的接口。然后通过代码请求这个接口。  法2:使用Selenium+chromedriver模拟浏览器行为获取数据。  1.3 Selenium+chromedriver获取动态数据  Selenium相当于是一个机器人。可以模拟人类在浏览器上的一些行为,自动处理浏览器上的一些行为,比如点击,填充数据,删除cookie等。chromedriver是一个驱动Chrome浏览器的驱动程序,使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver:  Chrome:https://sites.google.com/a/chromium.org/chromedriver/downloads  Firefox:https://github.com/mozilla/geckodriver/releases  Edge:https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/  Safari:https://webkit.org/blog/6900/webdriver-support-in-safari-10/  1.4 安装Selenium和chromedriver  安装Selenium:Selenium有很多语言的版本,有java、ruby、python等。我们下载python版本的就可以了。  pip install selenium  安装chromedriver:下载完成后,放到不需要权限的纯英文目录下就可以了。  1.5 快速入门  现在以一个简单的获取百度首页的例子来讲下Selenium和chromedriver如何快速入门:  1.6 selenium常用操作  
   1.7 爬取拉钩网职位信息 

(编辑:辽源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读