百度排名分析及采集

        百度国内最大的搜索引擎,基本上日常生活离不开,大家常说的有问题找'度娘',指的就是百度。百度现在的地位已经是无可撼动。很多公司花钱买竞价,做广告,做推广。换很多的时间做seo的优化工作。花大量的时间去查百度的排名。目的都是希望自己的产品或者推广被百

js逆向分析之库存信息

Js逆向分析是爬虫开发的一道拦路虎,需要拥有丰富的逆向经验以及爬虫开发的经验。但在现在的网站设计中并不是所有的网站都存在js加密的(也并不是所有的前端开发都具备反爬虫的能力)。本篇博文记录分享的是存在js分析但不存在js加密的一个国外网站(国外公司的但国内也能访问)。写这篇文章的初衷在于,这个网站之前有编写过爬虫代码,

搭建自己的代理IP池

爬虫最长遇到的就是被封禁本机或者服务器的IP地址,对于爬虫攻城狮而言,这无疑是一个致命问题,采集的站点无法访问了,对于“可见即可采集的原则”。这个站点数据就拿不到了。但是工作还要继续,领导催的急呢,客户也有数据需求。这就促使开发人员开发出可以绕过目标网站的反爬虫检测,从而达到解决自己IP被封的尴

js逆向之药智新闻加密

爬虫逆向之药智网站的最新文章信息(公司需要采集新闻类的咨询信息,因此任务就给到了我,说前同事有采集过,我去看了下以前的代码,发现已经不能用了,以前是直接获取源代码的数据,但是经过分析现在已经不能在源代码里获取任何数据了。),都是经过了加密的,但并不是一些常见的加密算法,而是网站自定义的加密js函数。之前写过一篇也是详情

scrapy对接scrapy-splash

最近工作中需要采集一些文献作为项目的内容,依旧是使用scrapy框架作为爬虫项目的基础,搭建分布式爬虫系统,提高效率。但是在分析到详情信息的时候发现,作者的基本信息无法获取到,看了一下是基于第三方的js渲染出来的(可以确认的是页面对作者信息做了保护,直接点击页面的作者信息的链接,会转到一个页面,意思就是不支持javas

基于flask开发VPS切换IP接口

现在在工作中时常需要购买并使用VPS进行数据的采集,使用vps的原因在于他就是提供一台虚拟主机,可以通过拨号的方式方便我们切换代理IP.现在的代理平台都是需要实名制的,曾经淘宝可以买到不实名的,但现在买不到了。使用它就好比使用一台电脑一样,需要给他配置拨号上网的账号和密码。那么我们做采集的都知道,数据采集会被目标网站封

windows安装golang

golang一门现在非常火的语言,他的应用和python一样也是十分的广泛,例如:后端开发、爬虫开发、云原生开发等。我前段时间也学习了一遍golang的语言基础,我之前大学期间也学过c、c++、java。golang语法的关键词很多都是以前我们使用过的,甚至意思都一样,唯有一些改变用法是凸显的他的不一样。例如他的变量的

Scrapy对接Selenium

在我们的爬虫中会遇到异步的爬虫我们可以通过抓包获取接口直接请求获取数据。也会遇到纯JS加载的数据网站,这里我们就需要使用自动化测试工具来模拟浏览器的运行将数据通过浏览器渲染出来获取。因此,可以看出模拟浏览器的功能用到爬虫开发上是非常有效的。可以帮助我们像获取普通网站的数据那样直接获取到我们想要的数据。但是他也有他的缺点

win10部署django项目

在写本篇博文前已经记录了在linux系统上的Django部署方法,通常linux的系统部署是最常见的,因为现在很多的公司都需要使用linux进行项目开发及项目的上线部署。但是也会存在一些公司是基于windows系统进行开发的,如c#的开发,很多都是在windows系统开发并部署的,写这篇博客的原因在于,公司使用的线上系

字体反爬虫破破解

现在的很多的企业对数据的重视程度逐步提高,很多公司在自己的网站上对联系人的信息进行各种的反爬虫的处理,一方面是防止爬虫的无休止的采集,另一方面是不希望自己网站 的联系方式别复制粘贴,本次博客记录是一种在网站使用对数字加密反爬虫的方式,预防一定的爬虫直接获取到网站的联系人数据,博客记录紧紧是作为技术分享的初衷. 如