基于flask开发VPS切换IP接口

现在在工作中时常需要购买并使用VPS进行数据的采集,使用vps的原因在于他就是提供一台虚拟主机,可以通过拨号的方式方便我们切换代理IP.现在的代理平台都是需要实名制的,曾经淘宝可以买到不实名的,但现在买不到了。使用它就好比使用一台电脑一样,需要给他配置拨号上网的账号和密码。那么我们做采集的都知道,数据采集会被目标网站封

windows安装golang

golang一门现在非常火的语言,他的应用和python一样也是十分的广泛,例如:后端开发、爬虫开发、云原生开发等。我前段时间也学习了一遍golang的语言基础,我之前大学期间也学过c、c++、java。golang语法的关键词很多都是以前我们使用过的,甚至意思都一样,唯有一些改变用法是凸显的他的不一样。例如他的变量的

Scrapy对接Selenium

在我们的爬虫中会遇到异步的爬虫我们可以通过抓包获取接口直接请求获取数据。也会遇到纯JS加载的数据网站,这里我们就需要使用自动化测试工具来模拟浏览器的运行将数据通过浏览器渲染出来获取。因此,可以看出模拟浏览器的功能用到爬虫开发上是非常有效的。可以帮助我们像获取普通网站的数据那样直接获取到我们想要的数据。但是他也有他的缺点

win10部署django项目

在写本篇博文前已经记录了在linux系统上的Django部署方法,通常linux的系统部署是最常见的,因为现在很多的公司都需要使用linux进行项目开发及项目的上线部署。但是也会存在一些公司是基于windows系统进行开发的,如c#的开发,很多都是在windows系统开发并部署的,写这篇博客的原因在于,公司使用的线上系

字体反爬虫破破解

现在的很多的企业对数据的重视程度逐步提高,很多公司在自己的网站上对联系人的信息进行各种的反爬虫的处理,一方面是防止爬虫的无休止的采集,另一方面是不希望自己网站 的联系方式别复制粘贴,本次博客记录是一种在网站使用对数字加密反爬虫的方式,预防一定的爬虫直接获取到网站的联系人数据,博客记录紧紧是作为技术分享的初衷. 如

破解CSS偏移量反爬虫

css偏移量反爬虫,之前有写过并分析了js的加密的逆向破解,本篇博文主要记录的是对于css进行反爬虫的实现过程,写这篇博文的初衷在于,这个网站我很早就知道,但是一直没有时间去整理并详细记录破解的过程,由于工作比较忙,时间久了就会发现之前很多做过的东西记不清了,甚至和别人说的时候都有些记不清具体内容,可能学习语言就是这样

JS逆向破解详情信息加密

爬虫JS逆向分析,之前有文章分析了js逆向网站的加密是参数,本次破解的是常见的一种对返回结果进行加密的JS逆向分析,本次破解的网站的初衷是在于我经常看到有说这家网站的,在爬虫界流传很久的,作为一名爬虫专业户来说,自然不会放过它,因此自己就写下本篇博文记录一下破解的过程。本文内容为原创,在此之前没有看到过有如此图文并茂的

逆向反调试及参数加密

爬虫分析常见的反爬虫的方式很多,但是比较有难度,有区分度的技术当属JS逆向分析的参数加密,或者数据加密。本篇博客记录的是博主本人在工作中实际碰到的请求POST参数进行了加密情况,使用的加密方式是base64的方式并且代码中还存在混淆代码的处理。以及反调试。这里的加密是对post请求进行的加密。详细记录本次的破解过程,毕

NodeJs破解AES参数加密

爬虫分析常见的反爬虫的方式很多,但是比较有难度,有区分度的技术当属JS逆向分析的参数加密,或者数据加密。本篇博客记录的是博主本人在工作中实际碰到的请求参数进行了加密情况,使用的加密方式是对称加密AES的方式(不知道AES是啥也不重要,毕竟我们是做爬虫的只要将最后的结果逆向还原出来,至于深入研究如何实现应该是做密码学的该

文本生成词云图wordcloud

本片文章记录的是帮助农业专业的研究生做一篇关于中国农业政策的毕业发表论文,论文要求对之一是对每个省的农业政策进行词云图的实现,以便直观看出来每篇政策中的出现频率比较高的关键词,以便帮助她进行比较出不同及相同的一些特点。这里记录了使用中文分词对文章进行处理并分词,最后生成词云图。 1.安装  jieba