DrissionPage框架应用

DrissionPage框架应用 Scrapy框架可以自定义请求,我们经常使用的selenium,pypuppteer,playwight等模拟浏览器的环境执行网络的请求;但是以上都有被检测的风险,新晋浏览器防检测工具,不仅不需要繁琐的安装浏览器的内核,也不需要为浏览器升级后带来的版本不支持烦劳了。它可以自动调用

Scrapyd中报FileNotFoundError

scrapyd中scrapy项目报如下路径错误 with open(f'{os.getcwd()}/fonts/__font__{ttf_id}.ttf', 'wb') as f: FileNotFoundError: [Errno 2] No such file or di

Scrapy:No module named 'h2'

Scrapy 运行报如下的错误:scrapy.exceptions.NotSupported: Unsupported URL scheme 'https': No module named 'h2' File "/usr/local/lib/python3.9/si

Maxkb玩转大语言模型

Maxkb玩转大语言模型 随着国外大语言模型llama3的发布,搭建本地个人免费“人工智能”变得越来越简单,今天博主分享使用Max搭建本地的个人聊天式对话及个人本地知识域的搭建。 1.安装Maxkb开源应用 github docker快速安装 docker run -d

如何利用pandas解析html的表格数据

我们在编写爬虫的过程中,经常使用的就是parsel、bs4、pyquery等解析库。在博主的工作中经常的需要解析表格形式的html页面,常规的写法是,解析table表格th作为表头,解析td标签作为表格的行数据 。循环tr标签生成一个列表,在与th做映射整理称字典的格式,存入list中。那么有一种更为方便的方法就是使用

python如何发布自己开发的库

日常工作中我们自己会编写许多的python 函数用来处理特定的事情,在我的工作中就有这样的一个函数,专门用来检测化合物的唯一标识符CAS NO是否符合国际的标准。在工作中使用的很频繁,而且又是通用型的检测方法,因此我想把这个库封装一下并发布到pypi上面,方便我部署的时候可以直接下载,也减少了我的项目代码的量及复杂度。

带有html标签的文本转成docx文档

项目需求将已采集的网页富文本转成docx文档,提供客户使用; 首先确认下python怎么生成docx文档 安装python 处理docx的库 pip install python-docx  使用python 生成docx文档 f

Django日志输出到log文件的重要性

Django开发web系统,以前自己做些小工具的时候对日志不够重视,但是当我们将做的系统工具给别人用的时候,一切都正常还好,一但存在数上传或者客户说上传了数据但是后台却没有对该数据的处理的数据,这时候我们想排查错误的时候就会变得非常的困难,甚至没有任何的办法拿出证明程序没有问题的情况,这个时候就需要日志作为我们排查问题

CrawlSpace爬虫部署框架介绍

全新的爬虫部署框架,为了适应工作的爬虫部署的使用,需要自己开发一个在线编写爬虫及部署爬虫的框架,框架采用的是Django2.2+bootstap依赖scrapyd开发的全新通用爬虫在线编辑部署及scrapy项目的部署框架。项目实现的五大块的功能及许多在维护爬虫的过程中用的许多实用的操作功能。 首页通用爬虫的模块编

docker 安装filebeat收集日志到es

使用docker安装部署filebeat采集日志并发送给elasticsearch,为什么使用docker安装呢,原因在于win10上面安装 的没有成功,下载了安装包到win10解压后,配置都完成了但是运行winservice的时候却没有成功,导致只能cmd下,以命令行的方式运行,但是终究不是好的办法,于是就想到了使用