微信公众号数据采集
发表时间:2020-10-19
发布人:葵宇科技
浏览次数:41
目录
一、采集公众号文章URL
1.运行环境
1.Webdriver
2.python运行环境
3.cx-oracle
4.lxml
5.注册一个微信公众号
2.采集文章连接
1.配置config.txt
2.启动程序
二、采集文章详细信息
1.配置detail_config.txt
2.启动程序
三、数据
1.数据库
2.Execl
最近统计感兴趣的公众号的阅读数据,这篇文章就记录一下实现过程。本文只用于学习交流,请勿他用。
一、采集公众号文章URL
本程序主要考虑是在window下运行,在运行之前,请确保已有python的基本运行环境,以及相关的python插件。
1.运行环境
1.Webdriver
确保window环境有google浏览器,如果你所使用的google浏览器版本不知支持程序中所提供的webdriver,有以下解决方式:
一是下载自己电脑中google浏览器版本所对应的webdriver
二是安装文件中提供的gongle浏览器
三是自己查找其他浏览器的对应的webdriver(这里不建议这么做,除非自己能搞定遇到的问题)
2.python运行环境
python版本>=3.6
3.cx-oracle
版本 5.3这个版本对应服务器上的oracle数据库版本11g,其他版本连接不上
pip install oracle==5.3
4.lxml
execl文件操作需要的插件
pip install lxml
5.注册一个微信公众号
用已有的也行
2.采集文章连接
1.配置config.txt
这个文件可以配置多个公众号,程序会将所配置的公众号的文章url采集下来,注意格式为:
每个公众号一行
公众号名 起始时间 结束时间
即需要采集的公众号名称,采集的开始时间,结束时间,以空格隔开,程序只会保存起始时间,结束时间内的文章数据。
2.启动程序
点击JZTravel_Artical_Url.bat,微信扫一扫,登录自己的微信公众号,登录成功后,会进入微信公众号页面,不要关闭这个页面,因为程序会自动将这个页面退出,页面退出后程序将采集文章url。
程序运行结束后,会在data文件夹下产生相应的文件,里面保存着需要采集的微信公众号文章的url。
注意:登录过程中,可能出现以下报错,不用急,这可能是当前网络问题,导致页面上的数据加载不全导致,重试几次就行。
二、采集文章详细信息
1.配置detail_config.txt
采集公众号详情的配置文件
注意:由于cookie的原因,这个文件只能配置一个公众号信息,并且这个需要采集的公众号必须和cookie中的连接对应,格式为
公众号名称|数据保存方式
即需要采集的公众号,保存方式,以”|”分开,包存方式有三种,xls—保存为execl,oracle—保存到oracle数据库,other—同时保存到execl文件和Oracle数据库。根据实际选择需要。
2.启动程序
点击JZTravel_Artical_Detail.bat,程序将自动采集文章的详细数据。
注意:
报错一:程序出现以下错误时,不会影响采集程序,也不会影响采集结果
报错二:程序出现以下错误时,是cookie失效导致的,需要从新导入cookie数据,不用担心,已经采集过的文章数据,不会重复采集。
报错三:程序出现以下错误时,是爬虫程序写入的Excel文件被打开了,需要关闭文件重新启动程序,也就是说,爬虫采集的过程中是不能打开execl文件的。
三、数据
考虑到实际运行爬虫的网络环境,这里采用数据多重备份。包括数据本地文件备份和数据库备份。
1.数据库
2.Execl
按照采集日期分开保存。
本文只用于学习交流,请勿他用。技术支持,扣扣:3165845957