《爬虫日记》谈谈session和cookie
发表时间:2020-10-19
发布人:葵宇科技
浏览次数:54
我好像好久没有更新博客了,最近一直在肝代码和恶补网络方面的知识,国庆顺便提前体验了一下996的生活,其实没更新的原因很简单,不知道更新啥,js逆向现在到处都能找到,我自己也觉得没意思,后面想了想,可以跟大伙说说我自己在开发过程中遇到的一些问题,希望可以减少大家要走的弯路。(如果只是做简单的爬取内容的爬虫,下面的内容可能对你来说没有啥用)
关于session功能讨论最多的其实是cookie层面的应用,在做请求登录的时候,session会对cookie值进行更新,也就是会更新set-cookie的内容,还有写在js文件里面的一些cookie,在被请求的时候,会直接生成,所以你可能还找不到相对应得set-cookie
但是这里要说明的是,不是所有网站都是通过login的登陆包获取新cookie的,而且甚至会有一些网站直接不拿cookie做登录验证,这个时候session就会显得很无力,那么接下来我们就可以谈谈cookie了
有的网站cookie值非常的长,几百的字符长度随处可见,但是真实有效的其实只是其中的一小段或者几小段结合(这里就需要大家去测试了),之所以跟大家说这件事情,是因为我在刚做爬虫的时候,去把一大串cookie的全部内容都挨个去找,浪费了很多时间
这个时候我们再跳回session,就是因为cookie有效的成分很少,session的更新又是有限的,所以session不一定能获得到我们想要的cookie
之所以分享这些内容是希望大家不要太依赖session的功能了,其实有些东西可以做的更简便一点,多动动手尝试也许就能探索到新大陆,最后希望这篇日记能对大家有用,如果有机会我还是会继续更新下去的,也当是对自己成长的一种记录吧。