Python

python爬虫之分析Ajax请求抓取抓取今日头条街拍美图(七)

1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏。  2.按F12打开开发者工具,刷新网页,这时网页回弹到综合这一栏,点击图集,在开发者工具中查看XHR这个选项卡。    3.具体分析url,请求参数当我们在请求图集这个页面时,url如下:&...

Python爬虫之Beautiful Soup解析库的使用(五)

 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/software/BeautifulSoup/安装:pipinstallbeautifulsoup4 soup=BeautifulSoup(html_doc,'html.parser&lsquo...

Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)

一.首先我们先分析下网页结构 可以看到第一页的URL和第二页的URL的区别在于offset的值,第一页为0,第二页为10,以此类推。    二.<dd>标签的结构(含有电影相关信息)  三、源代码importrequestsimportr...

Python爬虫之正则表达式的使用(三)

 re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none参数介绍:pattern:正则表达式string:匹配的目标字符串flags:匹配模式 正则表达式的匹配模式:  importrecontent='hello12345...

python模块中sys.argv[]使用

一、sys模块sys是Python的一个「标准库」,也就是官方出的「模块」,是「System」的简写,封装了一些系统的信息和接口。官方的文档参考:https://docs.python.org/2/library/sys.html中文版文档参考:http://xukaizijian.blog.163.com/blog/...

Python之subprocess模块

subprocess模块允许你启动一个新的进程,连接输入/输出/错误的管道, 获得子进程的返回码。这个模块目标是代替一些老的模块,比如os.system和os.spawn. subprocess模块中的常用函数函数描述subprocess.run()Python3.5中新增的函数。执行指定的命令,等...
代码星球·2020-04-22

python+selenium基础之XPATH定位(第一篇)

世界上最远的距离大概就是明明看到一个页面元素站在那里,但是我却定位不到!!selenium定位元素的方法有很多种,像是通过id、name、class_name、tag_name、link_text等等,但是这些方法局限性太大,拿id属性来说,首先一定不会每个元素都有id属性,其次元素的id属性也不一定是固定不变的。所以...

自学Python要学多久可以学会?

如果是自学,从零基础开端学习python的话,按照每个人理解能力的不同,大致上需求半年到一年半左右的时刻,当然,如果有其它编程言语的经历,入门还是比较快的,大概需求2~3个月可以用Python言语编写一些简单的使用,只要进行体系的学习,才能更好的掌握Python技能。初学者有什么不懂的可以私信我—&mdas...

numba,让python速度提升百倍

python由于它动态解释性语言的特性,跑起代码来相比java、c++要慢很多,尤其在做科学计算的时候,十亿百亿级别的运算,让python的这种劣势更加凸显。办法永远比困难多,numba就是解决python慢的一大利器,可以让python的运行速度提升上百倍!numba是一款可以将python函数编译为机器代码的JIT...

python模块--hashlib

用于加密相关的操作,3.x里代替了md5模块和sha模块,主要提供SHA1,SHA224,SHA256,SHA384,SHA512,MD5算法1importhashlib2m=hashlib.md5()34m.update("hello".encode("utf8"))#5d41402abc4b2a76b9719d91...
代码星球·2020-04-18

python模块--config

一、创建文件1##-----------------创建数据表--------------------------2importconfigparser3config=configparser.ConfigParser()45config["DEFAULT"]={6'ServerAliveInterval':'45',...
代码星球·2020-04-18

python模块--re模块

一、就本质而言,正则表达式(或re)是一种小型的、高度专业化的编程语言,(在python中)它内嵌在python中,并通过re模块实现。正则表达式模式被编译成一系列得字节码,然后由用c语言编写的匹配引擎执行。字符匹配(普通字符,元字符):1普通字符:大多数字符和字母都会和自身匹配   &n...
代码星球·2020-04-18

python模块--logging

1importlogging23logging.debug('debugmessage')4logging.info('ingomessage')5logging.warning('warningmessage')6logging.error('errormessage')7logging.critical('crit...
代码星球·2020-04-18

python模块--os模块、sys模块

一、os模块1os.getcwd()获取当前工作的目录,即当前python脚本工作的目录路径23os.chdir("dirname")改变当前脚本的工作目录;相当于shell下cd45os.curdir返回当前目录:('.')67os.pardir获取当前目录字符串名:('..')89os.makedirs('dirn...
代码星球·2020-04-18

python模块--os模块的用法

1os.getcwd()获取当前工作的目录,即当前python脚本工作的目录路径23os.phdir("dirname")改变当前脚本的工作目录;相当于shell下cd45os.curdir返回当前目录:('.')67os.pardir获取当前目录字符串名:('..')89os.makedirs('dirname1/d...
代码星球·2020-04-18