互联网络_第3633页_51dev.com it技术开发者社区

爬虫实战【5】送福利！Python获取妹子图上的内容

【插入图片，妹子图首页】哈，只敢放到这个地步了。今天给直男们送点福利，通过今天的代码，可以把你的硬盘装的满满的~下面就开始咯！假如我们知道某张图片的url，如何获取到这张图片呢？先看一下最简单的方法：【插入图片，单页url】我们获取到图片的内容，通过二进制流写入到文件中，并保存起来。这次偷懒啦，将所有图片都保存在当前目...

ymnets·2020-03-25

爬虫实战【4】Python获取猫眼电影最受期待榜的50部电影

前面几天介绍的都是博客园的内容，今天我们切换一下，了解一下大家都感兴趣的信息，比如最近有啥电影是万众期待的？猫眼电影是了解这些信息的好地方，在猫眼电影中有5个榜单，其中最受期待榜就是我们今天要爬取的对象。这个榜单的数据来源于猫眼电影库，按照之前30天的想看总数量从高到低排列，取前50名。我们先看一下这个表单中包含什么内...

ymnets·2020-03-25

爬虫实战【3】Python-如何将html转化为pdf(PdfKit)

前面我们对博客园的文章进行了爬取，结果比较令人满意，可以一下子下载某个博主的所有文章了。但是，我们获取的只有文章中的文本内容，并且是没有排版的，看起来也比较费劲。。。咋么办的？一个比较好的方法是将文章的正文内容转化成pdf，就不要考虑排版的事情了，看起来比较美观，也不会丢失一些关键信息。python中将html转化为p...

ymnets·2020-03-25

爬虫实战【2】Python博客园-获取某个博主所有文章的URL列表

首先，我们来分析一下，在博主的首页里，每个文章的标题在网页源码中是什么样子的。【插入图片，文章标题1】【插入图片，文章标题2】通过这两个图片我们可以看出，博文标题所在的标签为，并且具有class属性为"postTitle2"，其href属性就指向这篇博文的地址。如下面代码所示：<aid=&qu...

ymnets·2020-03-25

爬虫实战【1】使用python爬取博客园的某一篇文章

博客园比较适合爬虫初学者。我们第一个目标是爬取某个博主的所有博文。第一步，获取某一篇文章。第二步，获取该博主所有文章的url列表。第三步，下载所有文章。第一次实战，我们以博客园为例。Cnblog是典型的静态网页，通过查看博文的源代码，可以看出很少js代码，连css代码也比较简单，很适合爬虫初学者来练习。博客...

ymnets·2020-03-25

爬虫入门【8】Python连接MongoDB的用法简介

MongoDB是一种跨平台，面向文档的NoSQL数据库，提供高性能，高可用性并且易于扩展。包含数据库，集合，文档等几个重要概念。我们在这里不介绍MongoDB的特点和用法了，感兴趣的可以查一下官方文档。在此重点介绍如何使用python连接MongoDB，并通过PyMongo操作MongoDB数据库。这里默认MongoD...

ymnets·2020-03-25

爬虫入门【7】Python-文件的读写和JSON

最重要的open()方法将返回一个file对象，经常使用的两个参数为open(filename,mode)其中，filename为file保存的地址，可以是本地地址，相对地址或者绝对地址。mode对象为对file对象进行的操作'''对这个方法进行一些解释open(file,mode='r',buffering=None...

ymnets·2020-03-25

爬虫入门【6】Selenium用法简介

一句话，自动化测试工具。它支持各种浏览器，包括Chrome，Safari，Firefox等主流界面式浏览器。如果你在这些浏览器里面安装一个Selenium的插件，那么便可以方便地实现Web界面的测试。换句话说叫Selenium支持这些浏览器驱动。我们在Python里面安装Selenium的话，就可以调用浏览器来访问we...

ymnets·2020-03-25

爬虫入门【5】PyQuery简介

目前最新的版本是1.3，基于最新版本进行介绍。主要根据PyQuery的官方文档进行了更新。frompyqueryimportPyQueryaspqfromlxmlimportetreeimporturllibdoc=pq('<pid="hello"class="hello"...

ymnets·2020-03-25

爬虫入门【4】正则表达式用法简介

首先推荐使用r'string'来定义字符，免去转义字符的影响。#'.'，点号，在默认模式中，匹配任何一个字符，除了新的行newline。如果DOTALL标记指定了，那么还可以匹配newline。#'^'，匹配字符串的开始#'$'，匹配字符串的结束。比如foo匹配foo或者foobar，但是foo$只能匹配到foo。#'...

ymnets·2020-03-25

爬虫入门【3】BeautifulSoup4用法简介

首先创建一个我们需要解析的html文档，这里采用官方文档里面的内容：html_doc="""<html><head><title>TheDormouse'sstory</title></head><body><p...

ymnets·2020-03-25

爬虫入门【2】Requests库简介

使用Requests发送网络请求很简单#首先要导入requests库importrequests#返回一个Response对象r=requests.get('https://github.com/timeline.json')#由此可以看出来Requests的API十分简单，#post请求r=requests.post...

ymnets·2020-03-25

爬虫入门【1】urllib.request库用法简介

如何使用urllib库获取网络资料打开指定的URLurllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)url参数，可以是一个string，或者一个Request对象。d...

ymnets·2020-03-25

NumPy入门基础【2】

通用函数ufunc一元ufunc举例：1、abs、fabs：计算绝对值,fabs更快2、sqrt：计算各元素的平方根，相当于arr0.53、square：计算各元素的平方根，相当远arr24、exp：计算各元素的指数e的x次方...二元ufunc举例：1、add：将数组中对应的元素想加2、subtract：从第一个数组...

ymnets·2020-03-25

Pandas入门

主要包含两个数据结构，Series和DataFrameSeries类似于一维数组，有数据和索引。默认创建整数型索引。可以通过values和index获取数据和索引。frompandasimportSeries,DataFrameimportpandasaspdimportnumpyasnpobj=Series([4,7...

ymnets·2020-03-25