scrapy视频学习

发表于2021-03-09|更新于2021-03-09|Python

|总字数:540|阅读时长:1分钟|浏览量:

spider 的使用说明：

继承scrapy.spider

name spider的名字

start_urls初始链接

request 发送请求并且捕获相应，通过回调函数parse处理response相应

request函数能够发送请求，request函数需要一个回调函数，来接受请求。默认的request函数调用了parse，但是在多次request中，需要设置不同的parse函数，来处理多次请求

python
回调函数的意思就是在一个函数的某个地方通过一个函数指针，调用另外一个函数，使得函数跳转。因为python是脚本，所以，在没有返回值的python函数执行时，如果函数跳转到其他地方，并不会返回一个值到原来的地方。

轮换useragent的目的：

当你使用同一个浏览器的时候（同一个useragent）会因为过度浪费服务器资源而被禁掉。

scrapy的一些内置特性：

scrapy内置的数据抽取其：css/xpath/re

scrapy内置结果的输出：csv,xml,json

自动处理编码

有丰富的内置扩展

cookies session 客户端和服务器端的缓存机制

Http features：compression，authentication，caching

user-agent spoofing轮换useragent（用户代理的意思浏览器的类型）

robots.txt 网站中用来告诉爬虫那些资源时可以被访问的，哪些资源时不能被访问的。

crawl depth restriction 限制爬去的深度

itme Pipeline的作用：

清洗HTML数据

验证抓取到的数据

检查是否存在重复

存储抓取到的数据到数据库中。

关于parse分析response后返回值的问题：

如果parse的返回值是一个request，将进行更深层侧的爬虫抓去。

如果parse的返回值是一个item，则程序的执行权就会交个itempipeline，然后pipeline负责处理返回的item对象。包括这些item对象是否合理。

一个简单爬虫的具体分析步骤：

创建工程

编写item用来结构化分析数据使用

编写spider用来爬去具体的网站

编写和配置pipeline，主要实现对生成的item的处理

调试运行代码

文章作者: Estom

文章链接: https://estom.github.io/2021/03/09/Python/Scrapy/scrapy%E8%A7%86%E9%A2%91%E5%AD%A6%E4%B9%A0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Estom的博客！

使用函数内置

相关推荐

01神经网络基础

神经网络基础介绍神经网络的编程基础。看完视频，在总结这一部分。每一个视频，完成开始做笔记。 1 识别图片上的猫问题定义场景定义：监督学习。图像识别领域。非结构化数据输入。问题定义：分类问题。算法定义：logistics回归。问题描述输入的特征向量：$x \in R^{n_x}$，其中 ${n_x}$是特征数量；输出的标签，用于训练的标签：$y \in 0,1$ 训练集：${(x^{(1)},y^{(1)}),\dots,(x^{(m)},y^{(m)})}$紧凑矩阵表示训练集。约定使用列向量。 2 Logistic回归模型 Logistic 回归是一个用于二分分类的算法。模型定义-假设函数权重：$w \in R^{n_x}$ 偏置： $b \in R$ 输出：$\hat{y} = \sigma(w^Tx+b)$ Sigmoid 函数：$$s = \sigma(w^Tx+b) = \sigma(z) = \frac{1}{1+e^{-z}}$$ 将 $w^Tx+b$ 约束在 [0, 1] 间...

boxplot_demo_pyplot

Boxplot 演示boxplot 的代码示例。 123456789101112import numpy as npimport matplotlib.pyplot as plt# Fixing random state for reproducibilitynp.random.seed(19680801)# fake up some dataspread = np.random.rand(50) * 100center = np.ones(25) * 50flier_high = np.random.rand(10) * 100 + 100flier_low = np.random.rand(10) * -100data = np.concatenate((spread, center, flier_high, flier_low)) 123fig1, ax1 = plt.subplots()ax1.set_title('Basic Plot')ax1.boxplot(data) 123fig2, ax2 = plt.subplots()ax2.set...

04 数学计算

1 MathMath类Java 的 Math 包含了用于执行基本数学运算的属性和方法，如初等指数、对数、平方根和三角函数。 Math中的常量 Math.PI 记录的圆周率 Math.E 记录e的常量 Math中的函数三角函数 Math.sin 正弦函数 Math.asin 反正弦函数 Math.cos 余弦函数 Math.acos 反余弦函数 Math.tan 正切函数 Math.atan 反正切函数 Math.atan2 商的反正切函数 Math.toDegrees 弧度转化为角度 Math.toRadians 角度转化为弧度舍入函数 Math.abs 求绝对值 Math.ceil 得到不小于某数的最大整数 Math.floor 得到不大于某数的最大整数 Math.IEEEremainder 求余 Math.max 求两数中最大 Math.min 求两数中最小 Math.round 同上，返回int型或者long型（上一个函数返回double型）指数幂计算 Math.sqrt 求开方 Math.pow 求某数的任意次方, 抛出ArithmeticExceptio...

5. 数据集转换scikit-learn 提供了一个用于转换数据集的库, 它也许会 clean（清理）（请参阅预处理数据）, reduce（减少）（请参阅无监督降维）, expand（扩展）（请参阅内核近似）或 generate（生成）（请参阅特征提取） feature representations（特征表示）. 像其它预估计一样, 它们由具有 fit 方法的类来表示, 该方法从训练集学习模型参数（例如, 归一化的平均值和标准偏差）以及transform 方法将该转换模型应用于不可见数据. 同时 fit_transform 可以更方便和有效地建模与转换训练数据. 将 Pipeline（管道）和 FeatureUnion（特征联合）: 合并的评估器中 transformers（转换）使用并行的或者串联的方式合并到一起. 成对的矩阵, 类别和核函数涵盖将特征空间转换为 affinity matrices（亲和矩阵）, 而预测目标 (y) 的转换考虑在 scikit-learn 中使用目标空间的转换（例如. 标签分类）. 5.1. Pipeline（管道）和 Fea...

十、使用 Keras 搭建人工神经网络译者：@SeanCheney 鸟类启发人类飞翔，东洋参启发了魔术贴的发明，大自然启发人类实现了无数发明创造。通过研究大脑来制造智能机器，也符合这个逻辑。人工神经网络（ANN）就是沿着这条逻辑诞生的：人工神经网络是受大脑中的生物神经元启发而来的机器学习模型。但是，虽然飞机是受鸟儿启发而来的，飞机却不用挥动翅膀。相似的，人工神经网络和生物神经元网络也是具有不同点的。一些研究者甚至认为，应该彻底摒弃这种生物学类比：例如，用“单元”取代“神经元”，以免人们将创造力局限于生物学系统的合理性上。人工神经网络是深度学习的核心，它不仅样式多样、功能强大，还具有可伸缩性，这让人工神经网络适宜处理庞大且复杂的机器学习任务，例如对数十亿张图片分类（谷歌图片）、语音识别（苹果 Siri）、向数亿用户每天推荐视频（Youtube）、或者通过学习几百围棋世界冠军（DeepMind 的 AlphaGo）。本章的第一部分会介绍人工神经网络，从一个简单的 ANN 架构开始，然后过渡到多层感知机（MLP），后者的应用非常广泛（后面的章节会介绍其他的架构）。第二部分会介绍...

11 递归与迭代

递归与迭代。参考文献递归详解递归算法讲解递归算法的理解递归的本质由于递归与迭代的特殊性。在这里单独列出一种思想。递归与迭代思想，用来处理所有的重复的操作。如分治法的相同子操作、动态规划的相同子操作、深度优先搜索、广度优先搜索的相同子操作。 1 递归法概述基本思想直接或间接的调用自身的算法称为递归算法。用函数自身给出定义的函数称为递归函数。递归的基本思想就是把规模大的问题转化为规模小的相似的子问题来解决。递归的数学模型其实就是数学归纳法。可以用反向递推式表示递归的过程。（使用正向递推式表示循环的过程）线性收缩递归算法递推关系式 $$T(n)=\begin{cases} o(1) & n=1 \ \sum_{i=1}^k a_iT(n-i)+f(n) & n>1\end{cases}$$ 求解递推关系式$$T(n)=a^{n-1}T(1)+\sum_{i=2}^na^{n-i}f(i)$$ 关系式说明等比收缩递归算法递推关系式$$T(n)=\be...

数据加载中