Scrapy框架学习——命令行工具

发表于2021-03-09|更新于2021-03-09|Python

|总字数:305|阅读时长:1分钟|浏览量:

全局命令<不需要要项目，在命令行中直接运行>：

scrapy startproject myproject

- 创建一个名为myproject的scrapy项目

scrapy genspider [-t template] <name> <domain>

- 创建一个新的spider(-l 列出spider的模板，-d 查看模板的内容 -t 使用这个模板)

scrapy -h

- 查看所有可用的命令

scrapy crawl <spider>

- 使用spider进行爬虫

scrapy check [l] <spider>

- 运行contract检查

scrapy list

- 列出所欲可能的spider

scrapy edit <spider>

- 使用设定的编辑器编辑spider

scrapy fetch <url>

- 使用scrapy下载器Downloader下载给定的URL，并将获取到的内容标准输出

scrapy view <url>

- 用来查看spider获取到的页面，因为可能spider获取到的页面跟想要的不同。

scrapy shell [url]

-scrapy 终端，能够使用scrapy内部命令对url返回的内容进行操作。

scrapy parse <url> [options]

- 获取给定的URL并使用相应的spider分析处理。

scrapy settings [options]

- 获取scrapy的设定。

scrapy runspider <spider_file.py>

- 在未创建项目的情况下，运行在一个编写在python文件中的spider

scrapy -version [-v]

- 输出scrapy版本

scrapy deploy []

- 将仙姑部署到scrapyd服务。

scrapy bench

- 运行benchmark测试。

文章作者: Estom

文章链接: https://estom.github.io/2021/03/09/Python/Scrapy/Scrapy%E6%A1%86%E6%9E%B6%E5%AD%A6%E4%B9%A0%E2%80%94%E2%80%94%E5%91%BD%E4%BB%A4%E8%A1%8C%E5%B7%A5%E5%85%B7/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Estom的博客！

使用进行模板

相关推荐

Django——关于URL分组匹配问题

**基本原则说明：** - Django会一次匹配列表中的每个URL模式，在遇到第一个请求的URL相匹配的模式时停下来 - 分组传参包括以下内容： - 一个HttpRequest实例。 - 如果正则表达式是无名组，那么正则表达式所匹配的内容将作为位置参数提供给视图。 - 如果正则表达式是命名组，那么正则表达式所匹配的内容将作为关键参数提供给视图。 - 对于GET、POST请求本身的参数不进行匹配。作为扩展参数kwargs提供给视图。 - 如果请求的URL没有匹配到任何一个正则表达式，或者匹配过程中抛出异常，会进行相应的错误处理。分组参数关键参数 **匹配分组算法说明：** \> 分组对应参数，是如何传递参数的过程；匹配分组算法，是如何匹配字符串的过程。 - 如果有命名参数，则使用命名参数，忽略非命名参数。 - 否则，将以位置参数传递所有的非命名参数。 - 所有的匹配结果都是字符串能够通过url函数额外传递多个参数。终于他妈的明白这种关键参数和位置参数的意思了：关键...

21_Unsupervised Learning Neighbor Embedding

Unsupervised Learning: Neighbor Embedding 本文介绍了非线性降维的一些算法，包括局部线性嵌入LLE、拉普拉斯特征映射和t分布随机邻居嵌入t-SNE，其中t-SNE特别适用于可视化的应用场景 PCA和Word Embedding介绍了线性降维的思想，而Neighbor Embedding要介绍的是非线性的降维 Manifold Learning样本点的分布可能是在高维空间里的一个流行(Manifold)，也就是说，样本点其实是分布在低维空间里面，只是被扭曲地塞到了一个高维空间里地球的表面就是一个流行(Manifold)，它是一个二维的平面，但是被塞到了一个三维空间里在Manifold中，只有距离很近的点欧氏距离(Euclidean Distance)才会成立，而在下图的S型曲面中，欧氏距离是无法判断两个样本点的相似程度的而Manifold Learning要做的就是把这个S型曲面降维展开，把塞在高维空间里的低维空间摊平，此时使用欧氏距离就可以描述样本点之间的相似程度 Locally Linear Embedding局部线性嵌入，l...

Docker Docker 一、解决的问题二、与虚拟机的比较三、优势四、使用场景五、镜像与容器参考资料一、解决的问题由于不同的机器有不同的操作系统，以及不同的库和组件，在将一个应用部署到多台机器上需要进行大量的环境配置操作。 Docker 主要解决环境配置问题，它是一种虚拟化技术，对进程进行隔离，被隔离的进程独立于宿主操作系统和其它隔离的进程。使用 Docker 可以不修改应用程序代码，不需要开发人员学习特定环境下的技术，就能够将现有的应用程序部署在其它机器上。二、与虚拟机的比较虚拟机也是一种虚拟化技术，它与 Docker 最大的区别在于它是通过模拟硬件，并在硬件上安装操作系统来实现。启动速度启动虚拟机需要先启动虚拟机的操作系统，再启动应用，这个过程非常慢；而启动 Docker 相当于启动宿主操作系统上的一个进程。占用资源虚拟机是一个完整的操作系统，需要占用大量的磁盘、内存和 CPU 资源，一台机器只能开启几十个的虚拟机。而 Docker 只是一个进程，只需要将应用以及相关的组件打包，在运行时占用很少的资源，一台机器可以开启成千...

10 最佳实践_springboot

SpringBoot如何接入Prometheus micrometer 是springboot项目的一个exporter 0 概述背景介绍收集监测数据。行业常见的收集监测数据方式主要分为推送（Push）和抓取（Pull）两个模式。以越来越广泛应用的Prometheus监测体系举例，可观测监控 Prometheus 版就是以抓取（Pull）模式运行的典型系统。应用及基础设施的监测数据以OpenMetrics标准接口的形式暴露给可观测监控 Prometheus 版，然后由可观测监控 Prometheus 版进行定期抓取并长期存储。 OpenMetrics，是云原生、高度可扩展的指标协议。 OpenMetrics定义了大规模上报云原生指标的事实标准，并支持文本表示协议和Protocol Buffers协议，文本表示协议在其中更为常见，也是在可观测监控 Prometheus 版进行数据抓取时默认采用的协议。指标的数据模型由指标（Metric）名，以及一组Key/Value标签（Label）定义的，具有相同的度量名称以及标签属于相同时序集合。例如acme_http_rou...

2.4. 双聚类校验者: @udy @barrycg翻译者: @程威 Biclustering(双向聚类) 的实现模块是 sklearn.cluster.bicluster。双向聚类算法对数据矩阵的行列同时进行聚类。而这些行列的聚类称之为双向簇(biclusters)。每一次聚类都会基于原始数据矩阵确定一个子矩阵, 并且这些子矩阵具有一些需要的属性。例如, 给定一个矩阵 (10, 10) , 如果对其中三行二列进行双向聚类，就可以获得一个子矩阵 (3, 2)。 123456789>>> import numpy as np>>> data = np.arange(100).reshape(10, 10)>>> rows = np.array([0, 2, 3])[:, np.newaxis]>>> columns = np.array([1, 2])>>> data[rows, columns]array([[ 1, 2], [21, 22]...

plot_solarizedlight2

Solarized Light样式表这显示了一个“Solarized_Light”样式的示例，它试图复制以下样式： http://ethanschoonover.com/solarized https://github.com/jrnold/ggthemes http://pygal.org/en/stable/documentation/builtin_styles.html#light-solarized 并且: 使用调色板的所有8个重音 - 从蓝色开始进行: 为条形图和堆积图创建Alpha值。 .33或.5 应用布局规则 123456789101112131415161718import matplotlib.pyplot as pltimport numpy as npx = np.linspace(0, 10)with plt.style.context('Solarize_Light2'): plt.plot(x, np.sin(x) + x + np.random.randn(50)) plt.plot(x, np.sin...

数据加载中