爬虫 - Linux.cn Archive

Python 中的 Beautiful Soup 库可以很方便的从网页中提取 HTML 内容。

Scrapy 在树莓派上面的性能并不差，或许这是 ARM 架构服务器的又一个成功例子？

CommandlineFu 是一个记录脚本片段的网站，每个片段都有对应的功能说明和对应的标签。我想要做的就是尝试用 shell 写一个多进程的爬虫把这些代码片段记录在一个 org 文件中。

作为一个狂热的互联网人，你在生活中一定遇到过网络爬虫（Web Crawler）这个词。那么什么是网络爬虫，谁使用网络爬虫？它是如何工作的？让我们在本文中讨论这些。

运用这些很棒的 Python 爬虫工具来获取你需要的数据。

在最后一个阶段，我们将使用 Python 标准库“asyncio”中功能完整的协程，并通过异步队列完成这个网络爬虫。

然后，由于 Python 的协程不仅有效而且可扩展，我们将用 Python 的生成器函数实现一个简单的协程。

首先，我们会实现一个事件循环并用这个事件循环和回调来勾画出一只网络爬虫。它很有效，但是当把它扩展成更复杂的问题时，就会导致无法管理的混乱代码。

Python 3 的 urllib 模块是一堆可以处理 URL 的组件集合。如果你有 Python 2 的知识，那么你就会注意到 Python 2 中有 urllib 和 urllib2 两个版本的模块。这些现在都是 Python 3 的 urllib 包的一部分。

问题：我注意到有一些机器人经常访问我的nginx驱动的网站，并且进行一些攻击性的扫描，导致消耗掉了我的网络服务器的大量资源。我一直尝试着通过用户代理符串来阻挡这些机器人。我怎样才能在nginx网络服务器上阻挡掉特定的用户代理呢？现代互联网滋生了大量各种各样的恶意机器人和网络爬虫，比如像恶意软件机器人、垃圾邮件程序或内容刮刀，这些恶意工具一直偷偷摸摸地扫描你的网站，干些诸如检测潜在网站漏洞、收获电子邮件地址，或者只是从你的网站偷取内容。大多数机器人能够通过它们的用户代理签名字符串来识别。作为第一道防线，

这是一款提取网站数据的开源工具。Scrapy框架用Python开发而成，它使抓取工作又快又简单，且可扩展。我们已经在virtual box中创建一台虚拟机（VM）并且在上面安装了Ubuntu 14.04 LTS。安装 Scrapy Scrapy依赖于Python、开发库和pip。Python最新的版本已经在Ubuntu上预装了。因此我们在安装Scrapy之前只需安装pip和python开发库就可以了。 pip是作为python包索引器easy_install的替代品，用于安装和管理Python包。pip包的安装可见图 1。 sudo apt-get install python-pip 图:1 pip安装我们必须要用下面的命令安装python开发库。如果包

爬虫

Python Beautiful Soup 刮取简易指南

x86 和 ARM 的 Python 爬虫速度对比

使用 shell 构建多进程的 CommandlineFu 爬虫

什么是网络爬虫？网络爬虫如何工作？

三种 Python 网络内容抓取工具与爬虫

一个使用 asyncio 协程的网络爬虫（三）

一个使用 asyncio 协程的网络爬虫（二）

一个使用 asyncio 协程的网络爬虫（一）

Python 学习：urllib 简介

Linux有问必答：nginx网络服务器上如何阻止特定用户代理（UA）

如何在Ubuntu 14.04 LTS安装网络爬虫工具：Scrapy