爬虫

索引站点流程

10个让网络爬虫顺利索引站点的方法

爬虫从页面抓取内容索引站点并使用这些页面上的链接来查找更多页面,这样便可以在互联网上找到更多内容。这里面涉及几个技术点:URL 来源:爬虫必须从某个地方开始。通常会创建一个列表(外链),列出他们通过页面找到的所有 URL;另外一个机制就是通过用户或具有页面列表的各种系统创建的站点地图来查找更多 URL。

sakura, cherry blossoms, spring-7091532.jpg

BeautifulSoup4 详细用法

一、 Beautiful Soup 安装 Beautiful Soup 提供一些简单的、Python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用 Beautiful Soup 4,不过它已经被移植到 BS4 了,也就是说导入时我们需要导入 bs4。 Beautiful Soup 支持 Py …

BeautifulSoup4 详细用法 阅读更多 »

land, mountain, nature-7082135.jpg

XPath 入门实例

XPath(XML Path Language),即 XML 路径语⾔,它是⼀⻔在 XML ⽂档中查找信息的语⾔。最初是⽤来搜寻 XML ⽂档的,但同样适⽤于 HTML ⽂档的搜索,所以在做爬⾍时完全可以使⽤ XPath 做相应的信息抽取。 1. XPath 概览 XPath 的选择功能⼗分强⼤,它提供了⾮常简洁明了的路径选择表达式。另外还提供了超过 100 个内建函数,⽤于字符串、数值、时间的匹配以及节点、序列的处理等,⼏乎所有想要定位的节点 都可以⽤ XPath 来选择。 …

XPath 入门实例 阅读更多 »

ukraine, flag, peace-7043528.jpg

Python Requests 库使用指南

Requests 库是用来发标准 HTTP 请求的包,将请求背后的复杂性抽象成一个漂亮,简单的 API,以便可以专注于与服务交互和在应用程序中使用数据。 一、Requests 安装 安装 requests 库,运行以下命令: 如果使用 Pipenv 管理 Python 包,可以运行下面的命令: 一旦安装了 requests 就可以在应用程序中像这样导入 requests : 二、GET 请 …

Python Requests 库使用指南 阅读更多 »

Scroll to Top