爬虫数据处理之xpath

学习xpath的使用

什么是xml

  • XML 指可扩展标记语言(EXtensible Markup Language)
  • XML 是一种标记语言,很类似 HTML
  • XML 的设计宗旨是传输数据,而非显示数据
阅读更多
爬虫数据处理之json

处理爬虫中得到的json数据

由于把json数据转化为python内建数据类型很简单,所以爬虫中,如果我们能够找到返回json数据的URL,就会尽量使用这种URL

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。

阅读更多
爬虫数据处理之正则

#简单介绍一个强大的工具 正则表达式

什么是正则表达式?

正则表达式的定义:
就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个”规则字符串”,这个”规则字符串”用来表达对字符串的一种过滤逻辑。(简要言之就是筛选,获得我们想要的信息)

阅读更多
requests库的介绍和实例使用

requests 库的使用

温馨提示 使用之前请确保命令行 pip install requests 安装好requests库

阅读更多
爬虫基本概念

爬虫基本概念

爬虫的定义

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
只要是浏览器能做的事情,原则上,爬虫都能够做。

阅读更多