数据提取概念和数据的分类

数据提取

介绍

用网络获取的数据中提取出想要的数据。

概要

  • 数据提取概念和数据的分类
  • 使用 json 模块提取数据
  • 使用正则表达式提取数据
  • 使用 xpath 提取数据
  • 使用 beautifulsoup 提取数据
  • jsoncsv 数据转换

数据提取概念和数据的分类

什么是数据提取

简单的来说,数据提取就是从响应中获取我们想要的数据的过程

数据的种类

构化数据
  • 数据类型
  • json 格式数据
    {
    "name":"hello",
    "age":18,
    "parents":{
    "mother":"妈妈",
    "father":"爸爸"
    }
    }
  • xml 格式数据
    <bookstore>
    <book category="COOKING">
    <title lang="en">Everyday Italian</title>
    <author>Giada De Laurentiis</author>
    <year>2005</year>
    <price>30.00</price>
    </book>
    <book category="CHILDREN">
    <title lang="en">Harry Potter</title>
    <author>J K. Rowling</author>
    <year>2005</year>
    <price>29.99</price>
    </book>
    <book category="WEB">
    <title lang="en">Learning XML</title>
    <author>Erik T. Ray</author>
    <year>2003</year>
    <price>39.95</price>
    </book>
    </bookstore>
  • 处理方式
    通过 json 模块等直接转成 Python 数据类型
非结构化数据
  • 数据类型
    • html 格式数据
    • word 格式数据
  • 处理方式
    通过 正则表达式xpathbeautifulsoup 等模块提取数据

总结

  • 数据提取 从网络获取数据中提取想要的数据
  • 数据的种类
    • 结构化数据
    • json
    • xml
  • 非结构化数据
    • html
    • word