python如何从网页获取json数据

Python如何从网页获取JSON数据：从基础到实践的完整指南

在当今数据驱动的时代,从网页获取JSON数据是Python开发者常见的任务之一，JSON（JavaScript Object Notation）因其轻量级、易读性和机器可解析性，成为Web API和数据交换的主流格式，Python内置了强大的json模块和urllib库，结合第三方库如requests，可以轻松实现从网页获取并解析JSON数据，本文将详细介绍从基础到进阶的多种方法，帮助您这一技能。

准备工作：理解JSON与网页数据交互

在开始之前,我们需要明确两个基本概念：

JSON数据格式：JSON是一种键值对集合的数据结构，类似于Python中的字典（dict）或列表（list）。{"name": "Alice", "age": 30, "hobbies": ["reading", "coding"]}。
网页数据获取：网页上的JSON数据通常通过HTTP请求传输，常见的方式包括：
- 直接访问API接口（如https://api.example.com/data），返回JSON格式数据；
- 网页HTML中内嵌的JSON脚本（如<script type="application/json">...</script>）；
- 动态加载的AJAX/XHR请求数据（需通过浏览器开发者工具定位）。

方法一：使用内置库`urllib`+`json`（基础入门）

Python内置的urllib.request模块用于发起HTTP请求，json模块用于解析JSON数据，无需安装额外库，适合简单场景。

发起HTTP请求并获取响应

from urllib.request import urlopen
import json
# 目标URL（示例：JSONPlaceholder测试API）
url = "https://jsonplaceholder.typicode.com/posts/1"
try:
    # 发起GET请求，获取响应对象
    with urlopen(url) as response:
        # 读取响应内容（字节流），解码为字符串
        json_data = response.read().decode('utf-8')
        # 解析JSON字符串为Python字典
        data = json.loads(json_data)
        # 打印解析后的数据
        print("标题:", data["title"])
        print("内容:", data["body"])
        print("用户ID:", data["userId"])
except Exception as e:
    print(f"请求失败: {e}")

关键步骤说明

urlopen(url)：发起GET请求，返回一个HTTPResponse对象，包含响应头、状态码和内容。
response.read().decode('utf-8')：读取响应内容（字节流），并解码为UTF-8字符串（若目标编码不同，需调整）。
json.loads(json_str)：将JSON格式字符串解析为Python对象（字典dict或列表list）。

优缺点

优点：无需安装第三方库，Python自带。
缺点：功能较基础，处理复杂请求（如带Headers、POST请求）时代码较繁琐；错误处理需手动捕获异常（如HTTP错误、JSON解析错误）。

方法二：使用第三方库`requests`（推荐首选）

requests是Python中最流行的HTTP库，以其简洁的API和强大的功能成为开发者的首选，需先安装：

pip install requests

基本GET请求与JSON解析

import requests
url = "https://jsonplaceholder.typicode.com/posts/1"
try:
    # 发起GET请求，timeout设置超时时间（秒）
    response = requests.get(url, timeout=5)
    # 检查HTTP状态码（200表示成功）
    response.raise_for_status()  # 若状态码非200，抛出HTTPError
    # 直接通过response.json()解析JSON（requests自动处理编码）
    data = response.json()
    print("标题:", data["title"])
    print("内容:", data["body"])
    print("状态码:", response.status_code)
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

常用场景扩展

（1）携带Headers和参数

# 带Headers的请求（模拟浏览器访问）
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}
params = {"userId": 1}  # URL参数：https://...?userId=1
response = requests.get(
    "https://jsonplaceholder.typicode.com/posts",
    headers=headers,
    params=params
)
data = response.json()
print(f"用户1的帖子数量: {len(data)}")

（2）POST请求（提交JSON数据）

# 向API提交JSON数据
url = "https://jsonplaceholder.typicode.com/posts"
payload = {: "测试标题",
    "body": "测试内容",
    "userId": 1
}
response = requests.post(url, json=payload)  # json参数自动设置Content-Type为application/json
print("POST响应:", response.json())

优缺点

优点：API简洁直观，自动处理编码、连接池、超时等；支持复杂请求（Headers、Cookies、文件上传等）；内置JSON解析（response.json()）。
缺点：需额外安装库（但开发效率提升显著）。

方法三：处理动态加载的JSON（AJAX请求）

有些网页的JSON数据并非直接通过HTTP响应返回,而是通过JavaScript动态加载（如AJAX/XHR请求），此时需通过浏览器开发者工具定位真实API地址。

定位动态API地址

以“豆瓣电影 Top250”为例（实际需注意合规性）：

打开浏览器开发者工具（F12），切换到“网络”（Network）标签；
刷新网页,筛选“XHR”或“Fetch”请求；
找到返回JSON数据的请求（如?start=0&limit=10），复制其Request URL。

使用`requests`获取动态数据

import requests
import time
# 豆瓣电影Top250 API（示例，实际可能需调整Headers）
url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Referer": "https://movie.douban.com/"  # 模拟从豆瓣主页访问
}
try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()
    data = response.json()
    # 打印前5部电影标题
    for movie in data["subjects"][:5]:
        print(f"电影: {movie['title']}, 评分: {movie['rate']}")
        time.sleep(0.5)  # 避免请求过于频繁
except Exception as e:
    print(f"获取动态数据失败: {e}")

注意事项

Headers伪装：动态请求常需携带User-Agent、Referer等Headers，否则可能被服务器拒绝。
频率限制：避免高频请求，必要时添加time.sleep()间隔，防止IP被封禁。
合规性：确保目标网站允许爬取数据，遵守其robots.txt协议。

错误处理与最佳实践

常见错误及解决方案

错误类型	原因	解决方案
HTTPError（如404、403）	URL错误、权限不足	检查URL是否正确；添加Headers伪装；确认API是否需认证
JSONDecodeError	非JSON格式	检查`Content-Type`是否为`application/json`；打印原始响应内容调试
ConnectionError/Timeout	网络问题或服务器无响应	设置`timeout`参数；重试机制（如`try-except`循环）
UnicodeDecodeError	编码问题	使用`response.content.decode('utf-8')`或指定正确编码

最佳实践

使用requests.Session：复用TCP连接，提高多次请求的效率（如登录后保持会话）。
设置合理的超时：避免因服务器无响应导致程序卡死（如timeout=10）。
日志记录：使用logging模块记录请求和错误信息，便于调试。
数据验证：解析JSON后，检查关键字段是否存在，避免KeyError。

从网页获取JSON数据是Python开发中的基础技能,本文介绍了三种主流方法：

**内置

正文

python如何从网页获取json数据