爬虫课程2

2022-05-01 442 0

json是轻量化数据交换格式,用于前后端分离的情景

以火狐浏览器来操作,在网络-XHR-响应里面可以看到类型

腾讯新闻是json格式,知乎热榜是html格式

import requests

url='https://i.news.qq.com/trpc.qqnews_web.pc_base_srv.base_http_proxy/NinjaPageContentSync?pull_urls=news_top_2018'
html=requests.get(url)
print(html.json())

因为需要爬取的数据都是在data里面,只要print(html.json()['data'])

url='https://i.news.qq.com/trpc.qqnews_web.pc_base_srv.base_http_proxy/NinjaPageContentSync?pull_urls=news_top_2018'
html=requests.get(url)
# print(html.json()['data'])
for d in html.json()['data']:
    print(d)
import requests

url='https://i.news.qq.com/trpc.qqnews_web.pc_base_srv.base_http_proxy/NinjaPageContentSync?pull_urls=news_top_2018'
html=requests.get(url)
# print(html.json()['data'])
for d in html.json()['data']:
    print(d['title'])

当只要爬取title的列表的时候,只要d['title']即可

json.dumps()

将字典转化为字符串,也就是从python的结构转化为json结构

json.loads()

将字符串转化为字典

json的字符串一定是双引号,python的字符串可以是单引号也可以是双引号

import json
text = {'key': 'value'}
python_to_json = json.dumps(text)
print(python_to_json)

相关文章

Tkinter学习(2)
Tkinter学习(1)
selenium自动化模块学习(5)
selenium自动化模块学习(4)
selenium自动化模块学习(3)
selenium自动化模块学习(2)

发布评论