博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 爬虫之beautifulsoup(bs4)使用 --待完善
阅读量:6586 次
发布时间:2019-06-24

本文共 665 字,大约阅读时间需要 2 分钟。

#!/usr/bin/env python# -*- coding:utf-8 -*-from bs4 import BeautifulSoupimport requestsurl = 'http://www.jd.com/'headers = {  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}#User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36web_date = requests.get(url,headers=headers)soup = BeautifulSoup(web_date.text,'lxml')print soup

headers表示头文件,伪装成浏览器浏览网页

wb_data网页数据requests.get请求访问(url网页京东,headers伪装的头文件)

soup解析后的数据BeautifulSoup解析数据(wb_data网页数据,lxml解析的格式按这个要求解析)

 

打印结果如下:

 

转载于:https://www.cnblogs.com/longesang/p/10494166.html

你可能感兴趣的文章
Git 常用命令详解(二)
查看>>
Spring数据源的配置:c3p0、dbcp、druid
查看>>
区块链100讲:从村里的账本来看什么是区块链
查看>>
第五次课
查看>>
跟我一起学docker(17)--多节点mesos集群
查看>>
Android 的生命周期深入剖析
查看>>
AI行业强者愈强?Tesra超算网络助力中小AI开发企业!
查看>>
Nginx 目录配置详解
查看>>
关于 PHP 5.4 你所需要知道的
查看>>
codeforces 810A
查看>>
ajax无刷新翻页后,jquery失效问题的解决
查看>>
C++ Primer学习笔记一
查看>>
程序员必须知道的10大基础实用算法及其讲解
查看>>
正则表达式
查看>>
阿里云的yum更新源
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
我的友情链接
查看>>
20160309作业
查看>>
python之路----文件操作
查看>>