python 爬虫之beautifulsoup（bs4）使用 --待完善-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

python 爬虫之beautifulsoup（bs4）使用 --待完善

阅读量：6586 次

发布时间：2019-06-24

本文共 665 字，大约阅读时间需要 2 分钟。

#!/usr/bin/env python# -*- coding:utf-8 -*-from bs4 import BeautifulSoupimport requestsurl = 'http://www.jd.com/'headers = {  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}#User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36web_date = requests.get(url,headers=headers)soup = BeautifulSoup(web_date.text,'lxml')print soup

headers表示头文件，伪装成浏览器浏览网页

wb_data网页数据requests.get请求访问(url网页京东,headers伪装的头文件）

soup解析后的数据BeautifulSoup解析数据(wb_data网页数据,lxml解析的格式按这个要求解析)

打印结果如下：

转载于:https://www.cnblogs.com/longesang/p/10494166.html

你可能感兴趣的文章

Git 常用命令详解（二）

Spring数据源的配置：c3p0、dbcp、druid

区块链100讲：从村里的账本来看什么是区块链

跟我一起学docker(17)--多节点mesos集群

Android 的生命周期深入剖析

AI行业强者愈强？Tesra超算网络助力中小AI开发企业！

Nginx 目录配置详解

关于 PHP 5.4 你所需要知道的

codeforces 810A

ajax无刷新翻页后，jquery失效问题的解决

C++ Primer学习笔记一

程序员必须知道的10大基础实用算法及其讲解

正则表达式

阿里云的yum更新源

我的友情链接

我的友情链接

我的友情链接

python之路----文件操作

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-23 10:29:34 当前IP: 18.191.176.82 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我