python，利用BeautifulSoup写的第一采集程序

启明SEO python 2020-07-31 18:32:58 3198 0 采集 BeautifulSoup

import requests
from bs4 import BeautifulSoup
link="http://www.xiangmingshan.com/zhishi/"
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
r=requests.get(link,headers=headers)
soup=BeautifulSoup(r.text, "lxml")


titles=soup.find_all("h3", class_="f-16 mb15 f-bold")
i=0
for title in titles:
    i+=1
    print(i,title.text)
    urlnames=title.a
    url=urlnames.get('href')
    res=requests.get(url,headers=headers)
    conaa=BeautifulSoup(res.text,"lxml")

    neirong=conaa.find(class_="info-con")

    print("正文内容：",neirong.text)

import requests
from bs4 import BeautifulSoup
link="http://www.xiangmingshan.com/zhishi/"
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
r=requests.get(link,headers=headers)
soup=BeautifulSoup(r.text, "lxml")


titles=soup.find_all("h3", class_="f-16 mb15 f-bold")
i=0
for title in titles:
    i+=1
    print(i,title.text)
    url=title.a['href']
    res=requests.get(url,headers=headers)
    conaa=BeautifulSoup(res.text,"lxml")

    neirong=conaa.find(class_="info-con")

    print("正文内容：",neirong.text)

其中获取链接有两个不同方式，分别是

 url=urlnames.get('href')

与

url=title.a['href']

下一篇： for in range()循环只能通过break中断上一篇：通过Lxml读取本地html文件内容出错：Opening and ending tag mismatch: meta line 4 and head, line 6, column 8

好文推荐

实时访客入口页面出现bd_vid=标识是什么原因
最近查看百度实时访客，总是会看到入口页面会多......

有了微信视频号，但是没有发布权限，怎么开通
视频号是微信在2020年1月19号开始内测的......

如何用python抓取爱企查企业信息
前段时间，经理让我去找一些企业的信息，我平常......

网站始终只收录一个首页，为什么
新做了两个网站，但是一直只是收录一个首页，快......

服务器配置低，宝塔面板安装IIS总是安装不上怎么办
对于一般企业网站或者博客来说，对服务器的配置......

如何修改浏览器指纹，Canvas指纹、Webgl指纹、Audio指纹修改方法？
修改浏览指纹的方法其实也是很简单，主要使用到......

python，利用BeautifulSoup写的第一采集程序

评论

Python好学公众号

好文推荐

实时访客入口页面出现bd_vid=标识是什么原因

有了微信视频号，但是没有发布权限，怎么开通

如何用python抓取爱企查企业信息

网站始终只收录一个首页，为什么

服务器配置低，宝塔面板安装IIS总是安装不上怎么办

如何修改浏览器指纹，Canvas指纹、Webgl指纹、Audio指纹修改方法？

标签列表

随机推荐

最近发表

python，利用BeautifulSoup写的第一采集程序

相关文章

评论

Python好学公众号

好文推荐

实时访客入口页面出现bd_vid=标识是什么原因

有了微信视频号，但是没有发布权限，怎么开通

如何用python抓取爱企查企业信息

网站始终只收录一个首页，为什么

服务器配置低，宝塔面板安装IIS总是安装不上怎么办

如何修改浏览器指纹，Canvas指纹、Webgl指纹、Audio指纹修改方法？

标签列表

随机推荐

最近发表