首页 python正文

python,利用BeautifulSoup写的第一采集程序

启明SEO python 2020-07-31 18:32:58 3081 0 采集BeautifulSoup
import requests
from bs4 import BeautifulSoup
link="http://www.xiangmingshan.com/zhishi/"
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
r=requests.get(link,headers=headers)
soup=BeautifulSoup(r.text, "lxml")


titles=soup.find_all("h3", class_="f-16 mb15 f-bold")
i=0
for title in titles:
    i+=1
    print(i,title.text)
    urlnames=title.a
    url=urlnames.get('href')
    res=requests.get(url,headers=headers)
    conaa=BeautifulSoup(res.text,"lxml")

    neirong=conaa.find(class_="info-con")

    print("正文内容:",neirong.text)
import requests
from bs4 import BeautifulSoup
link="http://www.xiangmingshan.com/zhishi/"
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"}
r=requests.get(link,headers=headers)
soup=BeautifulSoup(r.text, "lxml")


titles=soup.find_all("h3", class_="f-16 mb15 f-bold")
i=0
for title in titles:
    i+=1
    print(i,title.text)
    url=title.a['href']
    res=requests.get(url,headers=headers)
    conaa=BeautifulSoup(res.text,"lxml")

    neirong=conaa.find(class_="info-con")

    print("正文内容:",neirong.text)

其中获取链接有两个不同方式,分别是

 url=urlnames.get('href')

url=title.a['href']


评论

Python好学公众号

好文推荐

实时访客入口页面出现bd_vid=标识是什么原因

实时访客入口页面出现bd_vid=标识是什么原因

最近查看百度实时访客,总是会看到入口页面会多......

有了微信视频号,但是没有发布权限,怎么开通

有了微信视频号,但是没有发布权限,怎么开通

视频号是微信在2020年1月19号开始内测的......

如何用python抓取爱企查企业信息

如何用python抓取爱企查企业信息

前段时间,经理让我去找一些企业的信息,我平常......

服务器配置低,宝塔面板安装IIS总是安装不上怎么办

服务器配置低,宝塔面板安装IIS总是安装不上怎么办

对于一般企业网站或者博客来说,对服务器的配置......

网站始终只收录一个首页,为什么

网站始终只收录一个首页,为什么

新做了两个网站,但是一直只是收录一个首页,快......

如何修改浏览器指纹,Canvas指纹、Webgl指纹、Audio指纹修改方法?

如何修改浏览器指纹,Canvas指纹、Webgl指纹、Audio指纹修改方法?

修改浏览指纹的方法其实也是很简单,主要使用到......