首页 python正文

详解xpath包含contains的用法

启明SEO python 2021-12-07 18:00:10 2196 0 xpath

一、包含文本

1、标签中只包含文字

<div>

  <ul id="side-menu">

    <li class="active">

      <a href="#">

      卷期号:

      </a>

    </li>

  </ul>

</div>

表达式://ul[@id='side-menu']/li/a[contains(text(),"卷期号")]

上面表达式就是查找对应的a标签中文本包含"卷期号"三个字的相关内容



2、文字没有被一个明确的标签包裹


<div>

  <ul id="side-menu">

    <li class="active">

      <a href="#">

        <i>DOI</i>

        卷期号:

        <span>xxxx</span>

      </a>

    </li>

  </ul>

</div>


再用上边的xpath表达式就到不到了, 不过可以借助string(), 将a标签里边的东西全部转换成字符串, 再用contains判断:


//ul[@id='side-menu']/li/a[contains(string(), '卷期号')]/text()

详解xpath包含contains的用法


二、class与id中包含提取

表达式1:xpath('//div[contains(@class,"a")]')   

但凡class中有a字符,都会被提取

表达式2:xpath('//div[contains(@id,"a")]')  

但凡id中有a字符,都会被提取。 


评论

Python好学公众号

好文推荐

实时访客入口页面出现bd_vid=标识是什么原因

实时访客入口页面出现bd_vid=标识是什么原因

最近查看百度实时访客,总是会看到入口页面会多......

有了微信视频号,但是没有发布权限,怎么开通

有了微信视频号,但是没有发布权限,怎么开通

视频号是微信在2020年1月19号开始内测的......

如何用python抓取爱企查企业信息

如何用python抓取爱企查企业信息

前段时间,经理让我去找一些企业的信息,我平常......

服务器配置低,宝塔面板安装IIS总是安装不上怎么办

服务器配置低,宝塔面板安装IIS总是安装不上怎么办

对于一般企业网站或者博客来说,对服务器的配置......

网站始终只收录一个首页,为什么

网站始终只收录一个首页,为什么

新做了两个网站,但是一直只是收录一个首页,快......

如何修改浏览器指纹,Canvas指纹、Webgl指纹、Audio指纹修改方法?

如何修改浏览器指纹,Canvas指纹、Webgl指纹、Audio指纹修改方法?

修改浏览指纹的方法其实也是很简单,主要使用到......