在爬虫编写过程中经常会使用先抓大后抓小的原则,xpath可以通过以下代码实现先抓大后抓小

item_list = selector.xpath('//div[@class="items"]')
for i in item_list:
     item['name'] = i.xpath('.//div[@class="items__txt__title"]/a/text()')

此时的.//就是从当前元素路径下进行查找。如果是//的话就变成整个html下查找无法过滤无效信息

最后修改:2021 年 08 月 27 日
如果觉得我的文章对你有用,请随意赞赏