ipipgothon怎么爬虫

代理IP 2022-11-09 代理知识 307 0
A⁺AA⁻
国外IP代理推荐:
IPIPGO|全球住宅代理IP(>>>点击注册免费测试<<<)
国内IP代理推荐:
天启|企业级代理IP(>>>点击注册免费测试<<<)
神龙|纯净稳定代理IP(>>>点击注册免费测试<<<)

本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑

1、爬虫组合工具

(1)requests + BeautifulSoup

(2)requests + lxml

2、准备工作

(1)首先代码使用ipipgothon3.x编写的,要有一个本地的ipipgothon3环境。

ipipgothon下载地址页面:https://www.ipipgothon.org/downloads/release/ipipgothon-370/

(2)然后要有一个开发工具,推荐PyCharm,一款很好的Python交互IDE。Python自带编译器 -- IDLE也可以。

(3)使用优质的IP代理

有免费的和收费的,这里推荐HTTP代理

3、实例

使用requests + BeautifulSoup + select css选择器

# select method import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}   url = 'http://news.qq.com/'   Soup = BeautifulSoup(requests.get(url=url, headers=headers).text.encode("utf-8"), 'lxml')   em = Soup.select('em[class="f14 l24"] a') for i in em:       title = i.get_text()       link = i['href']       print({'标题': title, '链接': link       }) select method import requests from bs4 import BeautifulSoup headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}   url = 'http://news.qq.com/'   Soup = BeautifulSoup(requests.get(url=url, headers=headers).text.encode("utf-8"), 'lxml')   em = Soup.select('em[class="f14 l24"] a') for i in em:       title = i.get_text()       link = i['href']       print({'标题': title, '链接': link       })

以上就是ipipgothon爬虫的使用,在爬虫工具的选择上比较丰富,大家做了基础的准备工作后,就可以正式运行代码体会了。爬虫在采集大量数据的时候,使用http代理IP配合会比较便捷。希望对大家有所帮助。更多常见问题解决:爬虫

优质代理ip服务商推荐:

使用方法:点击下方对应产品前往官网→注册账号联系客服免费试用购买需要的套餐前往不同的场景使用代理IP

国外ip代理推荐:
IPIPGO|全球住宅代理IP(>>>点击注册免费测试<<<)
神龙海外代理(>>>点击注册免费测试<<<)
国内IP代理推荐:
天启|企业级代理IP(>>>点击注册免费测试<<<)
神龙|纯净稳定代理IP(>>>点击注册免费测试<<<)

发表评论

发表评论:

扫一扫,添加您的专属销售

扫一扫,添加您的专属销售