上次有个朋友问,爬虫必须使用代理IP吗?以下为网友回答:
1、
非必须,但是不用回很难受,爬虫一直爬一个网站,相当于你一直找一个人打招呼,时间长了谁都会讨厌,非常大的概率会被拉黑(封IP)。
所以要用代理IP,相当于你戴着**去找同一个人打招呼,打一次换一个**,这个人以为是不同的人再找他,也不会把你拉黑。
试着用一下飞蚁代理,傻瓜式操作。
2.
不是必须的,但是使用代理ip会更方便。有时我们爬信息时,会遇到基于用户行为的反爬虫。例如同一IP短时间内多次访问同一页面,或者同一账户短时间内多次进行相同操作,都会被限制访问。对于这种情况,我们直接使用芝麻ip代理**可以解决了。有了大量ip后,**可以每请求几次更换一个ip。
3、
这个是非必须的,为什么很多做爬虫的需要用ip,是因为爬取的网站次数比较频繁,防止本地的ip被封,所以很多人会选择代理ip!代理ip也有很多种!有用量小的,按照次数收费的,比较适合一些初学者或者是小公司使用,当然这部分ip的质量不是很理想,当然也会影响工作效率了!还有**是按照时间收费的,要是企业级的用量的话,单个ip的价格还是很合适的!
本人呢?**职于北京某大型的数据公司,一个爬虫的码农,寻找代理ip,也走了,很多弯路,目前公司使用的是飞蚁代理,高并发,IP分布广,ip池大,高匿名,使用的效果还是不错的!
|