Python和爬行动物有什么关系?

爬虫一般是指网络资源的抓取。由于python的脚本特性,python易于配置,对字符的处理非常灵活,而且python有丰富的网络爬行模块,两者经常联系在一起。只需使用python自带的urllib库;用python写一个搜索引擎,搜索引擎是一个复杂的爬虫。从这里,你就知道什么是Python爬虫了。是一种基于Python编程的抓取网络资源的方式。Python不是爬虫。

为什么Python适合某些爬行动物?

1)捕捉网页本身的接口。

相比其他静态编程语言,如java、c#、C++和python,抓取web文档的界面更简单。与perl、shell、python等其他动态脚本语言相比,urllib2包提供了相对完整的访问web文档的API。(当然,ruby也是不错的选择。)

另外,抓取一个网页有时需要模拟一个浏览器的行为,很多网站禁止生硬的爬虫抓取。这就是我们需要模拟用户代理的行为来构造合适的请求,比如模拟用户登录,模拟session/cookie的存储和设置。python中有优秀的第三方包可以帮助你,比如Requests和mechanize。

2)网页抓取后的处理

抓取的网页通常需要进行处理,比如过滤html标签、提取文本等。Python的beautifulsoap提供了简洁的文档处理功能,可以用非常短的代码完成大部分的文档处理。

其实很多语言和工具都可以做以上功能,但是python做的最快最干净。生命短暂,你需要python。