Python和爬行动物有什么关系？

爬虫一般是指网络资源的抓取。由于python的脚本特性，python易于配置，对字符的处理非常灵活，而且python有丰富的网络爬行模块，两者经常联系在一起。只需使用python自带的urllib库；用python写一个搜索引擎，搜索引擎是一个复杂的爬虫。从这里，你就知道什么是Python爬虫了。是一种基于Python编程的抓取网络资源的方式。Python不是爬虫。

为什么Python适合某些爬行动物？

1)捕捉网页本身的接口。

相比其他静态编程语言，如java、c#、C++和python，抓取web文档的界面更简单。与perl、shell、python等其他动态脚本语言相比，urllib2包提供了相对完整的访问web文档的API。(当然，ruby也是不错的选择。)

另外，抓取一个网页有时需要模拟一个浏览器的行为，很多网站禁止生硬的爬虫抓取。这就是我们需要模拟用户代理的行为来构造合适的请求，比如模拟用户登录，模拟session/cookie的存储和设置。python中有优秀的第三方包可以帮助你，比如Requests和mechanize。

2)网页抓取后的处理

抓取的网页通常需要进行处理，比如过滤html标签、提取文本等。Python的beautifulsoap提供了简洁的文档处理功能，可以用非常短的代码完成大部分的文档处理。

其实很多语言和工具都可以做以上功能，但是python做的最快最干净。生命短暂，你需要python。