爬虫的本质是模拟人访问浏览器的行为,获取信息和数据,是将人的行为自动化的过程。
这个过程的核心其实就是向网站服务器发送请求,接收网站服务器的响应,从返回的响应中提取信息。
举个例子,
你走进一家酒馆,找了个座位,然后喊:“二斤牛肉,一壶老酒,小二。”这是要求。听到你的要求后,你要的牛肉和酒很快就端上来了。这就是回应。你抓起盘子里的牛肉就开始吃,这是爬虫的爬行行为。
爬虫就是重现这个过程的程序。
至于零基础爬虫入门难的问题,其实还是那句话,“会硬的不会硬,会硬的不会硬”。任何新知识都不会到会上来。最重要的是练习。只有当你开始练习的时候,你才会发现,一个爬虫的入门并没有那么难。重要的是学习并把你的代码放进去。一开始可能会有很多困惑,但是你要写的太多了。在不断尝试的过程中,你会发现学习很难我也是一个从零开始学习的爬虫。之前没学过编程,只是出于兴趣开始学python,后来接触了爬虫。然后慢慢学习了urllib、requests、pyquery、bs4等爬虫库,练习爬取一些网站数据和图片。所以,学爬虫还是要学语言的。然后用这个语言写一个爬虫程序解决你的日常问题,慢慢培养你的兴趣。
这是一个用python写的简单爬行动物的例子。
导入请求
进口re
从bs4导入BeautifulSoup as bs
url='/'
Page =requests.get(url)
内容=bs(网页。文本,“lxml”)
因为我心满意足。find _ all ('li ',{ " class ":re . pile(" ui-slide-item?s?”)})[0:-5]:
打印(i.attrs)