这里是清扬无聊写的一些小玩意儿,纯粹当作打发时间用的,算是本吧的一个小话题吧。
以后会在这个贴子长期不定期更新一些爬虫相关的东西,自己就当作笔记,吧友们有空随意吐槽。
至于为什么开始决定写这个东西呢,有很大成分上算是打发时间吧,而且相关的知识网上论坛多的很,有兴趣的可以找找论坛学习一下,至于我的编程水平嘛,及格线以下吧,首先自学的时间有限,还有个人精力是不可能认真系统学习的
什么是爬虫?这个吧为什么要写这东西?
爬虫本质上讲大概就是一种收集数据技术的方式之一吧,平时百度搜索就是一种爬虫的形式。每次百度搜索的时候搜索栏下都会显示找到**约多少个,其实呢,这些信息都是用静态的方式存在百度的数据库中,每一条信息的右下角百度快照就是这个信息库,如果没有找到对应的信息,一般是没有提交百度收录的原因。由于百度的数据支撑,所以现在百度引擎基本可以满足大家的需求了。
那么数据一多问题就来了,怎么快速准确的获取相关信息呢,这部分就是爬虫的工作了。爬虫从搜索方面基本上可以分为两种(个人看法),从广度上和从深度上,广度上基本就是大范围获取相关信息,深度上就认为在确认范围后获取更准确可靠的信息了。这个贴子只考虑临时,所以范围自然小,只是获取很少的信息,并进行保存而已。
python爬虫现在应该是主流方式之一,首先入门门槛低,然后爬虫相关的语法也非常通俗易懂。其余语言当然也能实现这些效果,虽然有第三方库支持,但是实现还是有点麻烦。这里使用python2纯属练手了,虽然python2.7将会在2020年1月1日终止支持,毕竟还能用这么就,python2会了python3入手也容易。
至于为什么要写这个爬虫呢。很明显啊,打发时间啊
以后会在这个贴子长期不定期更新一些爬虫相关的东西,自己就当作笔记,吧友们有空随意吐槽。
至于为什么开始决定写这个东西呢,有很大成分上算是打发时间吧,而且相关的知识网上论坛多的很,有兴趣的可以找找论坛学习一下,至于我的编程水平嘛,及格线以下吧,首先自学的时间有限,还有个人精力是不可能认真系统学习的

什么是爬虫?这个吧为什么要写这东西?
爬虫本质上讲大概就是一种收集数据技术的方式之一吧,平时百度搜索就是一种爬虫的形式。每次百度搜索的时候搜索栏下都会显示找到**约多少个,其实呢,这些信息都是用静态的方式存在百度的数据库中,每一条信息的右下角百度快照就是这个信息库,如果没有找到对应的信息,一般是没有提交百度收录的原因。由于百度的数据支撑,所以现在百度引擎基本可以满足大家的需求了。
那么数据一多问题就来了,怎么快速准确的获取相关信息呢,这部分就是爬虫的工作了。爬虫从搜索方面基本上可以分为两种(个人看法),从广度上和从深度上,广度上基本就是大范围获取相关信息,深度上就认为在确认范围后获取更准确可靠的信息了。这个贴子只考虑临时,所以范围自然小,只是获取很少的信息,并进行保存而已。
python爬虫现在应该是主流方式之一,首先入门门槛低,然后爬虫相关的语法也非常通俗易懂。其余语言当然也能实现这些效果,虽然有第三方库支持,但是实现还是有点麻烦。这里使用python2纯属练手了,虽然python2.7将会在2020年1月1日终止支持,毕竟还能用这么就,python2会了python3入手也容易。
至于为什么要写这个爬虫呢。很明显啊,打发时间啊

