博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python网络爬虫进入(一)——简单的博客爬行动物
阅读量:6701 次
发布时间:2019-06-25

本文共 809 字,大约阅读时间需要 2 分钟。

最近。对于图形微信公众号。互联网收集和阅读一些疯狂的-depth新闻和有趣,发人深思文本注释,并选择最佳的发表论文数篇了。但看着它的感觉是一个麻烦的一人死亡。寻找一个简单的解决方案的方法,看看你是否可以把互联网上的信息自己主动收集,然后,他们使用一个统一的筛选。可惜,最近准备学习的知识网络爬虫,于是按照网上的教程要学会尝试写自己的一个小爬虫,嘻嘻,韩寒的博客是用来攀爬。

第一个完整的代码贴上来,根据假设,朋友们需要测试。请安装python相关环境,存。再按F5执行。

#导入urllib库,python訪问网页必须库import urllib#时间类库import time#定义一个URL数组用来存放捕获的URL地址。也就是须要爬的文字地址路径url = [''] * 50#定义link变量,用来记录第几个URL地址link = 1#循环捕获博客文件夹第一页全部的文章链接。并下载#定义con变量来存储urllib.urlopen打开韩寒博客的文件夹地址,特别注意下'+str(page)+',用来变化每一页文件夹地址的con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read()#变量title用来存储con变量中找到
这个爬虫实现的功能还是非常简陋的,但作为入门我认为还是够的。它仅仅是实现了保存博客第一页文件夹全部文章的HTML文件,并没有抓取特定的内容予以保存。

还有我认为有编程基础的人,看起来应该不是非常费力。主要的思想非常easy,就是先爬地址,然后爬一个地址就下地址相应的网页,接着保存为。

我个人认为。这段代码还是有点邋遢。不够简洁明了。希望通过以后的学习能写出质量更高的代码。

有些看里面涉及的方法python文档可以发现,这是不难,几乎每一句里面我都标有注意事项。

执行:

你可能感兴趣的文章
swift实现ios类似微信输入框跟随键盘弹出的效果
查看>>
MySQL索引背后的数据结构及算法原理
查看>>
Linq之group子句
查看>>
jQuery图片轮播特效
查看>>
【转】人生应该接受的教育
查看>>
键盘收回方法
查看>>
docker 使用教程(2)常用命令
查看>>
在Java中>、>>、>>>三者的区别
查看>>
Android 手机卫士--home界面布局
查看>>
Android NDK 同时编译多个Module
查看>>
poi API
查看>>
8 -- 深入使用Spring -- 2...2 指定Bean的作用域
查看>>
MapReduce实战(一)自定义类型
查看>>
切换横屏幕 onCreate 多次执行问题
查看>>
A guide to analyzing Python performance
查看>>
export,source
查看>>
Android添加全屏启动画面
查看>>
6月最后一天
查看>>
使用注解校验参数
查看>>
CSU1256 天朝的单行道(spfa)
查看>>