爬虫在现实生活中很常见,比如国内最大的爬虫百度。所以爬虫做的好就能赚钱。
今天讲的这个也很简单,爬网页的超链接,但是前提是这是一个静态网页,动态网页有点难做,边肖不太会,学完可以和大家分享。
首先,我们需要介绍我们想要使用的包。这里我们使用python附带的包
Urllib.request是python操作url的包,re是python正则表达式的包
首先,我们编写一个函数来获取网页的源代码
然后我们将编写一个函数来提取网页的超链接源代码
然后我们可以测试它
我们可以看看url.txt的内容。
我们发现很多都不是URL,那是因为在编译网页的时候使用了相对路径,所以才会出现这种情况。但这并不影响我们对头条首页超链接的分析,基本不是这个站点的链接,说明头条的广告业务有点忙。当然,这只是一个小猜想。头条有很多域名怎么办?
结束语:
如果你喜欢这个标题,一定要收藏。
单击注意了解更多关于o编程的信息
有不懂的地方可以留言,互相讨论,互相学习,共同进步