基于网站sitemap 抓取网页生成静态HTML


以下说明仅适用于动静分离的网站,目前仅支持最多二级抓取,嗯,如果不是就不要看了,局限性还是比较大,后面再修改。

最近某度云有活动,看了下说明,虚拟机有buff加成,所以买了台来试试。

想法是为搜索引擎专门开辟一条线路,但是发现数据库不好同步,目前数据库是良心云的MySql,所以想了想弄个静态站点得了。

周五下午的时候构思了下,回来写了点点,今天把她完善了下。

其实功能挺简单的,简单讲file_get_contents 和 file_put_contents 两个函数即可轻松实现。

不过难点在于如何优化,比如抓取回来的数据一次遍历的话,PHP 肯定会超时,而且源站也有可能宕机。

另外一个就是数据存放,抓取后的sitemap 存放在哪里?

代码请看这里 https://github.com/Hegreen/sitemap_robot

用法:

首先配置源站信息和sitemap,配置当前文件所在站点目录即可。

禾令奇截图20180708143402.png

然后再浏览器运行即可,效果如下。

禾令奇截图20180708145945.png

嗯,更多功能关注后续版本。

本站采用「署名 4.0 国际(CC BY 4.0)」创作共享协议,转载请注明本文出处及链接。

Tags: sitemap,网页抓取,生成静态HTML

头像
游客
喵喵.pngdoge.png二哈.png摊手.png跪了.png酸.png乔治.png佩奇.png给你小心心.png米奇比心.png遛狗.png允悲.png失望.png吃瓜.png污.png笑而不语.png并不简单.png呵呵.png哈哈.png吐舌.png太开心.png笑眼.png花心.png小乖.png乖.png捂嘴笑.png滑稽.png你懂的.png不高兴.png怒.png汗.png黑线.png泪.png真棒.png喷.png惊哭.png阴险.png鄙视.png酷.png狂汗.pngwhat.png酸爽.png呀咩爹.png委屈.png惊讶.png睡觉.png笑尿.png挖鼻.png吐.png小红脸.png懒得理.png爱心.png玫瑰.png大拇指.png
发表评论