基于网站sitemap 抓取网页生成静态HTML

以下说明仅适用于动静分离的网站,目前仅支持最多二级抓取,嗯,如果不是就不要看了,局限性还是比较大,后面再修改。

最近某度云有活动,看了下说明,虚拟机有buff加成,所以买了台来试试。

想法是为搜索引擎专门开辟一条线路,但是发现数据库不好同步,目前数据库是良心云的MySql,所以想了想弄个静态站点得了。

周五下午的时候构思了下,回来写了点点,今天把她完善了下。

其实功能挺简单的,简单讲file_get_contents 和 file_put_contents 两个函数即可轻松实现。

不过难点在于如何优化,比如抓取回来的数据一次遍历的话,PHP 肯定会超时,而且源站也有可能宕机。

另外一个就是数据存放,抓取后的sitemap 存放在哪里?

代码请看这里 https://github.com/Hegreen/sitemap_robot

用法:

首先配置源站信息和sitemap,配置当前文件所在站点目录即可。

禾令奇截图20180708143402.png

然后再浏览器运行即可,效果如下。

禾令奇截图20180708145945.png

嗯,更多功能关注后续版本。

本站采用「署名 4.0 国际(CC BY 4.0)」创作共享协议,转载请注明本文出处及链接。

Tags: sitemap,网页抓取,生成静态HTML

头像
游客
发表评论