基于网站sitemap 抓取网页生成静态HTML


以下说明仅适用于动静分离的网站,目前仅支持最多二级抓取,嗯,如果不是就不要看了,局限性还是比较大,后面再修改。

最近某度云有活动,看了下说明,虚拟机有buff加成,所以买了台来试试。

想法是为搜索引擎专门开辟一条线路,但是发现数据库不好同步,目前数据库是良心云的MySql,所以想了想弄个静态站点得了。

周五下午的时候构思了下,回来写了点点,今天把她完善了下。

其实功能挺简单的,简单讲file_get_contents 和 file_put_contents 两个函数即可轻松实现。

不过难点在于如何优化,比如抓取回来的数据一次遍历的话,PHP 肯定会超时,而且源站也有可能宕机。

另外一个就是数据存放,抓取后的sitemap 存放在哪里?

代码请看这里 https://github.com/Hegreen/sitemap_robot

用法:

首先配置源站信息和sitemap,配置当前文件所在站点目录即可。

禾令奇截图20180708143402.png

然后再浏览器运行即可,效果如下。

禾令奇截图20180708145945.png

嗯,更多功能关注后续版本。

本站采用「署名 4.0 国际(CC BY 4.0)」创作共享协议,转载请注明本文出处及链接。

Tags: sitemap,网页抓取,生成静态HTML

头像
游客
  • 默认
  • 趣图
  • 吐舌.png
  • 太开心.png
  • 笑眼.png
  • 花心.png
  • 捂嘴笑.png
  • 滑稽.png
  • 你懂的.png
  • 不高兴.png
  • 怒.png
  • 汗.png
  • 黑线.png
  • 泪.png
  • 真棒.png
  • 喷.png
  • 惊哭.png
  • 阴险.png
  • 鄙视.png
  • 酷.png
  • 狂汗.png
  • what.png
  • 酸爽.png
  • 呀咩爹.png
  • 委屈.png
  • 惊讶.png
  • 笑尿.png
  • 挖鼻.png
  • 玫瑰.png
  • 跪了.png
  • 酸.png
  • 乔治.png
  • 佩奇.png
  • 给你小心心.png
  • 米奇比心.png
  • 遛狗.png
  • 允悲.png
  • 失望.png
  • 吃瓜.png
  • 污.png
  • 笑而不语.png
  • 并不简单.png
    发表评论