标签 自动采集 下的文章

热搜热门榜内容系统聚合源码+自动采集

功能特色

1.前端纯HTML+JS+JSON(链接统计除外),后端python生成标准JSON;
2.自带30几个常用网站采集规则;
3.多线程抓取,30+网站5秒内采集完毕;
4.相同网站放在一个框架内,可局部刷新和滚动;
5.更新时间显示(按采集页的自带更新时间或按时间排序的第一条时间采集,没有的为采集完成时间);
6.内容链接防盗链,链接通过base64+字符逆序+大小写反转+base64实现加密(更换大小写转换顺序或增加数字替换可实现不同密码加密);
7.内容链接点击统计;
8.部分内容鼠标悬停提示(如appstore排行有更新内容、时间、版本号);

运行环境

PHP

演示截图

热搜热门榜内容系统聚合源码+自动采集

搭建说明:

1.python3 caiji.py采集(保持后台运行请用screen或nohup)

2.打开首页访问;

注:

caiji.py为后端采集程序,其余为前端需在同一目录;

相应设置修改请查看源码中的注释;

admin.php为第三方数据库管理程序,用于内容链接统计查看(默认密码admin,请在文件中修改);

点击统计数据库log.db会在首次访问内容链接时生成,如未建立请保证主目录可写;

为了安全,后端程序caiji.py和数据库查看程序admin.php请改为复杂文件名,或移动到非web目录(需同时修改文件内的生成json保存目录为网站根目录,默认为当前目录);

默认使用多线程抓取,如有问题请改用单线程;

今日头条的采集请更换为自己的cookie,头条短时间采集内容相同的太多(目前1分钟采一次合并10次数据),相同cookie分段采集后几乎不会有重复的,但采集一段时间后推荐的都是杂七杂八无关的垃圾内容(请定期更换cookie或自行加入随机的头条cookie生成规则)

采集站的logo大部分已修改为透明图层png,在非白色背景下可能会很难看。

精仿今日头条新闻网站带自动采集接口更新文章源码,支持页面自适应,内附详细安装教程。
功能特点

  1. 站点集成新网,网易,搜狐,人民网,中新网等多家新闻接口,全自动采集发布,无需人工维护。
  2. 产品自带采集更新工具,只要挂在服务器上或使用宝塔面板的计划任务即可稳定同步更新,彻底解放双手。
  3. 站点优化,通过修改伪原创设置,可大大提高新闻收录率。
  4. 友情链接:可支持logo链接,和文字链接。可支持批量删除。
  5. 单页管理:可自主设置关键词,描述。以方便需要拓展功能的企业。通过单页设置,您可以做出,比如,自己企业的联系方式。付款方式,加盟说明等等。
  6. 企业案列:采用三级频道分类。可支持批量删除。
  7. 支持防SQL注入,同时支持 是否锁定对方IP 限制对方IP访问本站。支持留言禁止脏话设置。
  8. 强大的生成html功能和自定义表单功能,资源包含安装教程。
    PHP7.3+MYSQL5.6

精仿今日头条新闻网站带自动采集接口更新文章源码

点击后台页面顶部导航菜单中的“实时采集”,即可管理采集栏目与新闻源的对接,同时此页面打开也会同时采集更新一些新闻,但此功能不适于稳定运行,具体的自动新闻采集设置,是由触发自动更新新闻的网址来完成,该网址为:
http://您的网址/home/collection/index 
也就是说,如果您不断刷新该网址,系统就会不断的更新文章到网站,对此本司针对虚拟主机用户,windows用户和linux用户 设置了几种执行办法
详细安装教程在压缩包里由文档,自行查看。