石家庄做网站,石家庄网站优化,石家庄网络推广,石家庄网络公司
当前位置:主页 > 新闻资讯 > 技术笔记 >

帝国cms分页采集正则及过滤技巧

发表日期:2020-01-09 10:38文章编辑:帝国CMS教程浏览次数: 标签: 技术笔记|帝国CMS|采集正则|    

老实说我并不主张网站采集,不过做为站长,网页采集实在是一大利器。拿帝国CMS来说,采集功能很强大。虽然帝国CMS采集方法简单易学,但还是有朋友为采集规则而绞尽脑汁。以下是我悼念的一些帝国CMS的采集正则。
 
从文章的源代码中获得的
 
第一种:
 
<p align='center'><b><font color='red'>[1]</font>&nbsp;<a href='/Eat/RMenu/200806/38611_2.html'>[2]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_3.html'>[3]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_4.html'>[4]</a>&nbsp;<a href='/Eat/RMenu/200806/38611_2.html'>下一页</a> </b></p>
编写的规则:
 
选全部列出式
区域正则:
 
<p align='center'><b><font color='red'>[!--smallpageallzz--]'>下一页
链接正则:
 
<a href='[!--pageallzz--]'>
 
--------------------------------------------------------------------------------
 
 
第二种
 
采集代码
 
<p align='center'><b><font color='red'>[1]</font>&nbsp;<a href='/lw/3/lw_31205_2.html'>[2]</a>&nbsp;<a href='/lw/3/lw_31205_2.html'>下一页</a> </b></p> <center>《
 
编写的规则:
 
选用上下导航式:
分页区域正则:<font color='red'>[!--smallpagezz--]下一页
分页链接正则:<a href='[!--pagezz--]'
新闻正文正则:
 
  src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script></td>
          </tr>
        </table>[!--newstext--]</td>
    </tr>
    <tr>
      <td width=5></td>
 
过滤广告正则:
 
</p> <center>[!--ad--]</center>,</p><p align='center'>[!--ad--]</b>
例如:https://www.daixiao360.cn/js/271.html
 
--------------------------------------------------------------------------------
 
 
第三种
 
<p align="center"><img src="/bgy/Images_1/sy8.gif" border="0"  align="absbottom"> <FONT style="COLOR: #ff0000">【1】</font>  <a class=page href="094221656-2.html" target=_self>【2】</a>  <a class=page href="094221656-3.html" target=_self>【3】</a>  <a class=page href="094221656-4.html" target=_self>【4】</a>  <a class=page href="094221656-5.html" target=_self>【5】</a>  <a href="094221656-2.html"><img src="/gwy/Images1/xy.gif" border="0"  align="absbottom"></a></p>
编写的规则:
 
"全部列出"式正则设置:
 
分页区域正则(无)
分页链接正则: <a class=page href="[!--pageallzz--]" target=_self>
 
--------------------------------------------------------------------------------
 
 
第四种:
 
<DIV class=pageContainer> <DIV class=pager><span class="nextprev">&lt;&lt; 前一页</span><span class="current">1</span><a href="0731_3493_686224_1.shtml" title="转到第2页">2</a><a href="0731_3493_686224_2.shtml" title="转到第3页">3</a><a href="0731_3493_686224_1.shtml" class="nextprev" title="后一页">后一页 &gt;&gt;</a></DIV></DIV></DIV>
</div>
 
选全部列出式区域正则:
 
<DIV class=pageContainer> <DIV class=pager><span class="nextprev">[!--smallpageallzz--]" class="nextprev" title="后一页">
 
链接正则:
 
<a href="[!--pageallzz--]"

如没特殊注明,文章均来自网络!转载请注明来自:https://www.yousouke.com/News/jsbj/8154.html

网站设计案例推荐

热门新闻

DEDECMS提示Fatal error错误

Nginx的Gzip压缩配置

织梦DedeCMS定时自动生成首页HTML的实现方法

IIS7下js文件启用Gzip后却不压缩的解决方法

dede织梦教程:列表页、文章页调用所有顶级栏目文章的方法

WordPress 集成百度 Sitemap 实时推送代码

织梦DedeCMS定时自动生成首页HTML的实现方法

WORDPRESS文章中微信打赏功能的2种实现方法

相关新闻

Dedecms如何显示文章数量的方法

dede出现search.php on line 44 search.php报错

dedecms大量删除文章后,列表页显示错误修复办法

DedeCMS最新文章、相关文章、推荐文章、热点文章、头条

织梦Dedecms tag标签长度限制的修改

dede织梦网站地图sitemap移出data

推荐新闻

织梦CMS文章模型整合下载功能,可判断点数,会员组等下载权限

dede简略标题调用标签

帝国cms怎么实现页面自动生成html

正确配置 WordPress 邮件SMTP

织梦DEDECMS教程:添加RSS订阅功能

帝国cms灵动标签调用字母所属的信息

IIS7下js文件启用Gzip后却不压缩的解决方法

织梦DedeCMS实现{dede:channel}标签增加数字序号的方法

帝国cms如何在tags列表页获取当前tag的ID方法