[采集参数列表] [手工添加新规则] [导入新规则] [下载新规则] [修改标题参数] [修改内容参数]
 
规则名称(可任意):
此规则所属分类(可任意): $sort_fid
网站编码选择: gbk->gbk utf8->gbk
手工输入多页 有规则的连续多页
要采集的标题列表页,有多页,每页换一行

比较傻瓜化,没规则的标题列表页可以在此输入,而有规则的也可以手工在此一页一页的输入
注意:是文章的列表页,不是内容页

要采集的文章列表网址: (请复制两个不同的列表页网址进行对比,查找变动那个数值即页码用[page]代替)
比如:
http://qibosoft.com/1/list.php?fid=1&p=2
http://qibosoft.com/1/list.php?fid=1&p=3
那右边应该填入
http://qibosoft.com/1/list.php?fid=1&p=[page]
对于带有?号的网址,一般情况第一页不会显示
http://qibosoft.com/1/list.php?fid=1&p=1 而是
http://qibosoft.com/1/list.php?fid=1
所以大家最好从第二页开始分析,第一页有时看不出变化规则
又比如:
http://qibosoft.com/1/list_1.htm
http://qibosoft.com/1/list_2.htm
http://qibosoft.com/1/list_3.htm
那右边应该填入
http://qibosoft.com/1/list_[page].htm
注意:如果第一页不是这样
http://qibosoft.com/1/list_1.htm
而是
http://qibosoft.com/1/index.htm
的话,这种情况第一页属于没规则,就需要在下面的表单输入框,输入这一页的网址.这种情况也是比较多出现的

请写出开始页码数值,结尾页页码数值:(必填)
你可以设置指定采集第几页到第几页.必须要设置一个开始与结尾的页码,一般开始页是1,结尾页的话,就需要你去查看一下被采集的网站的文章列表共有几页,就输入那个数值.
而梯度,一般填1,即如以下格式
http://qibosoft.com/1/list.php?fid=1&p=1
http://qibosoft.com/1/list.php?fid=1&p=2
http://qibosoft.com/1/list.php?fid=1&p=3
如果填10的话,将如以下格式
http://qibosoft.com/1/list.php?fid=1&p=10
http://qibosoft.com/1/list.php?fid=1&p=20
http://qibosoft.com/1/list.php?fid=1&p=30
开始第几页 结束第几页
梯度 默认1,如果想跳页,你可以写2,3,....
如果第一页没规则,请单独在此写出来第一页的网址:
比如第一页不是这个页,即不能访问
http://qibosoft.com/1/list_1.htm

http://qibosoft.com/1/list.htm
能访问,此时就在右边输入没规则的第一页
自定义正则语法规则(即用通配符替换原文内容):
第一步,随意查看一个要采集的标题列表页HTML网页源代码.
第二步,在源代码里,随意找一篇文章的标题与网址,只能是一篇文章中的一小段代码,不能是两篇.
举例:比如要采集的某个列表页中的任何一篇文章的标题html代码大致如下
<tr><td><a href="文章URL地址" title="文章标题">文章标题</a></td></tr>
那么左边输入
<tr><td><a href="{url=*}" title="{*}">{title=*}</a></td></tr>

以上只是举例,其中:
{url=*}代表标题网址通配符
{title=*}代表标题通配符
{*}代表不需要的内容通配符,比如当链接地址中有title描述的时候,就必须要使用到它,不能同时使用两个标题通配符的。
复杂设置如下:

比如要采集的某个列表页中的任何一篇文章的标题html代码大致如下
<tr><td><a href="文章URL地址" title="文章标题">文章标题</a></td></tr>
那么左边输入
<tr><td><a href="{url=NO"}" title="{NO"}">{title=NO<}</a></td></tr>
其中{url=NO"}代表地址当中不包含有"双引号的字符串
注意:如果代码当中没有"号,而是单引号的话,要改变一下,如
<tr><td><a href='文章URL地址'title="文章标题">文章标题</a></td></tr>
以上这个情况是单引号的话,
那么需要变成
<tr><td><a href="{url=NO'}" title="{NO"}">{title=NO<}</a></td></tr>
即是把 {url=NO"} 换成了 {url=NO'}
这里遵循的是靠近原则,它旁边是什么符号,就输入什么符号.又比如是这种情况的话
<tr><td><a href=文章URL地址 title="文章标题">文章标题</a></td></tr>
那么需要变成
<tr><td><a href={url=NO } title="{NO"}">{title=NO<}</a></td></tr>
即是把 {url=NO"} 换成了 {url=NO }
遵循的是靠近原则,他旁边是空格,这里也要输入空格,但必须要注意你的输入法是不是全格.如果是全格的话.要换为半格.全格输入的空格是有问题的.
又比如是这种情况的话
<tr><td><a href=文章URL地址>文章标题</a></td></tr>
那么就要换成
<tr><td><a href={url=NO>}>{title=NO<}</a></td></tr>
即是把 {url=NO"} 换成了 {url=NO>}
遵循的是靠近原则,他旁边是>大于号
其中{title=NO<}代表标题当中不包含有<号的字符串,也是遵循靠近原则,他旁边的是<小于号
其中{NO"}代表不包含有"号的字符串,
必须要注意的是:为何他前面没有等号呢?那是因为不考虑取他的值,我们只需要标题与文章的链接网址就足够了.但是其他非相关的内容,也必须要写一个这样的正则.那是因为每个标题当中,他们都不是一样的代码.是变化的代码.
注:所有NO后面可以写上任何字符,可多个,但不能为中文,
例如:{url=NO' "=<>}代表除' "=<>他们之外的字符串
另外有一点还需要注意的是:
当这种情况的时候:
<tr><td><a href=文章URL地址1><font color=red>文章标题1</font></a></td></tr>

<tr><td><a href=文章URL地址2>文章标题2</a></td></tr>
这两种情况同时存在的话,那么就要换成
<tr><td><a href={url=NO>}>{title=NO[}</a></td></tr>
这里为什么不遵循靠近原则呢?那是因为部分标题他外面还包含了一个标题颜色的HTML代码<font color=red></font>而部分标题却没有,情况比较复杂.此时就需要找一个他们都不可能存在的符号,而这里设置[号,当然你也可以换成]+-]%#等等都可以的.只要他们当中都不可能出现的就可以.
另外还要注意的是,为什么要用这段代码:
<tr><td><a href="{url=NO"}" title="{NO"}">{title=NO<}</a></td></tr>
而不用
<a href="{url=NO"}" title="{NO"}">{title=NO<}</a>
这段代码呢?
答案是:用这段也可以采集,但是会采集到太多不相关的内容.也就是说精确度不高.尽量拿多点代码.那精确度就会越高.但也不能过多.因为过多的话,有时就导致采集不到内容.只要唯一性就可以了.
url链接地址及标题中不能包含的字符
一般情况都必填<
多个请换行
(目的是过滤太多无用的链接地址)
标题不能小于几个字符(常用):
留空不做限制,一个汉字相当于两个字符,一般输入8
(目的,有效过滤太短的标题也即是无用的链接)
url链接地址中必须包含的字符
多个请换行
(目的也是过滤太多无用的链接地址)
显示不常用的高级设置(一般不用)
替换标题链接地址中的字符
(一般留空,目的是有些链接地址比较怪僻,点击默认的不能访问那个内容页,不过情况极少出现.)
比如:
原字符a|新字符a
原字符b|新字符b
替换标题中的字符
(一般留空,目的是过滤某些标题中不想见到的文字)
比如:
原字符a|新字符a
原字符b|新字符b
欲截取页面中的指定部分的标题链接地址,此部分标题在整个页面HTML代码所在位置之前唯一出现的字符串

(目的,去除指定标题之前无用信息,更准确无误的采集指定标题链接地址)
欲截取页面中的指定部分的标题链接地址,此部分标题在整个页面HTML代码所在位置之后最先出现的字符串,但不在标题所在html代码里出现过

(目的,去除指定标题之后的无用信息,更准确无误的采集指定标题链接地址)
开头正则语法程序


(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行)
结尾正则语法程序

(适合处理采集比较怪僻的网站.不懂PHP程序的,请留空,否则会出现严重问题使得采集程序无法运行)
(最好先测试,觉得满意后,再提交)