虽然火车收集器可以收集到url,但是如果我们想在内容中引用这个url怎么搞呢?

利用火车头收集当前网站url参数可以从URL在自己的网站上截取有用的信息。接下来,我将教你如何获得它:

车头采集器采集网站url参数数据。正则表达式需要使用:^(?[\s\S]*?)$

我们在火车收集器中添加标签,然后从网页地址中选择数据源,选择正则提取。

点击“(??)下面的内容框会出现(?[\s\S]*?),在这串字符前后加一个字符ok了。变成“^(?[\s\S]*?)$

Content代表内容
   
   \s匹配所有空白字符,包括空格、换行、tab缩进等所有空白
   \S  与\s相反,匹配所有非空白字符
   *修饰匹配次数为 0 次或任意次数
   [ ] 这个符号表示单个字符的无限顺序出现

在正则表达式中,美元符号$比如匹配一行的结尾,”abc$意思是以abc结尾的行,”^$”表示空行。^符号是定义符号,规定匹配^后面开头的字符串

如果您想将收集页地址保存到本地文件中,可以直接使用[标签:PageUrl] 这将输出网站。

上面演示的是火车头V9快乐版高铁采集器的设置,火车采集器V7.6也是如此。以下是火车收集器V7.6设置方法: