虽然火车收集器可以收集到url,但是如果我们想在内容中引用这个url怎么搞呢?
利用火车头收集当前网站url参数可以从URL在自己的网站上截取有用的信息。接下来,我将教你如何获得它:
车头采集器采集网站url参数数据。正则表达式需要使用:^(?[\s\S]*?)$
我们在火车收集器中添加标签,然后从网页地址中选择数据源,选择正则提取。
点击“(?
Content代表内容
\s匹配所有空白字符,包括空格、换行、tab缩进等所有空白
\S 与\s相反,匹配所有非空白字符
*修饰匹配次数为 0 次或任意次数
[ ] 这个符号表示单个字符的无限顺序出现
在正则表达式中,美元符号$比如匹配一行的结尾,”abc$意思是以abc结尾的行,”^$”表示空行。^符号是定义符号,规定匹配^后面开头的字符串
如果您想将收集页地址保存到本地文件中,可以直接使用[标签:PageUrl] 这将输出网站。
上面演示的是火车头V9快乐版高铁采集器的设置,火车采集器V7.6也是如此。以下是火车收集器V7.6设置方法: