Board logo

标题: 新浪正规则space.php [打印本页]

作者: 龙听    时间: 2017-7-11 23:04     标题: 新浪正规则space.php

  1. $regex_link = '#(?<=<li><a href=").+?(?=")#s'; //问题在这里。$regex_tit = '#(?<=<title>)(.+?)(?=</title>)#s';$regex_con = "#(?<=f_id='45' -->)(.*?)(?=<!-- news_keyword_pub)#s";
复制代码

这个是源地址:http://roll.finance.sina.com.cn/finance/qh/pzyj/index.shtml

这是问题链接,问题就出在提取这个链接时出现了,因为没有特别的代码,所以提取了一些不是这个需要的链接。
  1. <ul class="list_009">                        
  2.                                 <li><a href="http://finance.sina.com.cn/money/future/rese/2017-07-12/doc-ifyhweua4871165.shtml" target="_blank">现货“挺价潮”染红螺纹期盘 未来有望延续上涨</a><span>(07月12日 00:57)</span></li>
  3.                                        
  4.                                        
  5.                                 <li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4814030.shtml" target="_blank">瑞达期货:双焦延续涨势 多头策略为主</a><span>(07月11日 16:54)</span></li>
  6.                                        
  7.                                        
  8.                                 <li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4811854.shtml" target="_blank">瑞达期货:沥青量能俱增 期价收涨</a><span>(07月11日 16:39)</span></li>
  9.                                        
  10.                                        
  11.                                 <li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4809298.shtml" target="_blank">瑞达期货:郑煤振荡冲高 多头情绪笼罩</a><span>(07月11日 16:25)</span></li>
  12.                                        
  13.                                        
  14.                                 <li><a href="http://finance.sina.com.cn/money/future/indu/2017-07-11/doc-ifyhweua4804061.shtml" target="_blank">瑞达期货:甲醇增仓增量 期价收涨</a><span>(07月11日 15:54)</span></li>
  15.                                        
  16.                 </ul>
复制代码


这是部分出错的链接
  1. <span id="bloglist" class="bloglist" style="position:relative"><a style="position:relative;" id="bloglist" class="bloglist" href="http://blog.sina.com.cn/lm/finance/">博客</a><span class="blog_list" id="blog_list"><ul><li><a href="http://blog.sina.com.cn/lm/finance/" target="_blank">财经博客</a></li><li><a href="http://blog.sina.com.cn/lm/stock/" target="_blank">股票博客</a></li></ul></span></span>        
复制代码



我想用<li><a href="  和 “来截取链接。但是出现了在非想要的链接。这样的情况下只能多加些标志源码。比方说 将上个链接的部分源码 </span></li><li><a href=">来做为截取链接的前面的代码。但是在源码中这一串源码中间不仅有空格还有换行。用这个正规则我测试了一下是取不出地址的。说是语法错误。
作者: 龙听    时间: 2017-7-11 23:09

我做的几个RSS,不知道为什么在昨天您发的那个网站上时显示超时,没有一个能成功更新的。




图片附件: 微信截图_20170713165309.png (2017-7-13 16:55, 36.4 KB) / 下载次数 73
http://www.qhlt.cn/attachment.php?aid=1558&k=6cee0462cf25af704b353e04c0fb2944&t=1714767420&sid=bTJZEs



图片附件: 微信截图_20170713165449.jpg (2017-7-13 16:56, 61.66 KB) / 下载次数 65
http://www.qhlt.cn/attachment.php?aid=1559&k=1d6d907f0d80fdfea8b19828e7428ebb&t=1714767420&sid=bTJZEs






欢迎光临 龙听期货论坛 (http://www.qhlt.cn/) Powered by Discuz! 7.2