`
soboer
  • 浏览: 1311222 次
文章分类
社区版块
存档分类
最新评论

关于curl,关于url分析

 
阅读更多

leader需要我从海量的url中选取url最多的1000个站点,每个站点再随机抽取100个url,分析url的质量,这里的质量,就是指是否死链,是否全部广告之类的

是否死链只要使用浏览器打开看看就OK了 然而 1000乘以100 ,一个一个去做的话,显然太傻,于是我使用了curl写个程序去获取http的头部信息,统计返回来的的状态码,程序再跑,可是异常的慢,现在终于明白为什么爬虫不可能使用curl去实现,效率是在太慢了,我现在打算修改一下curl的超时设置,但是还不清楚如何去做

还有,如何设置超时?如果不考虑curl的话?

至于可连接的url,分析广告之类的,我目前好像只有人工分析的办法了,想不到什么比较智能的办法。

分享到:
评论

相关推荐

    PHP基于curl post实现发送url及相关中文乱码问题解决方法

    主要介绍了PHP基于curl post实现发送url及相关中文乱码问题解决方法,结合具体实例形式分析了php使用curl实现post数据发送及content-type相关设置操作技巧,需要的朋友可以参考下

    关于Curl在Swoole协程中的解决方案详析

    最后还会给出 Curl 在 Swoole 中的解决方案,如果不想看分析可以直接拉到最后。 例程对比 宇润看文章不喜欢那些虚的,所以自己写也比较实在,直接来跑一下代码,用数据看为什么不推荐在 Swoole 使用 Curl。 为了...

    php中file_get_content 和curl以及fopen 效率分析

    关于file_get_content 和curl以及fopen 的效率问题,小编比较倾向于使用curl来访问远程url。Php有curl模块扩展,功能很是强大。没事可以研究一下。

    PHP curl批处理及多请求并发实现方法分析

    一般来说,想到要用curl_multi_init()时,目的是要同时请求多个url,而不是一个一个依次请求,否则就要curl_init()了。 不过,在使用curl_multi的时候,你可能遇到cpu消耗过高、网页假死等现象,可以看看《PHP使用...

    php实现的Curl封装类Curl.class.php用法实例分析

    本文实例讲述了php实现的... function execute($method, $url, $fields='', $userAgent='', $httpHeaders='', $username='', $password=''){ $ch = Curl::create(); if(false === $ch){ return false; } if(is_st

    PHP中curl_setopt函数用法实例分析

    具体分析如下: curl_setopt函数是php中一个重要的函数,它可以模仿用户的一些行为,如模仿用户登录,注册等等一些用户可操作的行为哦。 bool curl_setopt (int ch, string option, mixed value) curl_setopt()...

    php中file_get_contents与curl性能比较分析

    本文实例讲述了php中file_get_contents与curl性能比较分析。分享给大家供大家参考。具体如下: 在php中如果不仔细的去分析性能会发现file_get_contents与curl两个同很多共同点的,他们都可以采集文件打开文件,但是...

    PHP使用Curl实现模拟登录及抓取数据功能示例

    1. 首先需要对相应的登录页面的html源代码进行分析,获得一些必要的信息: (1)登录页面的地址; (2)验证码的地址; (3)登录表单需要提交的各个字段的名称和提交方式; (4)登录表单提交的地址; (5)另外要...

    php中foreach结合curl实现多线程的方法分析

    在利用foreach语句循环图片URL,并通过CURL将所有图片进行本地保存的函数时,出现了只能采集到一个的问题,现将foreach和CURL结合进行多URL请求的方法进行下总结. 方法1:循环请求 $sr=array(url_1,url_2,url_3); ...

    pyhon curlip地址信息爬虫器

    python 使用 pycurl 使用ip138爬取指定范围内ip地址信息。使用curl get方式获取指定范围ip地址信息并将信息存储到指定文件中。用户可以根据自己需要,修改curl的url地址和分析内容,从而扩展成自己所需要的爬虫插件

    php使用curl获取https请求的方法

    具体分析如下: 今日在做一个项目,需要curl获取第三方的API,对方的API是https方式的。 之前使用curl能获取http请求,但今天获取https请求时,出现了以下的错误提示:证书验证失败。 SSL certificate problem, ...

    可兼容php5与php7的cURL文件上传功能实例分析

    本文实例讲述了可兼容php5与php7的cURL文件上传功能。分享给大家供大家参考,具体如下...如果要将程序文件放在其他目录运行,必须更改php代码中的相关URL,否则示例可能无法运行。 <html> <head> <ti

    php curl中gzip的压缩性能测试实例分析

    本文实例分析了php curl中gzip的压缩性能测试。分享给大家供大家参考,具体如下: 前因: 请求接口次数很多,每日两亿多次,主要是有些接口返回数据量很大高达110KB(为了减少请求次数,将多个接口合并成一个导致的...

    PHP采用curl模仿用户登陆新浪微博发微博的方法

    前天接到一个需求需要模拟登陆微博然后进行发微博,以前干过很多的模拟登录阿里妈妈,微信,还有些其他的内部系统,至今没有出现不能登录的,哈哈,所以也就没有当一回事情,可是当分析新浪的登陆过程的时候才感觉到...

    PHP curl_setopt()函数实例代码与参数分析

    curl_setopt (PHP 4 >= 4.0.2) curl_setopt — 为CURL调用设置一个选项 描述 bool curl_setopt (int ch, string option, mixed value) curl_setopt()函数将为一个CURL会话设置选项。option参数是你想要的设置,value...

    使用php方法curl抓取AJAX异步内容思路分析及代码分享

    ajax只不过是做了一次异步的http请求,只要使用firebug类似的工具,找到请求的后端服务url和传值的参数,然后对该url传递参数进行抓取即可。 利用Firebug的网络工具  如果抓去的是页面,则内容中没有显示的数据,...

    PHP的cURL库简介及使用示例

    PHP中的CURL函数库(Client URL Library Function) 复制代码 代码如下: curl_close — 关闭一个curl会话 curl_copy_handle — 拷贝一个curl连接资源的所有内容和参数 curl_errno — 返回一个包含当前会话错误信息的...

    基于curl数据采集之单页面并行采集函数get_htmls的使用

    功能需求分析: 返回什么? 当然每一个页面的html集合成的数组 传递什么参数? 编写get_html()时,我们知道了可以用options数组来传递更多的curl参数,那么多页面同时采集函数的编写这种特性也得保留下来。 什么...

Global site tag (gtag.js) - Google Analytics