dmz社区

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 10142|回复: 92

[功能实现] 用PHP抓取百度贴吧邮箱数据

  [复制链接]
  • TA的每日心情

    2024-11-19 20:46
  • 签到天数: 244 天

    [LV.8]以坛为家I

    4434

    主题

    1459

    帖子

    1万

    积分

    会|员

    Rank: 9Rank: 9Rank: 9

    积分
    10734
    发表于 2019-1-26 21:48:37 | 显示全部楼层 |阅读模式

    本站资源全部免费,回复即可查看下载地址!

    您需要 登录 才可以下载或查看,没有帐号?立即注册

    x
    注:本程序可能非常适合那些做百度贴吧营销的朋友。
    去逛百度贴吧的时候,经常会看到楼主分享一些资源,要求留下邮箱,楼主才给发。
    对于一个热门的帖子,留下的邮箱数量是非常多的,楼主需要一个一个的去复制那些回复的邮箱,然后再粘贴发送邮件,不是被折磨死就是被累死。无聊至极写了一个抓取百度贴吧邮箱数据的程序,需要的拿走。
    程序实现了一键抓取帖子全部邮箱和分页抓取邮箱两个功能,界面懒得做了,效果如下:
    516712-20160412171148676-364845403.jpg

    老规矩,直接贴源码
    [PHP] 纯文本查看 复制代码
    <?php
    $url2="";
    $page="";
    if($_GET['url2']==""){
        $url2="http://tieba.baidu.com/p/2314539885?pn=1";
    }else{
        $url2=$_GET['url2'];
    }
    
    if($_GET['page']==""){
        $page="1";
    }else{
        $page=$_GET['page'];
    }
    ?>
    <form action="" method="get">
    <input type="hidden" value="getAll" name="type" />
    <table>
        <tr>
            <td>帖子链接:</td><td><input type="text" name="url" value="http://tieba.baidu.com/p/2314539885" style="width:300px;" /></td>
        </tr>
        <tr>
            <td>总页数:</td><td><input type="text" name="page" style="width:300px;" value="<?php echo $page;?>" /></td>
        </tr>
        <tr>
            <td colspan=2><input type="submit" value="抓取全部邮箱数据" /></td>
        </tr>
    </table>
    </form>
    
    <form action="" method="get">
    <input type="hidden" value="getNow" name="type" />
    <table>
        <tr>
            <td>帖子链接:</td><td><input type="text" name="url2" value="<?php echo $url2;?>" style="width:300px;" /></td>
        </tr>
        <tr>
            <td colspan=2><input type="submit" value="抓取当前页面邮箱数据" /></td>
        </tr>
    </table>
    </form>
    <?php
    if($_GET['type']!=""){
        $counts=0;
        if($_GET['type']=="getAll"){
            $pages=$_GET['page'];
            $url = $_GET['url'];
            for($i=0;$i<$pages;$i++){
                $ch2 = curl_init();
                curl_setopt($ch2, CURLOPT_URL, $url);
                curl_setopt($ch2, CURLOPT_FOLLOWLOCATION, TRUE);
                curl_setopt($ch2, CURLOPT_SSL_VERIFYHOST, FALSE);
                curl_setopt($ch2, CURLOPT_SSL_VERIFYPEER, false);
                curl_setopt($ch2, CURLOPT_RETURNTRANSFER, TRUE);
                $texts = curl_exec($ch2);
                curl_close($ch2);
                $dat=getEmail($texts);
                for($j=0;$j<count($dat);$j++){
                    echo $dat[$j]."<br />";
                    $counts++;
                }
            }
        }else if($_GET['type']=="getNow"){
            $url = $_GET['url2'];
            $ch2 = curl_init();
            curl_setopt($ch2, CURLOPT_URL, $url);
            curl_setopt($ch2, CURLOPT_FOLLOWLOCATION, TRUE);
            curl_setopt($ch2, CURLOPT_SSL_VERIFYHOST, FALSE);
            curl_setopt($ch2, CURLOPT_SSL_VERIFYPEER, false);
            curl_setopt($ch2, CURLOPT_RETURNTRANSFER, TRUE);
            $texts = curl_exec($ch2);
            curl_close($ch2);
            $dat=getEmail($texts);
            for($i=0;$i<count($dat);$i++){
                echo $dat[$i]."<br />";
                $counts++;
            }
        }
        echo '<h2>共采集到数据:'.$counts.'条</h2>';
    }
    function getEmail($str){
        $pattern = "/([a-z0-9\-_\.]+@[a-z0-9]+\.[a-z0-9\-_\.]+)/"; 
        preg_match_all($pattern,$str,$emailArr); 
        return $emailArr[0]; 
    }
    ?>



    回复

    使用道具 举报

    该用户从未签到

    22

    主题

    7969

    帖子

    917

    积分

    终身会员[A]

    Rank: 7Rank: 7Rank: 7

    积分
    917

    发表于 2019-1-30 08:18:17 | 显示全部楼层
    不错不错,楼主您辛苦了。。。
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    23

    主题

    8041

    帖子

    1038

    积分

    终身会员[A]

    Rank: 7Rank: 7Rank: 7

    积分
    1038

    发表于 2019-1-30 16:46:14 | 显示全部楼层
    我是来刷分的,嘿嘿
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    29

    主题

    7878

    帖子

    1075

    积分

    终身会员[A]

    Rank: 7Rank: 7Rank: 7

    积分
    1075

    发表于 2019-1-30 20:49:10 | 显示全部楼层
    找到好贴不容易,我顶你了,谢了
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    22

    主题

    7842

    帖子

    1075

    积分

    终身会员[A]

    Rank: 7Rank: 7Rank: 7

    积分
    1075

    发表于 2019-1-30 21:46:04 | 显示全部楼层
    路过,学习下
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    26

    主题

    7984

    帖子

    942

    积分

    终身会员[A]

    Rank: 7Rank: 7Rank: 7

    积分
    942

    发表于 2019-1-31 09:43:07 | 显示全部楼层
    路过,支持一下啦
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    18

    主题

    7874

    帖子

    1016

    积分

    终身会员[A]

    Rank: 7Rank: 7Rank: 7

    积分
    1016

    发表于 2019-2-6 15:27:11 | 显示全部楼层
    相当不错,感谢无私分享精神!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    29

    主题

    8020

    帖子

    1015

    积分

    终身会员[A]

    Rank: 7Rank: 7Rank: 7

    积分
    1015

    发表于 2019-2-8 06:30:57 | 显示全部楼层
    找到好贴不容易,我顶你了,谢了
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    23

    主题

    7985

    帖子

    1042

    积分

    终身会员[A]

    Rank: 7Rank: 7Rank: 7

    积分
    1042

    发表于 2019-2-11 15:07:34 | 显示全部楼层
    学习了,不错,讲的太有道理了
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    32

    主题

    7817

    帖子

    974

    积分

    终身会员[A]

    Rank: 7Rank: 7Rank: 7

    积分
    974

    发表于 2019-2-12 13:20:44 | 显示全部楼层
    没看完~~~~~~ 先顶,好同志
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    QQ|Archiver|小黑屋|本站代理|dmz社区

    GMT+8, 2024-12-24 02:49 , Processed in 1.110912 second(s), 44 queries .

    Powered by Discuz! X3.4 Licensed

    Copyright © 2001-2021, Tencent Cloud.

    快速回复 返回顶部 返回列表