专注于网站技术与网络营销的博客
« .Net+MySQL的开发(数据库访问)今天用PuTTY连Ubuntu的SSH出现乱码的处理 »

运用C#在采集时进行自动验证登录

最近有朋友在问我如何进行信息采集时对一些有用户或和密码验证的网站进行采集,刚好最近在项目中有运用到这个来进行验证登录,将部分代码发出来与大家分享学习,这只是我在网上参考人家的做的一个雏形试用版,虽然能用,但是性能可能不是那么好。。目前只能对那些没有登录验证码的网站有效,如果有验证码的,呵呵。那还得去写一个分析验证的类来进行Get.....

最近我的工作比较杂乱,也没有来得及整理,这些都是临时用了一下就搁在一边了,最近又忙着去学习Ubuntu、然后.Net+MySQL的一个项目,呵呵。还有星际。



首先打开网站,查看源文件,找到他的登录表单部分。

比如:
<form name="login" action="loginMain.jsp" method="POST" target="_top">
      <table width="218" border="0" cellspacing="0" cellpadding="0">
        <tr>
          <td width="50" height="28" class="hui"><div align="right">用户名:</div></td>
          <td width="168" height="28"><input class="hui" id="username"
            maxlength="40" size="23" name="username" id="username" /></td>
        </tr>
        <tr>
          <td height="28" class="hui"><div align="right">密 码:</div></td>
          <td height="28"><input class="hui" id="passwd"
            maxlength="40" size="23" name="passwd" type="password" id="passwd" /></td>
        </tr>
      </table>
</form>
从以上表单可以看出,表单提交的方法是:POST,提交至loginMain.jsp处理,共有两个表单项即:username、passwd

下面是C#模仿登录程序:Login.cs

using System;
using System.Data;
using System.Net;
using System.Text;
using System.IO;
using System.Text.RegularExpressions;

/// <summary>
 /// 登录网站并获取Cookies
 /// </summary>
 /// <returns>成功登录的Cookie信息</returns>
public static CookieContainer Get_Login()
 {
            CookieContainer cc = new CookieContainer();
            string FormURL="http://blog.hnce.net/loginMain.jsp";                //处理表单的绝对URL地址
            string FormData = "username=slick&passwd=hedy12345";    //表单需要提交的参数,注意改为你已注册的信息。
            ASCIIEncoding encoding = new ASCIIEncoding();
            byte[] data = encoding.GetBytes(FormData);

            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(FormURL);
            request.Method = "POST";    //数据提交方式
            request.ContentType = "application/x-www-form-urlencoded";
            request.ContentLength = data.Length;
            request.UserAgent = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)";
            //模拟一个UserAgent
            Stream newStream = request.GetRequestStream();
            newStream.Write(data, 0, data.Length);

            newStream.Close();
                   
            request.CookieContainer = cc;
                   
            HttpWebResponse response = (HttpWebResponse)request.GetResponse();
            cc.Add(response.Cookies);
            Stream stream = response.GetResponseStream();
            string WebContent = new StreamReader(stream, System.Text.Encoding.Default).ReadToEnd();
            return cc;
}

调用以上的方法来获取需要登录才能查看的内容。

            CookieContainer cc = new CookieContainer();
            cc = Login.Get_Login();            //获取登录Cookies

            string PhotoClassURL = "http://blog.hnce.net/xxx.jsp";
            HttpWebRequest Myrequest = (HttpWebRequest)WebRequest.Create(PhotoClassURL);
            Myrequest.CookieContainer = cc;
            HttpWebResponse Myresponse = (HttpWebResponse)Myrequest.GetResponse();
            cc.Add(Myresponse.Cookies);
            Stream Mystream = Myresponse.GetResponseStream();
            string sHtml = new StreamReader(Mystream, System.Text.Encoding.Default).ReadToEnd();


sHtml即为你登录之后看到的内容。程序写的比较凌乱,如你有什么意见和不清楚的地方可以给我发邮件:hedongyang#gmail.com
(#请换为@就可以了)

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Powered By Z-Blog 1.8 Devo Build 80201

Copyright 2005 - 2008, 完美生活(专注于网站技术与网络营销的博客). Some Rights Reserved.