回归

Shadow

  DonewsBlog  |  Donews首页  |  Donews社区  |  Donews邮箱  |  我的首页  |  联系作者  |  聚合   |  登录
  307篇文章 :: 0篇收藏:: 16篇评论:: 1个Trackbacks

文章

收藏

相册

论坛

软件

存档


正在读取评论……


3) ASP


    摘要:色光的三原色分别为红、绿、蓝。在计算机中,颜色的显示由就以这     (全文共11658字)——点击此处阅读全文


    摘要:

http://cache.baidu.com/c?word=asp%2Cmicrosoft%3B%2E%3Bxmlhttp%2Cpost&url=http%3A//www%2Emdlm%2Ecn/read%2Ephp%3Ftid%3D514&b=7&a=0&user=baidu

http://support.microsoft.com/default.aspx?scid=kb;zh-cn;290591

    (全文共480字)——点击此处阅读全文


    摘要:

描述

返回一个数字格式的表达式。

语法

FormatNumber(Expression[,NumDigitsAfterDecimal [,IncludeLeadingDigit [,UseParensForNegativeNumbers [,GroupDigits]]]])

FormatNumber函数语法有如下几部分:

    (全文共2716字)——点击此处阅读全文

XMLHTTP能干很多事情,但是在这里我们要它干的只是:将指定的网页的HTML代码读出。
如果通过程序读出对方(当当、卓越)的相应HTML代码就好办了,因为商品数据就存储在那庞杂的代码中。

这很简单,我接着写了如下函数:
 
function getBody(infopageurl)
'功能:取得指定网址的html代码
'参数:infopageurl 网页地址
if infopageurl<>"" then
 dim xmlHttp
 set xmlHttp=server.createobject("MSXML2.XMLHTTP")
‘声明XMLHTTP对象
 xmlHttp.open "GET",infopageurl,false
 xmlHttp.send
’上面这两就句就是调用的形式,调用后程序会堵塞在send这句,直到内容被返回。
        getBody=BytesToBstr(xmlhttp.responsebody,"GB2312")‘然后通过xmlhttp.responsebody属性将返回内容读出,这里用到一个BytesToBstr函数将在后面说明。
 set xmlHttp=nothing
end if 
end function
 
关于BytesToBstr,开始返回的结果没有经过这个函数处理,结果返回的汉字是一堆乱码。什么原因就不用深究了。我到www.chinaz.com下载了几个”小偷’的程序,发现里面不约而同的都含有这个函数。大概就是用adodb.stream对结果字符进行了转换。我把它加到我的函数里结果就正常了。
 
Function BytesToBstr(body,Cset)
 dim objstream
 
 set objstream = Server.CreateObject("adodb.stream")
 
 objstream.Type = 1
 
 objstream.Mode = 3
 
 objstream.Open
 
 objstream.Write body
 
 objstream.Position = 0
 
 objstream.Type = 2
 
 objstream.Charset = Cset
 
 BytesToBstr = objstream.ReadText
 
 objstream.Close
 
 set objstream = nothing
End Function

html代码取回来了,我们怎么从中取得需要的数据?答案是正则表达式。
 
正则表达达式就象是一种简单的语言。它用一些特殊的字符模糊地描述一个字符串。然后可以通过程序去检查一个字符串中是否包含你描述的那种字符串,还可以将你描述的字符从一个字符串中取出,这里我们就是利用这个功能来获取需要的数据。
 
举起例子比较容易理解:
* 匹配前面的子表达式零次或多次。例如,zo*(正则表达式) 能匹配 z 、 zoo、zooooo、zoooooooooo
+ 匹配前面的子表达式一次或多次。例如,zo+ 能匹配 zo 以及 zoo,但不能匹配 "z"。
\d 匹配一个数字字符。等价于 [0-9]。  例如, \d+ 可以匹配 1,123,9876
.匹配除 "\n" 之外的任何单个字符。
? 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。
 
下面要做的就是分析商品数据在html代码中存放的特征,然后写出正则表达式将其取出。
例如,joyo商品的市场价格数据在html代码中是这样存储的“市场价:15.00元”,要做的是把以“市场价:”开头,“元”结尾之间的数值取出。下面函数就实现了这个功能:
 
function Topic(sHtmlcode)
'功能:返回joyo.com商品页面的市场价格数值
'参数:shtmlcode 商品页的html代码
Set regEx = New RegExp'建立使用正则表达式的对象
regEx.IgnoreCase =true
regEx.Global = True
regEx.Pattern ="市场价:(.+?)元"设置表达式
Set Matches = regEx.Execute(shtmlcode)'执行表达式将所有符合描述的字符传存放到一个集合里。
for each sMatch in Matches
Topic=sMatch.SubMatches(0)
'submatches(0)带表第一个子匹配,既小括号中的数值
exit for
next 
set regEx=nothing
end function
 
其他的数据也用同样的方法取得。写正则表达式是一个很有趣而且很复杂的工作。期间我遇到写不出来的,就去CSDN.net的论坛去提问,总是可以得到帮助。
 
还有一点要思考的是:是不是这个表达式对所有的商品页面都适用。如果所有的商品都是用一个asp程序显示那就可以,但是joyo.com不是,它的不同分类中html代码的格式是不同的,所以我们要写几个正则表达式来分别匹配不同形式的数据(比如有些页面中市场价格是这样存储的“市场价:<b>15.00</b>元")。

有了这些函数我们就可以用给定的商品网页地址取得相应的数据了。但是这些网站的商品一般都有万余种,如何获取这些地址就不是那么容易了。这个过程因站而异,这也是真正需要“小偷”智慧的工作之一。
 
拿joyo.com进行分析。进入首页之后我发现里面有个”产品搜索“,选择“所有类别”,关键字置空,点击那个”GO!"检索出了21684条记录。这应该就是joyo.com的所有商品信息了,来的太容易我简直不敢相信。

检索页上包含有10条商品的连接,用正则取得后,再取得转向后10条记录(即下一页)的连接。如此循环就会得出所有商品信息。我用access建了一个表来存放它们。编好了程序挂到机器上就睡觉去了。

这是一个检索结果页的连接:
http://www.joyo.com/ProdSearch/prodsearch.asp?kind=&limitBefore=10&vname=&sorttype=undefined&uid=u5swcqykpzsis0qaiwg79sg5u
其中limitBefore=10 当前页第一条记录前有10条记录,即这一页的第一条是总的第11条记录。
 
第二天兴奋地来到机器上一看,发现记录只有700多条。很郁闷,程序我没加容错处理因为我发现vbscript的错误处理比vb中的还要简略。似乎连on error goto LABEL都不可以使用。我在检索页点来点去希望找出错误的根源,结果发现当其中limitBefore大于750的时候后面就没有记录了。原来是这样。joyo.com的程序员没有让我们这么容易的得到所有数据。这条路是不能走了。
 

下面我开始分析检索结果中商品信息页面的连接:
http://www.joyo.com/shop/shop_product.asp?uid=u5swcqykpzsis0qaiwg79sg5u&prodid=bkbk507440
经分析 prodid=bkbk507440 是这个产品的唯一标识,bkbk表示该产品的所属分类“图书”
 
这是一些其他的主要分类标识:
bkbk 图书
bkmu 音乐
itit 数码
bkbh 日用
itrj 数码产品
bkgm 游戏
bkys 影视
 
只要我遍历所有的prodid然后找出存在的商品页面就可以了。然而怎么判断该prodid是否存在呢,我在地址栏上胡乱打了一个prodid返回了出错结果页面。
 
http://www.joyo.com/errormsg.asp?uid=u5swcqykpzsis0qaiwg79smuw&err=GET%C7%EB%C7%F3%B5%C4%C9%CC%C6%B7ID%B2%BB%B4%E6%D4%DA%A3%AC%B2%D9%D7%F7%CE%DE%B7%A8%BC%CC%D0%F8%A3%A1
 
出错页上有一张红色的“警钟”图案,我估计正常的页面上是不可能包含此图片的。于是以此作为判断prodid是否存在的依据。遍历所有prodid,如果在返回结果html中发现“警钟”图片则不做处理,否则就从页面中取出需要的信息。

遍历6位的prodid是个漫长的过程,粗略的估算,如果每个操作用时1秒的话,则最少需要999999次循,环即999999秒(999999/3600=277多小时)。这显然是太长了,于是我又做了一些优化,发现第一位数字只在0-5之间变化,第二为数字只在0-1之间变化。这样大大的缩短了时间(519999/3600=144多小时),实际的时间更乐观。
 
经过几天的调试终于把图书分类下载完了,接下来我又接着优化程序,做一个更有效率的“小偷”。


    摘要:
下面重新注释了BytesToBstr函数,它的作用是把由xmlhttp.responsebody返回的字节数组转换成文本字符串,如果数据要用做屏幕输入则必须转换否则汉字会出现乱码.
 
 Function BytesToBstr(body)
  'Cset:GB2312 UTF-8
  dim objstream
  set objstream = Server.CreateObject("adodb.stream")
  with objstream
   .Type = 1 '设置返回数据类型为二进制
   .Mode = 3 '打开模式为读写
   .Open    
 &    (全文共5357字)——点击此处阅读全文


    摘要: 
在我们编写用户身份验证程序中,很容易用ASP调用SQL语句来检索数据表中是否有条件相符的记录,然后再用ASP进行相关处理。

  条条道路通罗马!当然,我们也可以用SQL SERVER数据库的存储过程来轻松实现这个功能。虽然相对而言较复杂,但其效率的提升是很明显的,因为存储过程是在数据库中已经编译好的一段程序,我们只需用ASP将其所用的各种参数正确传递就行了。
  
  本文也主要是想通过一个简单的事例,向大家介绍一下如何在ASP中调用带参数的存储过程。希望大家能从中得到更多的启迪。

  第一步,建立数据表userinfo
id int(4) not null,
fullname varchar(50)     (全文共2707字)——点击此处阅读全文

set rs=conn.execute("select upshijian,pri,id from price")
do while not rs.eof
msg=msg & rs("upshijian") & chr(9) & rs("pri") & chr(9) & rs("id")& vbcrlf
rs.movenext
loop
title=title & "上传时间" & chr(9) & "产品价格" & chr(9) & "用户ID" & vbcrlf
set f=server.createobject("scripting.filesystemobject")
set myfile=f.createtextfile("d:\xmllover.xls",true)
myfile.write(title & msg)
myfile.close
response.Write("生成成功!")
response.End()



    摘要:<%set rs=conn.execute("select upshijian,pri from price")do while not rs.eofmsg=msg & rs("upshijian") & chr(9) & rs("pri") & vbcrlfrs.movenextloopset f=server.createobject("scripting.filesystemobject")set myfile=f.createtextfile("d:\xmllover.xls",true)myfile.write(msg)myfile.closeresponse.Write("")response.End()%>    (全文共1128字)——点击此处阅读全文


    摘要:

一个用asp备份与恢复SQL Server数据库的例子代码,希望对一些朋友有用。(注意:数据库使用中可能无法恢复)

<HTML>
<HEAD>
<TITLE>SQL Server 数据库的备份与恢复</TITLE>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
</HEAD>
<BODY>
<form method="post" name=myform>
选择操作:<INPUT TYPE="radio" NAME="act" id="act_backup"  value="backup"><label for=act_backup    (全文共3526字)——点击此处阅读全文


    摘要:一、取得原页中的图片的地址
<%
function PicStr(str)
 Set objRegExp = New Regexp '设置配置对象
 objRegExp.IgnoreCase = True '忽略大小写
 objRegExp.Global = True '设置为全文搜索
 objRegExp.Pattern = "<IMG.+?>" '为了确保能准确地取出图片地址所以分为两层配置:首先找到里面的<IMG>标签,然后再取出里面的图片地址后面的getimgs函数就是实现后一个功能的。
 strs=trim(str)
 Set Matches =objRegExp.Execute(strs) '开始执行配置
 For Each Match in Matches
 PicStr = PicStr &ge    (全文共3038字)——点击此处阅读全文

第1页,共8页