回归

Shadow

  DonewsBlog  |  Donews首页  |  Donews社区  |  Donews邮箱  |  我的首页  |  联系作者  |  聚合   |  登录
  307篇文章 :: 0篇收藏:: 16篇评论:: 1个Trackbacks

文章

收藏

相册

论坛

软件

存档


正在读取评论……


2006年03月


Function CreateIndex(URLRemote,FileNameLocal)
 Dim vFilePath,strUrl,strTmp,PhFilePath
 
 strUrl=URLRemote    '访问的URL
 vFilePath = FileNameLocal '本地文件名称
 PhFilePath = Server.MapPath(vFilePath)'本地路径
 Dim TempPhotoDate,ReGetPhoto
 ReGetPhoto = False     '开关
 if("true"=request.QueryString("byman")) then ReGetPhoto = True     
 '每天执行一次
  TempPhotoDate = Application("PhotoDate")
  If DateDiff("d",TempPhotoDate,Date())>=1 Then
   ReGetPhoto = True
   Application.Lock
   Application("PhotoDate") = Date()
   Application.Unlock
  ElseIf Hour(Time)>20 Then
   ReGetPhoto = True
  End If
 '==================================
 
 If CheckFileExists(PhFilePath) And Not ReGetPhoto Then
  'strUrl = SiteUrl & vFilePath
  'strTmp = GetHTTPPage(strUrl)
 Else
  '当删除文件时强制更新
  Application.Lock
  Application("PhotoDate") = Date()
  Application.Unlock
  Dim i,PhotoDate,ImagesList,TitleList,strArray,Count
  If Hour(Time)>23 Then
   PhotoDate = Date
  Else
   PhotoDate = DateAdd("d",-1,Date)
  End If
  PhotoDate = FormatDate(PhotoDate,"-")
  'strUrl = "http://news.sina.com.cn/photo/imp/"&PhotoDate&"/index.shtml"
  strTmp = GetHTTPPage(strUrl)
  
  '将远程文件写入本地目录
  Call WriteLocalFile(PhFilePath,strTmp)
 End If
End Function



1:====================================================
response.Write(GetBody("http://www.chinaxg.com.cn"))
Function GetBody(weburl)
    '创建对象
    Set Retrieval = CreateObject("Microsoft.XMLHTTP")
    With Retrieval
     Retrieval.Open "Get", weburl, False, "", ""
     Retrieval.Send()
     GetBody = bytes2BSTR(Retrieval.ResponseBody)
     End With
    '释放对象
    Set Retrieval = Nothing
End Function

Function bytes2BSTR(vIn)
strReturn = ""
For i = 1 To LenB(vIn)
ThisCharCode = AscB(MidB(vIn,i,1))
If ThisCharCode < &H80 Then
strReturn = strReturn & Chr(ThisCharCode)
Else
NextCharCode = AscB(MidB(vIn,i+1,1))
strReturn = strReturn & Chr (CLng(ThisCharCode) * &H100 + CInt(NextCharCode))
i = i + 1
End If
Next
bytes2BSTR = strReturn
End Function
===============================================================

2================================================================
response.Write(GetBody("http://www.chinaxg.com.cn"))
Function GetBody(weburl)
    '创建对象
    Dim ObjXMLHTTP
    Set ObjXMLHTTP=Server.CreateObject("MSXML2.serverXMLHTTP")
    '请求文件,以异步形式
    ObjXMLHTTP.Open "GET",weburl,False
    ObjXMLHTTP.send
    While ObjXMLHTTP.readyState <> 4
        ObjXMLHTTP.waitForResponse 1000
    Wend
    '得到结果
     GetBody=bytes2BSTR(ObjXMLHTTP.responseBody)
    '释放对象
     Set ObjXMLHTTP=Nothing

End Function

'编码转换函数
Function bytes2BSTR(vIn)
strReturn = ""
For i = 1 To LenB(vIn)
ThisCharCode = AscB(MidB(vIn,i,1))
If ThisCharCode < &H80 Then
strReturn = strReturn & Chr(ThisCharCode)
Else
NextCharCode = AscB(MidB(vIn,i+1,1))
strReturn = strReturn & Chr (CLng(ThisCharCode) * &H100 + CInt(NextCharCode))
i = i + 1
End If
Next
bytes2BSTR = strReturn
End Function

=================================================================


3==================================================================
Dim objAdoStream
set objAdoStream = Server.createObject("ADODB.Stream")
objAdoStream.Type = 1
objAdoStream.Open()
objAdoStream.write("asdfas")
objAdoStream.SaveToFile server.MapPath("stream.htm"),2
objAdoStream.Close()
response.Write("chenggong")
response.End()

=====================================================================

4====================================================================
response.Write(BytesToBstr("asdfasdf","GB2312"))
Function BytesToBstr(body,Cset)
        dim objstream
        set objstream = Server.CreateObject("adodb.stream")
        objstream.Type = 1
        objstream.Mode =3
        objstream.Open
        objstream.Write body
        objstream.Position = 0
        objstream.Type = 2
        objstream.Charset = Cset
        BytesToBstr = objstream.ReadText
        objstream.Close
        set objstream = nothing
End Function


=====================================================================

Function BytesToBstr(body,Cset)
        dim objstream
        set objstream = Server.CreateObject("adodb.stream")
        objstream.Type = 1
        objstream.Mode =3
        objstream.Open
        objstream.Write body
        objstream.Position = 0
        objstream.Type = 2
        objstream.Charset = Cset
        BytesToBstr = objstream.ReadText
        objstream.Close
        set objstream = nothing
End Function




目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策:

一、判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问

弊端:
1、此方法只适用于动态页面,如:asp\jsp\php等...静态页面无法判断某个IP一定时间访问本站页面的次数。
2、此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程。此方法也会拒绝搜索引擎蜘蛛收录站内文件
采集对策:只能放慢采集速度,或者不采
建议:做个搜索引擎蜘蛛的IP库,只允许搜索引擎蜘蛛快速浏览站内内容。搜索引擎蜘蛛的IP库的收集,也不太容易,一个搜索引擎蜘蛛,也不一定只有一个固定的IP地址。
评论:此方法对防采集比较有效,但却会影响搜索引擎对其收录。

二、用javascript加密内容页面

弊端:此方法适用于静态页面,但会严重影响搜索引擎对其收录情况,搜索引擎收到到的内容,也都是加密后的内容
采集对策:建议不采,如非要采,就把解密码的JS脚本也采下来。
建议:目前没有好的改良建议
评论:建议指望搜索引擎带流量的站长不要使用此方法。

三、把内容页面里的特定标记替换为[color=Red]”特定标记+隐藏版权文字“[/color]

弊端:此方法弊端不大,仅仅会增加一点点的页面文件大小,但容易反采集
采集对策:把采集来的含有隐藏版权文字内容的版权文字替掉,或替换成自己的版权。
建议:目前没有好的改良建议
评论:自己感觉实用价值不大,就算是加上随机的隐藏文字,也等于画蛇添足。

四、只允许用户登陆后才可以浏览

弊端:此方法会严重影响搜索引擎蜘蛛对其收录
采集对策:目前落伍已经有人发了对策文章 ,具体对策就看这个吧《ASP小偷程序如何利用XMLHTTP实现表单的提交以及cookies或session的发送》
建议:目前没有好的改良建议
评论:建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序,还是有点效果的。

五、用javascript、vbscript脚本做分页

弊端:影响搜索引擎对其收录
采集对策:分析javascript、vbscript脚本,找出其分页规则,自己做个对应此站的分页集合页即可。
建议:目前没有好的改良建议
评论:感觉懂点脚本语言的人都能找出其分页规则

六、只允许通过本站页面连接查看,如:Request.ServerVariables("HTTP_REFERER")

弊端:影响搜索引擎对其收录
采集对策:不知道能不能模拟网页来源。。。。目前我没有对应此方法的采集对策
建议:目前没有好的改良建议
评论:建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序,还是有点效果的。

从以上可以看出,目前常用的防采集方法,要么会对搜索引擎收录有较大影响,要么防采集效果不好,起不到防采集的效果。那么,还有没有一种有效防采集,而又不影响搜索引擎收录的方法呢?那就请继续往下看吧




采集原理:

采集程序的主要步骤如下:

一、获取被采集的页面的内容
二、从获取代码中提取所有用的数据

一、获取被采集的页面的内容

我目前所掌握的ASP常用获取被采集的页面的内容方法:

1、用serverXMLHTTP组件获取数据

Function GetBody(weburl)
'-----------------翟振恺(小琦)
    '创建对象
    Dim ObjXMLHTTP
    Set ObjXMLHTTP=Server.CreateObject("MSXML2.serverXMLHTTP")
    '请求文件,以异步形式
    ObjXMLHTTP.Open "GET",weburl,False
    ObjXMLHTTP.send
    While ObjXMLHTTP.readyState <> 4
        ObjXMLHTTP.waitForResponse 1000
    Wend
    '得到结果
     GetBody=ObjXMLHTTP.responseBody
    '释放对象
     Set ObjXMLHTTP=Nothing
'-----------------翟振恺(小琦)
End Function

调用方法:GetBody(文件的URLf地址)

2、或XMLHTTP组件获取数据

Function GetBody(weburl)
'-----------------翟振恺(小琦)
    '创建对象
    Set Retrieval = CreateObject("Microsoft.XMLHTTP")
    With Retrieval
     .Open "Get", weburl, False, "", ""
     .Send
     GetBody = .ResponseBody
     End With
    '释放对象
    Set Retrieval = Nothing
'-----------------翟振恺(小琦)
End Function

调用方法:GetBody(文件的URLf地址)

这样获取的数据内容还需要进行编码转换才可以使用

Function BytesToBstr(body,Cset)
'-----------------翟振恺(小琦)
        dim objstream
        set objstream = Server.CreateObject("adodb.stream")
        objstream.Type = 1
        objstream.Mode =3
        objstream.Open
        objstream.Write body
        objstream.Position = 0
        objstream.Type = 2
        objstream.Charset = Cset
        BytesToBstr = objstream.ReadText
        objstream.Close
        set objstream = nothing
'-----------------翟振恺(小琦)
End Function

调用方法:BytesToBstr(要转换的数据,编码)'编码常用为GB2312和UTF-8。

二、从获取代码中提取所有用的数据

1、用ASP内置的MID函数截取需要的数据

Function body(wstr,start,over)
'-----------------翟振恺(小琦)
start=Newstring(wstr,start)
'设置需要处理的数据的唯一的开始标记
over=Newstring(wstr,over)
'和start相对应的就是需要处理的数据的唯一的结束标记
body=mid(wstr,start,over-start)
'设置显示页面的范围
'-----------------翟振恺(小琦)
End Function

调用方法:body(被采集的页面的内容,开始标记,结束标记)

2、用正则获取需要的数据

Function body(wstr,start,over)
'-----------------翟振恺(小琦)
Set xiaoqi = New Regexp'设置配置对象
xiaoqi.IgnoreCase = True'忽略大小写
xiaoqi.Global = True'设置为全文搜索
xiaoqi.Pattern =  "”&start&“.+?”&over&“"'正则表达式
Set Matches =xiaoqi.Execute(wstr)'开始执行配置
set  xiaoqi=nothing
body=""
For Each Match in Matches
body=body&Match.Value '循环匹配
Next
'-----------------翟振恺(小琦)
End Function

调用方法:body(被采集的页面的内容,开始标记,结束标记)

采集程序祥细思路:

1、取得网站的分页列表页的每页地址
目前绝大部分动态网站的分页地址都有规则,如:
动态页
第一页:index.asp?page=1
第二页:index.asp?page=2
第三页:index.asp?page=3
.....

静态页
第一页:page_1.htm
第二页:page_2.htm
第三页:page_3.htm
.....

取得网站的分页列表页的每页地址,只需要用变量替代每页地址的变化的字符即可如:page_<%="&page&"%>.htm

2、获取被采集网站的分页列表页内容

3、从分页列表代码中提取[color=Blue]被采集的内容页面的URL连接地址[/color]
绝大部分分页页面里的内容页连接也有固定规则,如:
<a href="url1">连接1</a> <br>
<a href="url2">连接2</a> <br>
<a href="url3">连接3</a> <br>

用以下代码就可以获得一个URL连接集合

'-----------------翟振恺(小琦)
Set xiaoqi = New Regexp
xiaoqi.IgnoreCase = True
xiaoqi.Global = True
xiaoqi.Pattern =  ””“.+?”““
Set Matches =xiaoqi.Execute(页面列表内容)
set  xiaoqi=nothing
url=""
For Each Match in Matches
url=url&Match.Value
Next
'-----------------翟振恺(小琦)

4、取得被采集的内容页面内容,根据”提取标记“从被采集的内容页面分别截取要取得的数据。

因为是动态生成的页面,大多数内容页面内都有相同的html标记,我们可以根据这些有规则的标记提取需要的各个部分的内容。如:

每个页面都有网页标题<title>网页标题</title>,用我上面写的MID截取函数就可以获得<title></title>之间的值,也可以用正则表达式来获得。
例:body("<title>网页标题</title>","<title>","</title>")





    摘要:

生成HTML方法主要步骤只有两个:

一、获取要生成的html文件的内容
二、将获取的html文件内容保存为html文件

我在这里主要说明的只是第一步:如何获取要生成的html文件的内容:

目前常用获取html文件的内容的方法有几下几种:

1、这种方法与是在脚本内写要生成的html内容,不太方便预览生成页面的内容,无法可视化布局页面,更改html模板时会更加复杂。用这种方法的人很多,但我感觉这种方法是最不方便的。

str="<html标记>内容</html标记>"
str=str&"<html标记>内容</html标记><html标记>数据库读取内容....</html标记>....."

2、制作单独的HTML模板页,动态的内容用特定的字符作    (全文共2538字)——点击此处阅读全文




事务日志文件Transaction Log File是用来记录数据库更新情况的文件,扩展名为ldf。
在 SQL Server 7.0 和 SQL Server 2000 中,如果设置了自动增长功能,事务日志文件将会自动扩展。
一般情况下,在能够容纳两次事务日志截断之间发生的最大数量的事务时,事务日志的大小是稳定的,事务日志截断由检查点或者事务日志备份触发。
然而,在某些情
事务日志文件Transaction Log File是用来记录数据库更新情况的文件,扩展名为ldf。
在 SQL Server 7.0 和 SQL Server 2000 中,如果设置了自动增长功能,事务日志文件将会自动扩展。
一般情况下,在能够容纳两次事务日志截断之间发生的最大数量的事务时,事务日志的大小是稳定的,事务日志截断由检查点或者事务日志备份触发。
然而,在某些情况下,事务日志可能会变得非常大,以致用尽空间或变满。通常,在事务日志文件占尽可用磁盘空间且不能再扩展时,您将收到如下错误消息:
Error:9002, Severity:17, State:2
The log file for database ’%.*ls’ is full.
除了出现此错误消息之外,SQL Server 还可能因为缺少事务日志扩展空间而将数据库标记为 SUSPECT。有关如何从此情形中恢复的其他信息,请参见 SQL Server 联机帮助中的“磁盘空间不足”主题。
另外,事务日志扩展可能导致下列情形:
· 非常大的事务日志文件。
· 事务可能会失败并可能开始回滚。
· 事务可能会用很长时间才能完成。
· 可能发生性能问题。
· 可能发生阻塞现象。
原因
事务日志扩展可能由于以下原因或情形而发生:
· 未提交的事务
· 非常大的事务
· 操作:DBCC DBREINDEX 和 CREATE INDEX
· 在从事务日志备份还原时
· 客户端应用程序不处理所有结果
· 查询在事务日志完成扩展之前超时,您收到假的“Log Full”错误消息
· 未复制的事务
解决方法
日志文件满而造成SQL数据库无法写入文件时,可用两种方法:
一种方法:清空日志。
1.打开查询分析器,输入命令
DUMP TRANSACTION 数据库名 WITH NO_LOG
2.再打开企业管理器--右键你要压缩的数据库--所有任务--收缩数据库--收缩文件--选择日志文件--在收缩方式里选择收缩至XXM,这里会给出一个允许收缩到的最小M数,直接输入这个数,确定就可以了。
另一种方法有一定的风险性,因为SQL SERVER的日志文件不是即时写入数据库主文件的,如处理不当,会造成数据的损失。
1: 删除LOG
分离数据库 企业管理器->服务器->数据库->右键->分离数据库
2:删除LOG文件
附加数据库 企业管理器->服务器->数据库->右键->附加数据库
此法生成新的LOG,大小只有500多K。
注意:建议使用第一种方法。
如果以后,不想要它变大。
SQL2000下使用:
在数据库上点右键->属性->选项->故障恢复-模型-选择-简单模型。
或用SQL语句:
alter database 数据库名 set recovery simple

另外,如上图中数据库属性有两个选项,与事务日志的增长有关:
Truncate log on checkpoint
(此选项用于SQL7.0,SQL 2000中即故障恢复模型选择为简单模型)
当执行CHECKPOINT 命令时如果事务日志文件超过其大小的70% 则将其内容清除在开发数据库时时常将此选项设置为True
Auto shrink
定期对数据库进行检查当数据库文件或日志文件的未用空间超过其大小的25%时,系统将会自动缩减文件使其未用空间等于25% 当文件大小没有超过其建立时的初始大小时不会缩减文件缩减后的文件也必须大于或等于其初始大小对事务日志文件的缩减只有在对其作备份时或将Truncate log on checkpoint 选项设为True 时才能进行。

注意:一般立成建立的数据库默认属性已设好,但碰到意外情况使数据库属性被更改,请用户清空日志后,检查数据库的以上属性,以防事务日志再次充满。




    摘要:
在Windows2003中ASP上传的附件大小的限制为200K,所以经常会出现这样的错误提示:Request 对象 错误 'ASP 0104 : 80004005'。要解决这个问题,请按下面的方法进行:
  1、在Internet 信息服务(IIS)管理器中使所有的网站(包括FTP服务器)都停止运行;
  2、在开始->管理工具->服务,在服务里关闭iis admin service服务;
  3、找到windows\system32\inesrv\下的metabase.xml, 打开,找到ASPMaxRequestEntityAllowed 把它修改为你需要的值(以字节为单位)(默认为204800,即200K);
  4、在开始->管理工具->服务,然后重启iis admin service服务。
  这样就可以在ASP中上传大于200K的附件了
    (全文共475字)——点击此处阅读全文




    摘要:本文章转载自阿苯的网站运营实践

我上回推荐过一个关键字的排名查询工具,它是查询某个网址在某个关键字搜索结果中的排名情况。
现在我要讲的是,各搜索引擎的关键字搜索频率查询,即不同关键词的搜索量查询。

我只找到三个搜索引擎的:
百度:
http://www2.baidu.com/inqui    (全文共2892字)——点击此处阅读全文




    摘要:

Sub SendAction(subject, mailaddress, email, sender, content, fromer)
 Set jmail = Server.CreateObject("JMail.Message")
 jmail.logging = false   '不启用使用日志
 jmail.charset="gb2312"
 jmail.FromName = fromer '邮件发送者的邮件地址
 jmail.ReplyTo = sender '邮件发送者的姓名
 JMail.From = "web@****.com"
 JMail.MailDomain = mailaddress 'mail.bmlink.com//邮件服务器
 JMail.MailS    (全文共2332字)——点击此处阅读全文