自由、创新、研究、探索……

windows和Linux平台下的Dotnet技术

  DonewsBlog  |  Donews首页  |  Donews社区  |  Donews邮箱  |  我的首页  |  联系作者  |  聚合   |  登录
  212篇文章 :: 98篇收藏:: 97篇评论:: 2个Trackbacks

公告

欢迎来这里讨论,共同进步,不断学习才能不断进步。

天气预报

你是第
联系方式:

MSN:zsygz@hotmail.com QQ:33235911
MSN在线状态
MSN在线状态指示器

文章

收藏

相册

blog

dotnet技术

XML技术

操作系统

软件工程

数据库

存档


正在读取评论……


dotNet技术


    摘要:运用SgmlReader类来解析HTML文件,并生成格式规范(well-formed)的HTML    (全文共0字)——点击此处阅读全文


    摘要:关于权限管理     (全文共277字)——点击此处阅读全文


    摘要:sealed能提高性能    (全文共4844字)——点击此处阅读全文

有的时候,我们开发的应用需要抓取网页的内容借为己用,如QQ网站的天气信息新闻等,和Google等搜索爬虫的机制不同之处在于抓取目标的页面对开发人员而言是已知的。我们有理由避免过多的使用正则表达式的繁冗分析过程,如果能够在获取目标网页的HTML之后通过DOM来解析HTML将是一件非常愉快的事情。这里会遇到两个问题,DOM操作只能在客户端通过JavascriptVBScript等脚本语言进行,加上HTML自身不是非强格式的,不能使用类似XSLXML解析的方式进行操作。不过既然写这篇Blog,就一定有了解决的办法J

非常感谢MicrosoftXML大师Chris Lovett为我们带来的SgmlReader这个开源的项目。我们知道,XMLHTML都是Sgml的子集。通过SgmlReader,能够将HTML转换生成格式规范的HTMLWell-Formed HTML,虽然没有这个称呼,但这里暂且这么说),从而可以使用XMLXPath语法读取网页的数据了。那么在.NET Framework下,我们遇到的问题变得如此轻松。

简单写了一个示例程序,用来抓取QQ网站的天气信息,通过更改城市名称和XPath获得网页内容。

代码:下载

PS
:除了SgmlReader之外,还有Simon Mourier.NET Html Agility Pack也具有类似的功能。


    摘要:NDEPEND & NANT    (全文共25515字)——点击此处阅读全文


    摘要:.Net Remoting文档资料共享     (全文共1583字)——点击此处阅读全文


    摘要:This article will enhance your vision on the usage of Robustness Analysis in conjunction with Model View Controller, using UML with application in ASP.NET. This article is a sequel to my articles on Architecture and Design with ASP.NET. http://www.codeproject.com/aspnet/ModelViewController.asp    (全文共48185字)——点击此处阅读全文


    摘要:http://aspalliance.com/520    (全文共12638字)——点击此处阅读全文


    摘要:HttpModule and HttpHandler    (全文共167451字)——点击此处阅读全文


    摘要:Listening to Trace Messages in NUnit    (全文共12608字)——点击此处阅读全文

第1页,共6页