获取了网页的源代码后，只想提取代码中的部分信息

xuezhen1988 · 2014-11-1 17:26:30

获取了网页的源代码，存储到.txt文件里，只想获取部分有用信息，怎么处理？我先打开了该文件，readLine(),后用正则表达式，可是正则表达式，很难准确匹配到有用的那几行，因为网页的源代码对应元素相近，怎么有效的获取有用的那几行源代码？O(∩_∩)O谢谢

Syylc120317 · 2014-11-1 17:26:31

试试xml。

xuezhen1988 · 2014-11-2 09:56:44

Syylc120317 发表于 2014-11-1 17:40
试试xml。

但大多数网页都是html啊，

Syylc120317 · 2014-11-2 10:10:15

xuezhen1988 发表于 2014-11-2 09:56
但大多数网页都是html啊，

二者有相近之处，都是标签语言。

xuezhen1988 · 2014-11-2 11:19:53

Syylc120317 发表于 2014-11-2 10:10
二者有相近之处，都是标签语言。

嗯嗯。。。就是读取的时候，差不多，懂咯。。我试试，不懂哒问你

帐号		自动登录	找回密码
密码			立即注册

账号		自动登录	找回密码
密码			立即注册