找回密码
 立即注册
收起左侧

获取了网页的源代码后,只想提取代码中的部分信息

4
回复
8306
查看
[复制链接]
累计签到:67 天
连续签到:1 天
来源: 2014-11-1 17:26:30 显示全部楼层 |阅读模式
8Qter豆
获取了网页的源代码,存储到.txt文件里,只想获取部分有用信息,怎么处理?我先打开了该文件,readLine(),后用正则表达式,可是正则表达式,很难准确匹配到有用的那几行,因为网页的源代码对应元素相近,怎么有效的获取有用的那几行源代码?O(∩_∩)O谢谢

最佳答案

回复

使用道具 举报

累计签到:894 天
连续签到:1 天
2014-11-1 17:26:31 显示全部楼层
试试xml。
回复

使用道具 举报

累计签到:67 天
连续签到:1 天
2014-11-2 09:56:44 显示全部楼层
Syylc120317 发表于 2014-11-1 17:40
试试xml。

但大多数网页都是html啊,
回复

使用道具 举报

累计签到:894 天
连续签到:1 天
2014-11-2 10:10:15 显示全部楼层
xuezhen1988 发表于 2014-11-2 09:56
但大多数网页都是html啊,

二者有相近之处,都是标签语言。
回复

使用道具 举报

累计签到:67 天
连续签到:1 天
2014-11-2 11:19:53 显示全部楼层
Syylc120317 发表于 2014-11-2 10:10
二者有相近之处,都是标签语言。

嗯嗯。。。就是读取的时候,差不多,懂咯。。我试试,不懂哒问你
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

公告
可以关注我们的微信公众号yafeilinux_friends获取最新动态,或者加入QQ会员群进行交流:190741849、186601429(已满) 我知道了