Java解析HTML

longware

浏览: 157276 次
性别:
来自: 南京

最近访客更多访客>>

u012363178

wangyy

iceoice2002

liuyouming

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

HTML Java 正则表达式面试 jQuery

看了下，有很多parser，没有一个个看，下了个http://sourceforge.net/projects/htmlparser/files/

节点解析是用遍历方式的，或者遍历时加个filter

	public static void printNode(NodeList nodelist) {
		for (int i = 0; nodelist != null && i < nodelist.size(); i++) {
			Node node = nodelist.elementAt(i);
			System.out.print(node.getText());
			
			printNode(node.getChildren());
		}
	}

	public static void main(String[] args) {
		try {
			Parser parser = new Parser(url);
			NodeList nodelist = parser.parse(null);
			//printNode(nodelist);
			
			NodeFilter filter = new TagNameFilter("tr");
			NodeList list = nodelist.extractAllNodesThatMatch(filter, true);
			printNode(list);

		} catch (ParserException e) {
			e.printStackTrace();
		}

	}

加入html中有

...
<div id=xxx>
...
</div>
...

在js中，有getElementById(xxx)马上就能找到此div，但是java里貌似没有此现成的方法，难不成要一个个遍历，然后加if--then--else，那太累了。

http://www.open-open.com/30.htm 里面还有其他的parser，没一个个看

大家说说你们经历。

分享到：

我在卢沟桥 | 乔迁新居：http://longware-live.spaces.li ...

2010-11-29 22:54
浏览 11607
评论(24)
论坛回复 / 浏览 (24 / 22224)
分类:编程语言
查看更多

24 楼 lqixv 2010-12-23

ahitbo 写道

qiren83 写道

illu 写道

nurenok 写道

JSOUP谁用谁知道

++1

+++1

++++1

23 楼 wmcoo 2010-12-03

在线采集，还没完工的JAVA版
http://qidiansoso.appspot.com/

22 楼 longware 2010-12-02

johnson.lee 写道

我是自己写的HTML Parser,采用SAX方式, HTMLParser通知Handler来处理SAX事件，附件中的源代码是为Eclipse HTML编辑器插件的写的Parser,在解析HTML的过程中做了些额外的处理．自我感觉写得不算太好，不过和大家分享一下也无妨．

谢谢分享

21 楼 johnson.lee 2010-12-02

20 楼 longware 2010-12-01

nighthawk 写道

看来大家都有“拿来主义”的需求。
不仅扣人家页面风格，连内容也要抓。

~~~~~景德镇特色啊~~~~~~

19 楼 nighthawk 2010-12-01

看来大家都有“拿来主义”的需求。
不仅扣人家页面风格，连内容也要抓。

18 楼 longware 2010-12-01

谢谢讨论，我试试dom4j 、 jsoup 、 xalan 、NekoHTML+HttpClient with xpath

17 楼 longware 2010-12-01

aoliwen521 写道

目前没有接触过需求需要专门去抓别人的东西。。但是以前面试写过一个抓信息的。。
当时就是抓javaeye。。我愚蠢的使用正则表达式抓。。看来比较麻烦啊。
xpath，我就怕他页面万一不规范，不能正常的操作了。

正则很累人的

16 楼 dengzhangtao 2010-12-01

抛出异常的爱写道

dom4j 支持 xpath
div[@id=123]

恩用dom4j处理节点

15 楼 ahitbo 2010-12-01

qiren83 写道

illu 写道

nurenok 写道

JSOUP谁用谁知道

++1

+++1

14 楼 noobjava 2010-12-01

qiren83 写道

illu 写道

nurenok 写道

JSOUP谁用谁知道

++1

有空打算写写jsoup的中文的一些东西，这玩意我从0.3.1开始用，最近发现已经更新的若干个版本了。
我觉得在jsoup面前，htmlparser还是比较难用的，方便易用性上与jsoup不是一个级别。

但有一个小前提，就是你用过jquery,了解jquery的一些语法，那就会瞬间上手了，
不了解也没关系，因为学起来也比较简单，能看懂它的英文文档基本上很快就学会了，

一句话，实在太好用了

13 楼 qiren83 2010-11-30

illu 写道

nurenok 写道

JSOUP谁用谁知道

++1

12 楼 flyingzl 2010-11-30

如果没有记错，一个叫做jsoup的html解析器，速度非常快。类似于python中的BeautifulSoup

11 楼 lovemylover 2010-11-30

htmlparser很好用，基本就相当于DOM遍历，至于想要其他更好的效果，就自己封装吧

10 楼 illu 2010-11-30

nurenok 写道

JSOUP谁用谁知道

9 楼 aabcc 2010-11-30

恩，其实只要支持XPATH，剩下的事情就好办了...

8 楼 zhangcong170 2010-11-30

先转成xml，再用xalan解析支持xpath操作

7 楼 nurenok 2010-11-30

JSOUP谁用谁知道

6 楼小小流浪猪 2010-11-30

使用Tidy 把html转成xml,然后用dom4j 解析xml;

5 楼 aoliwen521 2010-11-30

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Java解析HTML

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Java解析HTML

评论

发表评论

相关推荐

最近访客更多访客>>