xml解析

wking_forever

浏览: 59036 次
性别:
来自: 杭州

最近访客更多访客>>

hongmin118

mpegnet

mysource

273782108

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (63)

社区版块

存档分类

package com.test;

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

import java.io.InputStream;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;

import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.xml.sax.SAXException;

public class XMLParse {
  public static void main(String[] args) {
	 
	 try {
		 DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();//解析器工厂
		 //读入xml
		 DocumentBuilder dombuilder=factory.newDocumentBuilder();
		File file = new File("sth.xml");
		InputStream is = new FileInputStream(file);
		Document doc=dombuilder.parse(is);
		Element root=doc.getDocumentElement();
		NodeList books=root.getChildNodes();
        for(int i=0;i<books.getLength();i++){
		Node book=books.item(i);
		String email=book.getAttributes().getNamedItem("email").getNodeValue();
        System.out.println(email);
        
        for(Node node=book.getFirstChild();node!=null;node=node.getNextSibling()){
        	
        if(node.getNodeType()==Node.ELEMENT_NODE){
        	
        	if(node.getNodeName().equals("name")){
        	String name=node.getNodeValue();
        	
        	String name1=node.getFirstChild().getNodeValue();
        	
        	System.out.println(name);
        	
        	System.out.println(name1);
        	
        	}
        	
        	if(node.getNodeName().equals("price")){
        	
        	String price=node.getFirstChild().getNodeValue();
        	
        	System.out.println(price);
        	}
        	
        	}

		}
        }
     } catch (FileNotFoundException e) {
		// TODO Auto-generated catch block
		e.printStackTrace();
	} catch (ParserConfigurationException e) {
		// TODO Auto-generated catch block
		e.printStackTrace();
	} catch (SAXException e) {
		// TODO Auto-generated catch block
		e.printStackTrace();
	} catch (IOException e) {
		// TODO Auto-generated catch block
		e.printStackTrace();
	}
	 
	  
}
}

<?xml version="1.0" encoding="utf-8"?>
　<books>
　　<book email="zhoujunhui">
　　   <name>rjzjh</name>
　　   <price>jjjjjj</price>
　　</book>
　</books>

异常提示是Content is not allowed in prolog.意思就是说文件开头的时候有问题。。。我E文不好不能解释的“信，雅，达”，见谅，呵呵。还是跟我为了Spring而换上的xerces有关。。。狂晕，google了一番发现是一个叫BOM的东西搞的鬼，而xerces确实有BOM的问题，在Apache的论坛里看到一个帖子也提到xerces的BOM问题（可是借助灵格斯一个单词一个单词翻译的看的。。。，顺便吐血推荐“灵格斯”，一款比金山词霸好用X倍速度快Y倍资源占用少Z倍的免费软件，注意是无插件，无广告，完全免费！！！金山现在为了反D版，所有装了D版金山的XP老是无缘无故死机，大家应该都很郁闷吧。被我推荐用灵格斯的人都说好，群众的眼睛是雪亮的啊。支持面向个人用户的软件免费！靠好质量好服务赚钱才是王道！！！），回帖是说换掉xerces用其他解析器，可是我不能换，换了Spring还指望它呢，我也不知道换成什么比它更好。。。，还有的说给xerces的如果是stream就可以接受BOM，如果是reader就不行（我默认大家都对JAVA的IO有一定了解能够理解stream和reader啊），难道我跑去把iBATIS里的源代码改了，然后重新编译？？？这样也不好吧，总有简单点的方式解决吧。

      于是继续google，随着对BOM进一步的了解发现把SqlMap文件里的BOM给删除调应该是最快最方便的方式，因为BOM在UTF-8里面并不起什么作用，本来是可有可无的。下面先让大家对BOM有个大概的认识（细节可以参考官方网站），然后告诉大家怎么样快捷的删掉文件里的BOM。

      我们这里提到的BOM并不是制造业管理中料表（Bill of Material）的概念，而是UCS（Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS）编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF，就表明这个字节流是Big-Endian（big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。还是将49写在前面，就是little endian。我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。）的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

      UTF-8是以8位为单位来表示UCS，其实不存在什么尾序的问题，其实BOM是没有什么作用的，不过可以用BOM来表示编码方式，字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF，所以如果接受到以EF BB BF开头的字节流就可以判断是UTF-8编码了。

      如果上面提到的一些名词你不是很清楚可以google一下，找到相关的解释。追根究底是个好习惯?。如果对BOM的概念还不清楚或者想了解更多也可以搜索相关资料来研究。

      下面重点来说一下怎么去掉BOM：
      首先windows自带的记事本会在保存UTF-8编码的文件时不管是否含有BOM一律加上BOM，所以千万别用记事本。我的程序跑不起来也是因为用记事本打开过。。。有段时间非常流行的“联通”问题就是跟windows记事本处理BOM的机制有关，就是把“联通”两字写进记事本保存后再打开时就会是黑点。。。如果你有兴趣可以到网上找到相关文章详细解释给你听，呵呵。

      比较新版本的UltraEdit（以下简称UE，大家都是这么叫的）都对BOM支持比较好，所以推荐使用新版本的UE来解决这个问题。我用的版本是UltraEdit-32 10.20d+中文版（网上可以下的到，如果你比较懒可以联系我，留下邮箱，呵呵）。首先打开UE，选择菜单栏“高级”－“配置”，出现一个选项卡窗口，在“常规”选项卡中找到“保存时对所有UTF-8文件头标记（BOM）”和“对在UltraEdit里创建的新文件写入UTF-8文件头标记（如上面）”，把它们的复选框都取消不选，然后确定。这个时候UE默认情况下就不会对没有BOM的文件加入BOM，注意如果不执行上述操作UE默认也是会加的！那已经含有BOM的文件如何清除BOM呢？下面演示给大家。首先打开文件，选择菜单栏“文件”－“格式转换”－“UTF-8 转 ASCII”，这样文件会被转为ASCII编码，BOM就不会存在了，因为上面说过BOM是在UCS编码的头部的，然后再选择菜单栏“文件”－“格式转换”－“ASCII 转 UTF-8（Unicode编辑）”，这个时候文件会被转回为UTF-8编码，因为我们上面选了不自动加BOM，所以这个时候的文件是不带BOM的，然后保存文件。整个操作过程就完毕了。（如果仍然有什么疑问给我留言吧）

      我去掉BOM后重新启动服务器，访问数据库一切正常，问题果然解决了。当然在我碰到的这个问题中干脆把文件转成ASCII直接用也可以，汗！不知道为什么，请大家指教！

分享到：