netty系列之:netty中常用的xml編碼解碼器
簡介
在json之前,xml是最常用的數據傳輸格式,雖然xml的冗餘數據有點多,但是xml的結構簡單清晰,至今仍然運用在程式中的不同地方,對於netty來說自然也提供了對於xml數據的支援。
netty對xml的支援表現在兩個方面,第一個方面是將編碼過後的多個xml數據進行frame拆分,每個frame包含一個完整的xml。另一方面是將分割好的frame進行xml的語義解析。
進行frame拆分可以使用XmlFrameDecoder,進行xml文件內容的解析則可以使用XmlDecoder,接下來我們會詳細講解兩個decoder實現和使用。
XmlFrameDecoder
因為我們收到的是數據流,所以不確定收到的數據到底是什麼樣的,一個正常的xml數據可能會被拆分成多個數據frame。
如下所示:
+-------+-----+--------------+
| <this | IsA | XMLElement/> |
+-------+-----+--------------+
這是一個正常的xml數據,但是被拆分成為了三個frame,所以我們需要將其合併成為一個frame如下:
+-----------------+
| <thisIsAXMLElement/> |
+-----------------+
還有可能不同的xml數據被分拆在多個frame中的情況,如下所示:
+-----+-----+-----------+-----+----------------------------------+
| <an | Xml | Element/> | <ro | ot><child>content</child></root> |
+-----+-----+-----------+-----+----------------------------------+
上面的數據需要拆分成為兩個frame:
+-----------------+-------------------------------------+
| <anXmlElement/> | <root><child>content</child></root> |
+-----------------+-------------------------------------+
拆分的邏輯很簡單,主要是通過判斷xml的分隔符的位置來判斷xml是否開始或者結束。xml中的分隔符有三個,分別是'<‘, ‘>’ 和 ‘/’。
在decode方法中只需要判斷這三個分隔符即可。
另外還有一些額外的判斷邏輯,比如是否是有效的xml開始字元:
private static boolean isValidStartCharForXmlElement(final byte b) {
return b >= 'a' && b <= 'z' || b >= 'A' && b <= 'Z' || b == ':' || b == '_';
}
是否是注釋:
private static boolean isCommentBlockStart(final ByteBuf in, final int i) {
return i < in.writerIndex() - 3
&& in.getByte(i + 2) == '-'
&& in.getByte(i + 3) == '-';
}
是否是CDATA數據:
private static boolean isCDATABlockStart(final ByteBuf in, final int i) {
return i < in.writerIndex() - 8
&& in.getByte(i + 2) == '['
&& in.getByte(i + 3) == 'C'
&& in.getByte(i + 4) == 'D'
&& in.getByte(i + 5) == 'A'
&& in.getByte(i + 6) == 'T'
&& in.getByte(i + 7) == 'A'
&& in.getByte(i + 8) == '[';
通過使用這些方法判斷好xml數據的起始位置之後,就可以調用extractFrame方法將要使用的ByteBuf從原始數據中拷貝出來,最後放到out中去:
final ByteBuf frame =
extractFrame(in, readerIndex + leadingWhiteSpaceCount, xmlElementLength - leadingWhiteSpaceCount);
in.skipBytes(xmlElementLength);
out.add(frame);
XmlDecoder
將xml數據拆分成為一個個frame之後,接下來就是對xml中具體數據的解析了。
netty提供了一個xml數據解析的方法叫做XmlDecoder,主要用來對已經是一個單獨的xml數據的frame進行實質內容的解析,它的定義如下:
public class XmlDecoder extends ByteToMessageDecoder
XmlDecoder根據讀取到的xml內容,將xml的部分拆分為XmlElementStart,XmlAttribute,XmlNamespace,XmlElementEnd,XmlProcessingInstruction,XmlCharacters,XmlComment,XmlSpace,XmlDocumentStart,XmlEntityReference,XmlDTD和XmlCdata。
這些數據基本上覆蓋了xml中所有可能出現的元素。
所有的這些元素都是定義在io.netty.handler.codec.xml包中的。
但是XmlDecoder對xml的讀取解析則是借用了第三方xml工具包:fasterxml。
XmlDecoder使用了fasterxml中的AsyncXMLStreamReader和AsyncByteArrayFeeder用來進行xml數據的解析。
這兩個屬性的定義如下:
private static final AsyncXMLInputFactory XML_INPUT_FACTORY = new InputFactoryImpl();
private final AsyncXMLStreamReader<AsyncByteArrayFeeder> streamReader;
private final AsyncByteArrayFeeder streamFeeder;
this.streamReader = XML_INPUT_FACTORY.createAsyncForByteArray();
this.streamFeeder = (AsyncByteArrayFeeder)this.streamReader.getInputFeeder();
decode的邏輯是通過判斷xml element的類型來分別進行不同數據的讀取,最後將讀取到的數據封裝成上面我們提到的各種xml對象,最後將xml對象添加到out list中返回。
總結
我們可以藉助XmlFrameDecoder和XmlDecoder來實現非常方便的xml數據解析,netty已經為我們造好輪子了,我們就不需要再自行發明了。
本文已收錄於 //www.flydean.com/14-7-netty-codec-xml/
最通俗的解讀,最深刻的乾貨,最簡潔的教程,眾多你不知道的小技巧等你來發現!
歡迎關注我的公眾號:「程式那些事」,懂技術,更懂你!