找回密码
 立即注册
搜索

什么是大数据?就是网络采集器!打开XML文件,教你守株待兔!

什么是 XML文件?

HTML(网页)和 XML (数据) 文档包含的数据均位于标记中,但标记也是这两种语言之间不同的地方。
在 HTML网页中,标记定义数据的外观(标题位置,段落起始位置等)。
在 XML数据中,标记定义数据的结构和含义(什么是数据)。



例如,假设需要存储并共享关于宠物的信息。您可以创建以下 XML 代码:

  • <?xml version="1.0"?>
  • <CAT>
  • <NAME>Izzy</NAME>
  • <BREED>Siamese</BREED>
  • <AGE>6</AGE>
  • <ALTERED>yes</ALTERED>
  • <DECLAWED>no</DECLAWED>
  • <LICENSE>Izz138bod</LICENSE>
  • <OWNER>Colin Wilcox</OWNER>
  • </CAT>
可以看到,使用 XML 标记可以明确地标明所查看的数据属于何种类型。
例如,您可以了解到以上数据是关于一只猫的,并且可以很容易地找到这只猫的名字、年龄等信息。XML 能够创建定义几乎所有数据结构的标记,因此是“可扩展”的。
但是,请不要将该代码示例中的标记与 HTML 文件中的标记混淆。例如,如果您将该 XML 结构粘贴到一个 HTML 文件中,然后在浏览器中查看该文件,结果会如下所示:
Izzy Siamese 6 yes no Izz138bod Colin Wilcox
浏览器将忽略 XML 标记,而只显示数据。


例如,如下图所示,Excel 和 Word 都可以根据 CAT 架构来验证 <CAT> 数据。



架构可能非常复杂,教您怎样创建架构并不属于本文的范畴。(另外,IT 部门人员应该知道如何创建架构。)不过,了解架构的外观还是有用的。下面的架构定义了 <CAT> ... </CAT> 标记集的规则。
<xsd:element name="CAT">    <xsd:complexType>      <xsd:sequence>      <xsd:element name="NAME" type="xsd:string"/>      <xsd:element name="BREED" type="xsd:string"/>      <xsd:element name="AGE" type="xsd:positiveInteger"/>      <xsd:element name="ALTERED" type="xsd:boolean"/>      <xsd:element name="DECLAWED" type="xsd:boolean"/>      <xsd:element name="LICENSE" type="xsd:string"/>      <xsd:element name="OWNER" type="xsd:string"/>            </xsd:sequence>  </xsd:complexType></xsd:element>如果不理解上面示例中的内容,不必担心。只需要记住以下事项:

  • 示例架构中的行项目被称为“声明”。如果需要有关宠物的其他信息(例如其颜色或斑纹),IT 部门可能需要向架构中添加声明。您可以根据业务需求的变化来更改 XML 系统。

  • 声明对数据结构具有较强的控制能力。例如,<xsd:sequence> 声明表示 <NAME> 和 <BREED> 等标记必须按照上面列出的顺序显示。声明也可以控制用户输入的数据类型。例如,上面的架构要求猫的年龄必须为正数,而对于 ALTERED 和 DECLAWED 标记则必须为布尔值(TRUE 或 FALSE)。
  • 当 XML 文件中的数据遵循架构所提供的规则时,数据就是有效数据。根据架构检查 XML 数据文件的过程称为“验证”(逻辑意义上)。架构的突出优点是可以帮助防止数据损坏。使用架构也可以很容易地发现损坏的数据,因为 XML 遇到问题时将会停止运行。
架构只不过是一种包含某些规则的 XML 文件,这些规则用来定义 XML 数据文件中能包含哪些内容,不能包含哪些内容。
架构文件通常使用 .xsd 文件扩展名,而 XML 数据文件使用 .xml 扩展名。


数据文件、架构和转换组成基本的 XML 系统。下图显示了这种系统通常是如何工作的。数据文件先根据架构进行验证,然后通过转换以任意可用方式呈现。在本例中,转换向网页中的表部署数据。



此示例显示一种转换类型的编码形式,但是请记住,您只能用简单的英文描述您想要从数据中获得什么。
例如,您可以对 IT 部门说您需要打印特定区域过去两年的销售数据,并指出“我希望数据的外观是这样的”。这样,IT 部门就可以编写(或更改)一个可执行该任务的转换。使所有此类工作更为方便的是:Microsoft 和日益增多的其他供应商正创建应用于各种任务的转换。
不久的将来,您可以下载符合需要的转换,也可以调整转换以满足需要。这意味着,XML 的使用将随时间的推移而逐渐降低数据处理成本。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

大神点评1

晓乱世江湖 昨天 07:05 来自手机 显示全部楼层
我有一个大胆的想法。。。
回复

使用道具 举报

高级模式
B Color Image Link Quote Code Smilies