首頁 考試吧論壇 Exam8視線 考試商城 網絡課程 模擬考試 考友錄 實用文檔 求職招聘 論文下載 | ||
![]() |
2011中考 | 2011高考 | 2012考研 | 考研培訓 | 在職研 | 自學考試 | 成人高考 | 法律碩士 | MBA考試 MPA考試 | 中科院 |
|
![]() |
四六級 | 職稱英語 | 商務英語 | 公共英語 | 托福 | 雅思 | 專四專八 | 口譯筆譯 | 博思 | GRE GMAT 新概念英語 | 成人英語三級 | 申碩英語 | 攻碩英語 | 職稱日語 | 日語學習 | 法語 | 德語 | 韓語 |
|
![]() |
計算機等級考試 | 軟件水平考試 | 職稱計算機 | 微軟認證 | 思科認證 | Oracle認證 | Linux認證 華為認證 | Java認證 |
|
![]() |
公務員 | 報關員 | 銀行從業資格 | 證券從業資格 | 期貨從業資格 | 司法考試 | 法律顧問 | 導游資格 報檢員 | 教師資格 | 社會工作者 | 外銷員 | 國際商務師 | 跟單員 | 單證員 | 物流師 | 價格鑒證師 人力資源 | 管理咨詢師考試 | 秘書資格 | 心理咨詢師考試 | 出版專業資格 | 廣告師職業水平 駕駛員 | 網絡編輯 |
|
![]() |
衛生資格 | 執業醫師 | 執業藥師 | 執業護士 | |
![]() |
會計從業資格考試(會計證) | 經濟師 | 會計職稱 | 注冊會計師 | 審計師 | 注冊稅務師 注冊資產評估師 | 高級會計師 | ACCA | 統計師 | 精算師 | 理財規劃師 | 國際內審師 |
|
![]() |
一級建造師 | 二級建造師 | 造價工程師 | 造價員 | 咨詢工程師 | 監理工程師 | 安全工程師 質量工程師 | 物業管理師 | 招標師 | 結構工程師 | 建筑師 | 房地產估價師 | 土地估價師 | 巖土師 設備監理師 | 房地產經紀人 | 投資項目管理師 | 土地登記代理人 | 環境影響評價師 | 環保工程師 城市規劃師 | 公路監理師 | 公路造價師 | 安全評價師 | 電氣工程師 | 注冊測繪師 | 注冊計量師 |
|
![]() |
繽紛校園 | 實用文檔 | 英語學習 | 作文大全 | 求職招聘 | 論文下載 | 訪談 | 游戲 |
XML與面向Web的數據挖掘技術
面向Web的數據挖掘
Web上有海量的數據信息,怎樣對這些數據進行復雜的應用成了現今數據庫技術的研究熱點。數據挖掘就是從大量的數據中發現隱含的規律性的內容,解決數據的應用質量問題。充分利用有用的數據,廢棄虛偽無用的數據,是數據挖掘技術的最重要的應用。相對于Web的數據而言,傳統的數據庫中的數據結構性很強,即其中的數據為完全結構化的數據,而Web上的數據最大特點就是半結構化。所謂半結構化是相對于完全結構化的傳統數據庫的數據而言。顯然,面向Web的數據挖掘比面向單個數據倉庫的數據挖掘要復雜得多。
1.異構數據庫環境
從數據庫研究的角度出發,Web網站上的信息也可以看作一個數據庫,一個更大、更復雜的數據庫。Web上的每一個站點就是一個數據源,每個數據源都是異構的,因而每一站點之間的信息和組織都不一樣,這就構成了一個巨大的異構數據庫環境。如果想要利用這些數據進行數據挖掘,首先,必須要研究站點之間異構數據的集成問題,只有將這些站點的數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的東西。其次,還要解決Web上的數據查詢問題,因為如果所需的數據不能很有效地得到,對這些數據進行分析、集成、處理就無從談起。
2.半結構化的數據結構
Web上的數據與傳統的數據庫中的數據不同,傳統的數據庫都有一定的數據模型,可以根據模型來具體描述特定的數據。而Web上的數據非常復雜,沒有特定的模型描述,每一站點的數據都各自獨立設計,并且數據本身具有自述性和動態可變性。因而,Web上的數據具有一定的結構性,但因自述層次的存在,從而是一種非完全結構化的數據,這也被稱之為半結構化數據。半結構化是Web上數據的最大特點。
3.解決半結構化的數據源問題
Web數據挖掘技術首要解決半結構化數據源模型和半結構化數據模型的查詢與集成問題。解決Web上的異構數據的集成與查詢問題,就必須要有一個模型來清晰地描述Web上的數據。針對Web上的數據半結構化的特點,尋找一個半結構化的數據模型是解決問題的關鍵所在。除了要定義一個半結構化數據模型外,還需要一種半結構化模型抽取技術,即自動地從現有數據中抽取半結構化模型的技術。面向Web的數據挖掘必須以半結構化模型和半結構化數據模型抽取技術為前提。
XML與Web數據挖掘技術
以XML為基礎的新一代WWW環境是直接面對Web數據的,不僅可以很好地兼容原有的Web應用,而且可以更好地實現Web中的信息共享與交換。XML可看作一種半結構化的數據模型,可以很容易地將XML的文檔描述與關系數據庫中的屬性一對應起來,實施精確地查詢與模型抽取。
1.XML的產生與發展
XML(eXtensibleMarkupLanguage)是由萬維網協會(W3C)設計,特別為Web應用服務的SGML(StandardGeneralMarkupLanguage)的一個重要分支。總的來說,XML是一種中介標示語言(Meta-markupLanguage),可提供描述結構化資料的格式,詳細來說,XML是一種類似于HTML,被設計用來描述數據的語言。XML提供了一種獨立的運行程序的方法來共享數據,它是用來自動描述信息的一種新的標準語言,它能使計算機通信把Internet的功能由信息傳遞擴大到人類其他多種多樣的活動中去。XML由若干規則組成,這些規則可用于創建標記語言,并能用一種被稱作分析程序的簡明程序處理所有新創建的標記語言,正如HTML為第一個計算機用戶閱讀Internet文檔提供一種顯示方式一樣,XML也創建了一種任何人都能讀出和寫入的世界語。XML解決了HTML不能解決的兩個Web問題,即Internet發展速度快而接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的那部分信息的問題。XML能增加結構和語義信息,可使計算機和服務器即時處理多種形式的信息。因此,運用XML的擴展功能不僅能從Web服務器下載大量的信息,還能大大減少網絡業務量。
XML中的標志(TAG)是沒有預先定義的,使用者必須要自定義需要的標志,XML是能夠進行自解釋(SelfDescribing)的語言。XML使用DTD(DocumentTypeDefinition文檔類型定義)來顯示這些數據,XSL(eXtensibleStyleSheetLanguage)是一種來描述這些文檔如何顯示的機制,它是XML的樣式表描述語言。XSL的歷史比HTML用的CSS(層疊式樣式表CascadingStyleSheets)還要悠久,XSL包括兩部分:一個用來轉換XML文檔的方法;一個用來格式化XML文檔的方法。XLL(eXtensibleLinkLanguage)是XML連接語言,它提供XML中的連接,與HTML中的類似,但功能更強大。使用XLL,可以多方向連接,且連接可以存在于對象層級,而不僅僅是頁面層級。由于XML能夠標記更多的信息,所以它就能使用戶很輕松地找到他們需要的信息。利用XML,Web設計人員不僅能創建文字和圖形,而且還能構建文檔類型定義的多層次、相互依存的系統、數據樹、元數據、超鏈接結構和樣式表。
希望與其他軟考考生進行交流?點擊進入軟考論壇>>>
更多信息請訪問:考試吧軟件水平考試欄目
北京 | 天津 | 上海 | 江蘇 | 山東 |
安徽 | 浙江 | 江西 | 福建 | 深圳 |
廣東 | 河北 | 湖南 | 廣西 | 河南 |
海南 | 湖北 | 四川 | 重慶 | 云南 |
貴州 | 西藏 | 新疆 | 陜西 | 山西 |
寧夏 | 甘肅 | 青海 | 遼寧 | 吉林 |
黑龍江 | 內蒙古 |