新四季網

比較並選擇數據淨化服務提供者的製作方法

2023-05-22 14:28:16 2

專利名稱:比較並選擇數據淨化服務提供者的製作方法
技術領域:
本發明涉及數據淨化,尤其涉及比較並選擇數據淨化服務提供者。
技術背景
1.背景和相關技術
計算機系統和相關技術影響社會的許多方面。的確,計算機系統處理信息的能力已轉變了人們生活和工作的方式。計算機系統現在通常執行在計算機系統出現以前手動執行的許多任務(例如,文字處理、日程安排和會計等)。最近,計算機系統彼此耦合併耦合到其他電子設備,以形成計算機系統和其他電子設備可以在其上傳輸電子數據的有線和無線計算機網絡。因此,許多計算任務的執行跨多個不同的計算機系統和/或多個不同的計算環境分布。
在一些計算環境中,各種不同類型的數據被存儲在資料庫中並從資料庫中訪問。 一些資料庫存儲指定類型的數據,諸如,例如,客戶地址、員工信息等。通常,數據是手動輸入資料庫的。手動數據輸入易造成人為錯誤。此外,許多錯誤一旦輸入就變得實際上無法檢測到,因為一旦數據被輸入,與數據的進一步人為交互如果有也很少。此外,一些錯誤,諸如,電話號碼中多餘數字,難以被標識。其他數據不一致性可能由不同存儲中的相似條目的不同數據字典定義、或由傳輸和/或存儲錯誤所導致。因此,資料庫可能隨時間積累了各種數據錯誤和不一致性。
管理地,不正確或不一致數據可導致在公共和私人範圍上的錯誤的結論和方向錯誤的投資。例如,政府可能希望分析人口普查圖來決定哪些區域需要在基礎設施和服務上進一步花費和投資。在此情況中,訪問可靠數據避免錯誤的財政決定將是重要的。
在商業世界,不正確的數據可能是代價昂貴的。許多公司使用客戶信息資料庫,其中記錄了諸如聯繫信息、地址,和偏好的數據。如果例如,地址不一致,公司將付出重發郵件甚至丟失客戶的代價。
因此,有時,資料庫管理者可「淨化」或「擦洗」數據。數據淨化或數據擦洗包括,從記錄集、表,或資料庫檢測和糾正(或移除)破壞的或不準確的記錄。常常被用於資料庫, 數據淨化或擦洗可標識不完整的、不正確的、不準確的、不相關的等數據部分,並隨後替換、 修改,或刪除這些「髒」數據。在淨化之後,數據集與其他類似數據集一致(至少更一致)。
數據淨化的實際過程可涉及移除打字錯誤或相對於已知條目列表確認並糾正值。 確認可能是嚴格的(諸如拒絕不具有有效郵政編碼的任何地址)或模糊的(諸如糾正與現存已知的記錄部分地匹配的記錄)。
已知條目的列表可由配置用於淨化指定類型數據的數據淨化服務提供者提供。例如,數據淨化服務可被配置為淨化美國的郵政地址或電話號碼。對於一些類型的數據,可存在多個(潛在大量)不同數據淨化服務提供者。然而,來自不同數據淨化服務提供者的結果的充分性可能顯著變化。評估多個不同數據淨化服務提供者以標識對於指定類型數據的 「最佳」數據淨化服務可能是手動的且勞動密集的過程。發明內容
本發明涉及用於比較並選擇數據淨化服務提供者的方法、系統和電腦程式產品。在一些實施例中,標識用於淨化的參考數據服務提供者。樣本數據源被映射到所選數據域。數據域與具有指定數據安排的數據元素相關聯。樣本數據源具有已知的數據不一致性。
多個參考數據服務提供者的列表配置用於淨化在所選數據域中的數據的數據元素。接收要對被探查的多個參考數據服務提供者的子集的選擇。樣本數據源被提交給參考數據服務提供者的子集中的每個參考數據服務提供者。從參考數據服務提供者的子集中的每個參考數據服務提供者接收回淨化樣本數據源的結果。對於每個參考數據服務提供者, 該結果包括從樣本數據源獲取的所謂已淨化了的樣本數據源。
來自多個參考數據服務提供者的子集中的每個參考數據服務提供者的結果被剖析。剖析包括確定每個參考數據服務提供者如何處理樣本數據源中的已知數據不一致性。 在顯示設備上顯示多個參考數據服務提供者的子集間的比較。所顯示的比較基於所剖析的結果。從所顯示的比較接收對參考數據服務提供者的用戶選擇。將所選參考數據服務提供者指示為適合淨化數據域中的進一步的數據。
提供本發明內容以便以簡化的形式介紹將在以下的具體實施方式
中進一步描述的一些發明內容。本發明內容並不旨在標識所要求保護的主題的關鍵特徵或必要特徵,也不旨在用於幫助確定所要求保護的主題的範圍。
本發明的附加特徵和優點將在以下描述中敘述,且其一部分根據本描述將是顯而易見的,或可通過對本發明的實踐來獲知。本發明的特徵和優點可通過在所附權利要求書中特別指出的工具和組合來實現和獲得。本發明的這些和其他特徵將通過以下描述和所附權利要求書變得更加顯而易見,或可通過對下文中所述的本發明的實踐來領會。


為了描述可獲得本發明的上述和其他優點和特徵的方式,將通過參考附圖中示出的本發明的具體實施例來呈現以上簡要描述的本發明的更具體描述。可以理解,這些附圖僅描述本發明的典型實施例,從而不被認為是對其範圍的限制,本發明將通過使用附圖用附加特徵和細節來描述和說明,在附圖中
圖1示出了便於比較和選擇數據淨化服務提供者的示例計算機體系結構。
圖2示出了用於標識用於淨化數據的數據淨化服務提供者的示例方法的流程圖。
具體實施方式
本發明涉及用於比較並選擇數據淨化服務提供者的方法、系統和電腦程式產品。在一些實施例中,標識用於淨化的參考數據服務提供者。樣本數據源被映射到所選數據域。數據域與具有指定數據安排的數據元素相關聯。樣本數據源具有已知的數據不一致性。
多個參考數據服務提供者的列表配置用於淨化在所選數據域中的數據的數據元素。接收對要被探查的多個參考數據服務提供者的子集的選擇。樣本數據源被提交給參考數據服務提供者的子集中的每個參考數據服務提供者。從參考數據服務提供者的子集中的每個參考數據服務提供者接收回淨化樣本數據源的結果。對於每個參考數據服務提供者, 該結果包括從樣本數據源獲取的所謂已淨化了的樣本數據源。
來自多個參考數據服務提供者的子集中的每個參考數據服務提供者的結果被剖析。剖析包括確定每個參考數據服務提供者如何處理樣本數據源中的已知數據不一致性。 在顯示設備上顯示多個參考數據服務提供者的子集間的比較。所顯示的比較基於所剖析的結果。從所顯示的比較接收對參考數據服務提供者的用戶選擇。將所選參考數據服務提供者指示為適合淨化數據域中的進一步的數據。
本發明的各實施例可包括或利用專用或通用計算機,該專用或通用計算機包括諸如例如一個或多個處理器和系統存儲器等計算機硬體,如以下更詳細討論的。本發明範圍內的各實施例還包括用於攜帶或存儲計算機可執行指令和/或數據結構的物理介質和其他計算機可讀介質。這些計算機可讀介質可以是通用或專用計算機系統能夠訪問的任何可用介質。存儲計算機可執行指令的計算機可讀介質是計算機存儲介質(設備)。攜帶計算機可執行指令的計算機可讀介質是傳輸介質。由此,作為示例而非限制,本發明的各實施例可包括至少兩種完全不同類型的計算機可讀介質計算機存儲介質(設備)和傳輸介質。
計算機存儲介質(設備)包括RAM、ROM、EEPROM、CD-ROM或其他光碟存儲、磁碟存儲或其他磁存儲設備、或可用於存儲計算機可執行指令或數據結構形式的所需程序代碼裝置的且可由通用或專用計算機訪問的任何其他介質。
「網絡」被定義為允許在計算機系統和/或模塊和/或其他電子設備之間傳輸電子數據的一個或多個數據連結。當信息通過網絡或另一個通信連接(硬連線、無線、或者硬連線或無線的組合)傳輸或提供給計算機時,該計算機將該連接適當地視為傳輸介質。傳輸介質可包括可用於攜帶計算機可執行指令或數據結構形式的所需程序代碼裝置且可由通用或專用計算機訪問的網絡和/或數據連結。上述的組合也應被包括在計算機可讀介質的範圍內。
此外,在到達各種計算機系統組件之後,計算機可執行指令或數據結構形式的程序代碼裝置可從傳輸介質自動傳輸到計算機存儲介質(設備)(或反之亦然)。例如,通過網絡或數據連結接收到的計算機可執行指令或數據結構可被緩存在網絡接口模塊(例如, 「NIC」)內的RAM中,然後最終被傳輸到計算機系統RAM和/或計算機系統處的較不易失性的計算機存儲介質(設備)。因而,應當理解,計算機存儲介質(設備)可被包括在還利用 (甚至主要利用)傳輸介質的計算機系統組件中。
計算機可執行指令例如包括,當在處理器處執行時使通用計算機、專用計算機、或專用處理設備執行某一功能或某組功能的指令和數據。計算機可執行指令可以是例如二進位代碼、諸如彙編語言之類的中間格式指令、或甚至原始碼。儘管用結構特徵和/或方法動作專用的語言描述了本主題,但可以理解,所附權利要求書中定義的主題不必限於上述特徵或動作。相反,上述特徵和動作是作為實現權利要求的示例形式而公開的。
本領域的技術人員將理解,本發明可以在具有許多類型的計算機系統配置的網絡計算環境中實踐,這些計算機系統配置包括個人計算機、臺式計算機、膝上型計算機、消息處理器、手持式設備、多處理器系統、基於微處理器的或可編程消費電子設備、網絡PC、小型計算機、大型計算機、行動電話、PDA、尋呼機、路由器、交換機等等。本發明也可在其中通過網絡連結(或者通過硬連線數據連結、無線數據連結,或者通過硬連線和無線數據連結的組合)的本地和遠程計算機系統兩者都執行任務的分布式系統環境中實施。在分布式系統環境中,程序模塊可位於本地和遠程存儲器存儲設備中。
圖1示出了便於比較和選擇數據淨化服務提供者的示例計算機體系結構100。參考圖1,計算機體系結構100包括計算機系統102和數據質量伺服器103。數據質量伺服器 103還包括域映射器104、服務提供者選擇模塊106、服務提供者查詢模塊107,以及結果剖析器108。所描繪的計算機系統和組件中的每一個可通過諸如例如區域網(「LAN」)、廣域網(「WAN」)或甚至網際網路等網絡(或作為網絡的一部分)彼此連接。因此,所描繪的計算機系統及組件中的每一個以及任何其他連接的計算機系統及它們的組件都可以創建消息相關數據並通過網絡交換消息相關數據(例如,網際協議(「IP」)數據報和利用IP數據報的其他更高層協議,諸如傳輸控制協議(「TCP」)、超文本傳輸協議(「HTTP」)、簡單郵件傳輸協議(「SMTP」)等)。
如所描繪的,源數據121可被大約存儲在某些類型的數據儲存庫中,諸如,例如, 文件、表格、資料庫等。源數據121可以是指定類型的數據,諸如例如,客戶數據、員工數據、 郵寄地址數據、電話號碼數據、數學計算、統計數據、公司數據、財務數據、經濟數據、地理數據等。
通常,數據質量伺服器103幫助用戶102探查不同參考數據服務提供者並比較數據質量結果。樣本數據可被淨化並針對不同參考服務提供者剖析,以提高質量。
域映射器104配置以接收樣本數據源並將樣本數據源映射到數據域。域映射器 104具有對定義各種不同數據域(諸如,例如數據域112A、112B、112C等)的數據的訪問。 每個數據域可以對應於一種類型的數據,諸如例如,客戶數據、員工數據、郵寄地址數據、電話號碼數據、數學計算、統計數據、公司數據、財務數據、經濟數據、地理數據等。數據域也可以是對特定國家、區域、主題,或分類專用的。例如,美國郵寄地址的數據域可不同於英國郵寄地址的數據域。
在接收樣本數據源後,域映射器104可將所接收到的樣本數據源中數據元素的安排和/或格式與定義每個不同數據域的數據進行比較。在數據元素的安排和/或格式類似 (或匹配)於定義特定數據域的數據時,可為樣本數據源選擇該數據域。
服務提供者選擇模塊106配置用於接收數據域的指示,並標識為該數據域淨化數據的數據淨化服務提供者的列表。服務提供者選擇模塊106可參考服務提供者資料庫113。 服務提供者資料庫113可為不同數據域維護數據淨化服務提供者的列表。服務提供者選擇模塊106可將數據域與服務提供者資料庫113中為該數據域淨化數據的多個數據淨化服務提供者進行匹配。服務提供者選擇模塊106可向計算機系統102返回多個數據淨化(例如, 在顯示設備上)供用戶102查看。
服務提供者查詢模塊107配置用於接收對一個或多個數據淨化服務提供者的用戶選擇。響應於用戶選擇,服務提供者查詢模塊107將樣本數據源提交給一個或多個數據淨化服務提供者的每一個。
來自一個或多個數據淨化服務提供者的每一個的淨化結果被返回到結果剖析器 108。結果剖析器108剖析淨化結果。剖析可包括確定每個數據淨化服務提供者如何解決樣本數據源中的已知數據不一致性。結果剖析器108可生成服務提供者比較,以(例如,在顯示設備上)呈現給用戶。
圖2示出了用於標識用於淨化數據的數據淨化服務提供者的示例方法200的流程圖。方法200將參考計算機體系結構100的組件和數據來描述。
用戶101是計算機系統102的用戶。用戶101渴望尋找服務提供者以淨化源數據 121。因此,計算機102(按用戶101的指令)可將數據樣本111提交給數據質量伺服器103。 數據樣本111可以是源數據121的有代表性的部分或類似地格式化了的其他數據。樣本數據111可包括已知數據不一致性(例如,不完整數據、不正確數據、不準確數據、不相關數據寸J ο
方法200包括將樣本數據源映射到所選數據域的動作,該數據域與具有指定的數據安排的數據元素相關聯,樣本數據源具有已知的數據不一致性(動作201)。例如,域映射器104可接收數據樣本111。域映射器104基於數據樣本111中的數據元素的安排和內容, 可為數據樣本111標識合適的(例如,最接近地匹配的)數據域。例如,域映射器104可將數據樣本111映射到數據域1KB。
方法200包括提供配置用於淨化所選數據域中的數據的多個參考數據服務提供者的列表的動作(動作20 。例如,域映射器104可將數據域112B發送到服務提供者選擇模塊106。服務提供者選擇模塊106可參考服務提供者資料庫113,來獲取配置用於為數據域112B淨化數據的多個數據淨化服務提供者的列表。服務提供者選擇模塊106可將該多個數據淨化服務提供者的列表包括在服務提供者列表114中。服務提供者選擇模塊106可將服務提供者列表114發送到計算機系統102。
計算機系統102可接收服務提供者列表114。計算機系統102可將服務提供者列表114在顯示設備上顯示給用戶102。使用輸入裝置,用戶101可選擇一個或多個(可能全部)包括在服務提供者列表114中的數據淨化服務提供者,用於基於數據樣本111的探查。例如,用戶102可從服務提供者列表114中選擇服務提供者109A、109B,和109C。計算機102(按用戶101的指導)可將服務提供者選擇發送回數據質量伺服器103。例如,計算機102可將服務提供者選擇116發送到數據質量伺服器103。服務提供者選擇116可標識服務提供者109A、109B,和109C用於探查。
方法200包括接收對要被探查的多個參考數據服務提供者的子集的選擇的動作 (動作20 。例如,服務提供者查詢模塊107可接收服務提供者選擇116。
對於多個參考數據服務提供者的子集中的每個參考數據服務提供者,方法200包括將樣本數據源提交給參考數據服務提供者的動作(動作204)。例如,服務提供者查詢模塊可將數據樣本111提交給服務提供者109A、109B,和109C的每一個。
對於多個參考數據服務提供者的子集中的每個參考數據服務提供者,方法200包括從參考數據服務提供者接收回淨化樣本數據源的結果的動作,該結果包括從樣本數據源獲取的所謂已淨化的樣本數據源(動作205)。例如,結果剖析器108可從服務提供者109A、 109B,和109C分別接收淨化結果117A、117B,和117C。每個淨化結果117A、117B,和117C可包括從數據樣本111獲取的所謂已淨化了的數據樣本。
方法200包括剖析來自多個參考數據服務提供者的子集中的每個參考數據服務提供者的結果的動作,包括確定每個參考數據服務提供者如何處理樣本數據源中的已知數據不一致性(動作206)。例如,結果剖析器108可剖析淨化結果117A、117B,和117C的每一個。從結果117A、117B,和117C,結果剖析器108可確定服務提供者109A、109B,和109C 的每一個如何分別處理數據樣本111中的已知數據不一致性。
剖析淨化結果可包括以下各項中的一個或多個標識淨化結果中的假否定(未解決的不一致性),標識淨化結果中的假肯定(對一致數據的改變),並確定是否包括補充的豐富數據(例如地理編碼數據)。
從已剖析的結果,結果剖析器108可為每個數據淨化服務提供者生成服務質量值。例如,結果剖析器108可從剖析的結果117A、117B,和117C為每個服務提供者109A、 109B,和109C分別生成服務質量值。服務質量值提供服務提供者淨化數據樣本111有多好的總體評級。
結果剖析器108可在服務提供者比較118中包括每個服務提供者109A、109B,和 109C的服務質量值和可能的其他剖析數據。結果剖析器108可將服務提供者比較118發送到計算機系統102。
方法200包括將多個參考數據服務提供者的子集間的比較顯示在顯示設備上的動作,所顯示的比較基於剖析結果(動作207)。例如,計算機系統102可將服務提供者比較 118在顯示設備上顯示給用戶101。
方法200包括從所顯示的比較接收用戶對參考數據服務提供者的選擇的動作,所選參考數據服務提供者被指示為適合淨化數據域中的進一步的數據(動作208)。例如,計算機系統102可以從用戶102接收服務提供者選擇119。服務提供者選擇119可指示服務提供者109C被選來淨化源數據121。
響應於服務提供者選擇119或在某些其他時間,計算機系統102可將源數據121 提交給服務提供者109C。服務提供者109C可淨化源數據121以生成已淨化數據122。服務提供者109C可返回已淨化數據122。已淨化數據123可被合併回源數據121中。
因此,本發明的實施例允許用戶探查不同的數據淨化服務提供者,並以提高了的自動化來比較來自不同的數據淨化服務提供者的質量結果。本發明可具體化為其它具體形式而不背離其精神或本質特徵。所描述的實施例在所有方面都應被認為僅是說明性而非限制性的。因此,本發明的範圍由所附權利要求書而非前述描述指示。落入權利要求書的等效方案的含義和範圍內的所有改變被權利要求書的範圍所涵蓋。
權利要求
1.在包括一個或多個處理器、系統存儲器,和顯示設備的計算機系統處,一種用於標識用於淨化數據的參考數據服務提供者的方法,所述計算機系統還包括數據質量模塊,所述方法包括將樣本數據源(111)映射到所選數據域(112B)的動作,所述數據域(112B)與具有指定的數據安排的數據元素相關聯,所述樣本數據源具有已知的數據不一致性;提供配置用於淨化所述所選數據域(112B)中的數據的多個參考數據服務提供者的列表(114)的動作;接收對要被探查的多個參考數據服務提供者(109A,109B,109C)的子集的選擇(116) 的動作;對於所述多個數據服務提供者(109A,109B,109C)的所述子集中的每個參考數據服務提供者將所述樣本數據源(111)提交給參考數據服務提供者(109A,109B, 109C)的動作;以及從所述參考數據服務提供者(109A,109B,109C)接收回淨化所述樣本數據(111)源的結果(117A,117B,117C)的動作,所述結果(117A,117B,117C)包括從所述樣本數據源獲取所謂已淨化了的樣本數據源;剖析(117A,117B,117C)來自所述多個參考數據服務提供者(109A,109B,109C)的所述子集中的每個參考數據服務提供者的結果的動作,包括確定每個參考數據服務提供者如何處理所述樣本數據源中的已知數據不一致性;將所述多個參考數據服務提供者的所述子集間的比較(118)顯示在顯示設備上的動作,所顯示的比較(118)基於剖析結果;以及從所顯示的比較接收對參考數據服務提供者的用戶選擇(119)的動作,所選參考數據服務提供者被指示為適合淨化所述數據域中的進一步的數據。
2.如權利要求1所述的方法,其特徵在於,將樣本數據源映射到所選數據域的動作包括映射到從以下選出的數據域的動作客戶數據、員工數據、郵寄地址數據、電話號碼數據、 數學計算、統計數據、公司數據、財務數據、經濟數據,和地理數據。
3.如權利要求1所述的方法,其特徵在於,將樣本數據源映射到所選數據域的動作包括映射到對特定國家、區域、主題,或分類專用的數據域的動作。
4.如權利要求1所述的方法,其特徵在於,提供配置用於淨化所述所選數據域中的數據的多個參考數據服務提供者的列表的動作,包括提供配置用於淨化從以下選出的所選數據域中的數據的多個參考數據服務提供者的列表的動作客戶數據、員工數據、郵寄地址數據、電話號碼數據、數學計算、統計數據、公司數據、財務數據、經濟數據,和地理數據。
5.如權利要求1所述的方法,其特徵在於,剖析來自所述多個服務提供者的所述子集中的每個參考數據服務提供者的結果的動作,包括確定來自所述每個參考數據服務提供者的假否定的數量的動作。
6.如權利要求1所述的方法,其特徵在於,剖析來自所述多個服務提供者的所述子集中的每個參考數據服務提供者的結果的動作,包括確定來自所述每個參考數據服務提供者的假肯定的數量的動作。
7.如權利要求1所述的方法,其特徵在於,剖析來自所述多個參考數據服務提供者的所述子集中的每個參考數據服務提供者的結果的動作,包括確定所述參考數據服務提供者的任何一個是否用其他數據豐富了所述結果的動作。
8.一種供在計算機處使用的電腦程式產品,所述計算機系統包括數據質量模塊,所述電腦程式產品用於實現一種用於標識用於淨化數據的參考數據服務提供者的方法,所述電腦程式產品包括其上存儲有計算機可執行指令的一個或多個計算機存儲設備,所述指令在處理器處執行時,使得所述計算機系統執行所述方法,包括以下將樣本數據源(111)映射到所選數據域(U2B),所述數據域(112B)與具有指定的數據安排的數據元素相關聯,所述樣本數據源具有已知的數據不一致性;提供配置用於淨化所述所選數據域(112B)中的數據的多個參考數據服務提供者的列表(114);接收對要被探查的多個參考數據服務提供者(109A,109B,109C)的子集的選擇(116);對於所述多個數據服務提供者(109A,109B,109C)的所述子集中的每個參考數據服務提供者將所述樣本數據源(111)提交給所述參考數據服務提供者(109A,109B,109C);以及從所述參考數據服務提供者(109A,109B,109C)接收回淨化所述樣本數據(111)源的結果(117A,117B,117C),所述結果(117A,117B,117C)包括從所述樣本數據源獲取所謂已淨化了的樣本數據源;剖析(117A,117B,117C)來自所述多個參考數據服務提供者(109A,109B,109C)的所述子集中的每個參考數據服務提供者的結果,包括確定每個參考數據服務提供者如何處理所述樣本數據源中的已知數據不一致性;將所述多個參考數據服務提供者的所述子集間的比較(118)顯示在顯示設備上,所顯示的比較(118)基於剖析結果;以及從所顯示的比較接收對參考數據服務提供者的用戶選擇(119),所選參考數據服務提供者被指示為適合淨化所述數據域中的進一步的數據。
9.如權利要求8所述的電腦程式產品,其特徵在於,在被執行時使得所述計算機系統將樣本數據源映射到所選數據域的計算機可執行指令包括,在被執行時使得所述計算機系統映射到選自以下的數據域的計算機可執行指令客戶數據、員工數據、郵寄地址數據、 電話號碼數據、數學計算、統計數據、公司數據、財務數據、經濟數據,和地理數據。
10.如權利要求8所述的電腦程式產品,其特徵在於,在被執行時使得所述計算機系統將樣本數據源映射到所選數據域的計算機可執行指令包括,在被執行時使得所述計算機系統映射到對特定國家、區域、主題,或分類專用的數據域的計算機可執行指令。
11.如權利要求8所述的電腦程式產品,其特徵在於,在被執行時使得所述計算機系統提供配置用於淨化所述所選數據域中的數據的多個參考數據服務提供者的列表的計算機可執行指令包括,在被執行時使得所述計算機系統提供配置用於淨化所選數據域中的數據的多個參考數據服務提供者的列表的計算機可執行指令,所述數據域選自以下客戶數據、員工數據、郵寄地址數據、電話號碼數據、數學計算、統計數據、公司數據、財務數據、經濟數據,和地理數據。
12.如權利要求8所述的電腦程式產品,其特徵在於,在被執行時使得所述計算機系統剖析來自所述多個參考數據服務提供者的所述子集中的每個參考數據服務提供者的結果的計算機可執行指令包括,在被執行時使得所述計算機系統確定來自所述每個參考數據服務提供者的假否定的數量的計算機可執行指令。
13.如權利要求8所述的電腦程式產品,其特徵在於,在被執行時使得所述計算機系統剖析來自所述多個參考數據服務提供者的所述子集中的每個參考數據服務提供者的結果的計算機可執行指令包括,在被執行時使得所述計算機系統確定來自所述每個參考數據數據服務提供者的假肯定的數量的計算機可執行指令。
14.如權利要求8所述的電腦程式產品,其特徵在於,在被執行時使得所述計算機系統剖析來自所述多個參考數據服務提供者的所述子集中的每個參考數據服務提供者的結果的計算機可執行指令包括,在被執行時使得所述計算機系統確定所述參考數據服務提供者的任何一個是否用其他數據豐富了所述結果的計算機可執行指令。
15.一種數據淨化系統,所述數據淨化系統包括用戶計算機系統(102),所述用戶計算機系統(102)包括一個或多個處理器和系統存儲器;多個參考數據服務提供者(109A,109B,109C),每個數據淨化服務提供者(109A,109B, 109C)配置用於淨化指定數據域(112A,112B,112C)中的數據;以及數據淨化伺服器(103),所述數據淨化伺服器包括 一個或多個處理器; 系統存儲器;以及一個或更多個其上存儲有計算機可執行指令的計算機存儲設備,代表域映射(104)、服務提供者選擇模塊(106)、服務提供者查詢模塊(107),以及結果剖析器(108),其中所述域映射器(104)配置用於從所述用戶計算機系統(10 接收樣本數據源(111);將所述樣本數據源(111)映射到所選數據域(112B),所述數據域(112B)與具有指定的數據安排的數據元素相關聯,所述樣本數據源具有已知的數據不一致性;以及將所選數據域(112B)發送到所述服務提供者選擇模塊(106); 其中所述服務提供者選擇模塊(106)配置用於 從所述域映射器(104)接收所述所選數據域(112);參考服務提供者資料庫(113),以從被配置來淨化所述所選數據域(112B)中的數據的多個數據淨化服務提供者中標識參考數據服務提供者列表;將所述參考數據服務提供者列表(114)提供給所述用戶計算機系統(102); 其中所述服務提供者查詢模塊(107)配置用於 從所述用戶計算機系統接收樣本數據源(111);從所述參考數據服務提供者列表(114)接收參考數據服務提供者(109A,109B,109C) 的子集的選擇,參考數據服務提供者(109A,109B,109C)的所選子集標識要被探查的參考數據服務提供者;對於參考數據服務提供者(109A,109B,109C)的子集中的每個參考數據服務提供者, 將所述樣本數據源提交給所述參考數據服務提供者(109A,109B, 109C); 其中所述結果剖析器被配置成對於參考數據服務提供者(109A,109B,109C)的子集中的每個參考數據服務提供者, 從所述參考數據服務提供者(109A,109B,109C)接收回淨化所述樣本數據源(111)的結果(117A,117B, 117C),所述結果包括從所述樣本數據源獲取的所謂已淨化了的樣本數據源;剖析來自所述參考數據服務提供者(109A,109B,109C)的所述子集中的每個參考數據服務提供者的結果,包括確定每個服務提供者如何處理所述樣本數據源(111)中的已知數據不一致性;基於所剖析的結果,生成參考數據服務提供者的子集間的比較(118);以及將所述比較(118)發送到所述用戶計算機系統(102)。
全文摘要
本發明揭示了比較並選擇數據淨化服務提供者。本發明涉及用於探查並選擇數據淨化服務提供者的方法、系統和電腦程式產品。本發明的實施例允許用戶探查不同的數據淨化服務提供者,並比較來自不同的數據淨化服務提供者的質量結果。樣本數據被映射到指定數據域。向用戶提供用於為所選數據域淨化數據的服務提供者列表。用戶選擇服務提供者子集。樣本數據被提交給服務提供者子集,該服務提供者子集返回包括所謂已淨化了的數據的結果。剖析結果,並將服務提供者子集的比較呈現給用戶。當淨化進一步的數據時,用戶選擇一個服務提供者來使用。
文檔編號G06F17/30GK102521226SQ20111030776
公開日2012年6月27日 申請日期2011年9月28日 優先權日2010年9月29日
發明者E·胡迪斯, E·齊克利克, G·皮萊格, N·哈比 申請人:微軟公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀