新四季網

用於消費信息提取服務的可擴展表面的製作方法

2023-07-11 06:33:46


專利名稱::用於消費信息提取服務的可擴展表面的製作方法
技術領域:
:本發明涉及用於消費信息提取服務的可擴展表面。
背景技術:
:計算機和計算系統已經影響了現代生活的幾乎每個方面。計算機通常在工作、休閒、保健、運輸、娛樂、家政管理等中都有涉獵。計算系統常被用於信息管理。具體而言,計算系統可用於向用戶提供信息。然而,可以多種不同方式存儲信息並使其對用戶可用。例如,計算系統可以實現關係型資料庫管理系統(RDBMS)來存儲數據並將數據組織為結構化數據。結構化數據是按照語義組織的數據。此外,類似的數據實體常根據關係型資料庫中的關係或根據面向對象系統中的類型類來分組到一起。簡單RDBMS的示例僅是具有列和行的表格。列描述數據的類別而行存儲該類別的實例。RDBMS系統便於數據的高效檢索。例如,簡單表格可具有城市的列和當前溫度的列。為了找到給定城市的溫度,標識該城市列,並且在城市列中尋找感興趣的城市並且在城市列的特定行中找到它。標識該溫度列,並且在該溫度列中標識與該感興趣的城市相對應的行,從而標識感興趣的城市的溫度。因此,RDBMS中的數據通常是結構化數據。另ー種類型的數據是非結構化數據。非結構化數據通常不以允許計算系統立即標識數據的類型或關係結構的方式組織。例如,文本文檔可包含以下數據「裡約熱內盧的溫度現在是82度」。然而,裡約熱內盧沒有被結構化為城市類型而82沒有被結構化為溫度類型,也不存在裡約熱內盧和82度的形式化結構圖。此外,文本文檔可包含描述全世界的各城市中的各溫度的多個句子。對自動化計算系統來說,與使用能基於類別捜索數據的結構化數據資料庫相比,使用文本文件中的非結構化數據來確定給定城市的溫度更加困難。在此要求保護的主題不限於解決任何缺點或僅在諸如上述環境中操作的各個實施例。相反,提供該背景僅用以示出在其中可實踐在此描述的部分實施例的一個示例性
技術領域:

發明內容此處所述的ー個實施例是在計算環境中實施的方法。該方法包括用於按照允許使用關係型資料庫概念來查詢的方式表示從非結構化數據提取的結構化數據的動作。該方法包括接收指定一個或多個資料庫視圖的用戶輸入。該方法進ー步包括接收指定信息提取技術(諸如提取工作流)的用戶輸入。該方法進ー步包括接收指定數據語料庫的用戶輸入。該提取技術被應用到該數據語料庫以產生該ー個或多個資料庫視圖。然後使用資料庫工具來查詢這些視圖或對其進行操作。提供本
發明內容以便以簡化形式介紹將在以下具體實施方式中進ー步描述的ー些概念。本
發明內容並非g在標識所要求保護的主題的關鍵特徵或必要特徵,也不g在用於幫助確定所要求保護的主題的範圍。另外的特徵和優點將在以下的描述中闡述,並且部分可從該描述中顯而易見,或者可以從此處的教示實踐中習得。本發明的特徵和優點可以通過在所附權利要求中特別指出的手段和組合來實現並獲取。本發明的特徵將從以下描述和所附權利要求書中變得完全顯而易見,或者可通過如下所述對本發明的實踐而獲知。為了描述可獲得本主題的上述和其它優點和特徵的方式,將通過參考附圖中示出的本主題的具體實施例來呈現以上簡要描述的本主題的更具體描述。應該理解,這些附圖僅描繪了各典型實施例,因此其不應被認為是對範圍的限制,各實施例將通過使用附圖用附加特徵和細節來描述並解釋,在附圖中圖I示出了通過工作流處理非結構化數據的語料庫以產生一個或多個視圖;圖2示出了由示例工作流產生的視圖的集合;以及圖3示出了按照允許使用關係型資料庫概念來查詢的方式表示從非結構化數據提取的結構化數據的方法。具體實施例方式本文描述的ー些實施例可以實現用於將對非結構化數據的提取表示成RDBMS中的結構化數據的用戶表面。一些實施例包括用於表示對被表示為行集(rowset)的文檔的整個語料庫而不是僅對單個文檔進行操作的提取的功能。一些實施例實現了用於展示複雜的、可獨立查詢的提取輸出(諸如實體-關係圖)的功能。一些實施例實現了用於通過被良好理解且良好支持的RDBMS概念(諸如表、視圖等)來展示提取輸出的功能。具體而言,實施例可將提取結果展示為視圖或包含視圖的模式(schemas),以使得這些結果能夠表示諸如圖(graph)等複雜結構並且是可獨立查詢的。一些實施例可實現接口和提取方法來維持應用提取時的相同感覺,不論提取細節如何,並因此能擴展到資料庫中的新提取。數據提取系統可用於從非結構化數據提取並分類數據以允許自動化系統對該數據進行分類數據捜索。這些提取系統可以確定或嘗試確定類型或關係信息,以使得非結構化數據可被組織為結構化數據。用戶越來越多地使用RDBMS來存儲非結構化文檔,諸如文件、圖像、或大文本值。用於管理這樣的數據的ー些方法實現信息提取。信息提取包括輸入非結構化文檔,然後輸出描述它們的結構化數據的過程。一些示例包括但不限於從MP3文件提取ID3元數據、從文本提取實體和關係、以及識別圖片或視頻中的面部。出於許多原因,諸如保持數據繁重的處理靠近數據以及利用如備份/恢復、複製、安全等現有管理特徵,在資料庫中執行這樣的提取是有價值的。RDBMS可支持某種內建提取。這分為兩大類索引和專用數據類型。例如,全文本和XML索引輸入文本,並輸出結構化索引。同樣,多媒體的專用數據類型通過函數執行提取,例如,以從圖片中提取色彩數據。現在參考圖1,示出了ー個示例。圖I示出了數據語料庫102。數據語料庫102包括非結構化數據。例如,數據語料庫102可包括一個或多個非結構化的文本文檔、媒體文件、圖片、視頻、生物測定數據等。該非結構化數據包括在實體層級沒有按照語義組織的數據,因為該數據不具有形式化的類型和/或不處於正式實體層級關係中,其中在該正式實體層級關係中一個實體被正式相關(諸如通過圖、樹和/或其他關係結構)。如上所述,數據語料庫可以是單個文件或文檔,或者文件和/或文檔的集合。在一些實施例中,單個文件或文檔可用於自組織提取和捜索,如同下面將會更詳細地解釋的。在其他實施例中,單個文件或文檔,或文件和/或文檔的集合,可被提取到資料庫或其他結構,以用於單個自組織實例以外的進行中的搜索和/或訪問。數據語料庫102可被饋送到信息提取工作流104中。信息提取工作流104定義從數據語料庫102提取該數據以將數據語料庫102中的數據組織為結構化數據的方式。現在示出信息提取工作流的示例。儘管示出了特定示例,然而應當理解,這些示例不是對提取技術的窮舉,也可以使用其他提取技木。在一些實施例中,提取工作流可包括短語語義提取技木。具體而言,實施例可包括能夠基於短語或短語中的字的語義環境來確定與該短語或該字有關的元數據的模塊。例如,可以通過詞語彼此的鄰近度來確定關係。例如,如果發現跨各文檔的語料庫術語Microsoft和Excel緊挨著彼此,則短語語義分析可確定這兩個術語是有關的。可以使用字典或詞法定義來創建字或短語的類型或關係。例如,裡約熱內盧的詞法定義會將它標識為ー個城市,並且因此可以提取將裡約熱內盧分類為城市類型的元數據。在另ー示例中,文檔可具有文本「January13,2011(2011年I月13日)」。可以使用January(l月)的詞法查找來確定它是在確定日期時使用的月份,並因此可以做出此文本是日期類型的判斷。在一些實施例中,提取工作流可包括關係標識功能。例如,文本文檔可包含短語「cityofRiodeJaneiro(裡約熱內盧市)」。基於該短語的語法,可以確定裡約熱內盧是類型「城市」的對象。在另ー示例中,文本文檔可包括文本「Author:RobertSmith(作者RobertSmith)」。基於常見語法,可以將它提取為「RobertSmith」是類型「author(作者)」的對象。語法和關係標識可以是基於標識關係和/或基於標識關係的經驗的學習的用戶輸入的。例如,可以接收用戶輸入,其中用戶標識短語中的關係,諸如通過在標識類型時標識該對象。例如,在上面示出的示例中,用戶可以標識詞語「城市」以代表類型,並標識「裡約熱內盧」來表示類型「城市」的對象。可以剖析後續的具有類似語法的短語以提取元數據以創建結構化數據。在一些實施例中,提取工作流可包括屬性提升(propertypromotion)。例如,音樂文件(諸如mp3文件)可包括該mp3文件中的元數據。這些元數據可定義藝術家、歌曲標題、歌曲長度等。該元數據可被提升到結構化數據。在一些實施例中,提取工作流可包括實體識別或實體提取工作流。例如,文檔可包含公司名稱的列表。工作流可被設計為將公司名稱標識為公司名稱。這可被用於通過類型或以關係為基礎來結構化文檔中的數據。在一些實施例中,提取工作流可包括實體消歧(disambiguation)。例如,工作流在一個或多個文檔中可能遇到PedroDeRose和DeRose博士和DeRose先生的不同數據。該工作流可以能夠確定這些數據點中的每ー個表示同一個人。在一些實施例中,提取工作流可包括模式識別。在圖像中的面部識別中示出了一個這樣的示例。例如,在一個實施例中,模式識別可以簡單地注釋面部出現。可另選地或附加地,實施例可以基於面部的字典來標識該面部。如圖I所示,使數據語料庫102穿過提取工作流104可用於產生一個或多個資料庫視圖106。該資料庫視圖可以是可對其運行單個查詢或單組查詢的自組織視圖,或者是更持久的以對擴展的數量或擴展的組的查詢在擴展的時間段上使用。這些視圖可以表示多個不同形式的數據中的ー個,包括表、圖等。在一些實施例中,視圖的集合可表示此數據。例如,可從微軟公司獲得的SQL伺服器的模式是這種視圖集合的示例。當輸出多個視圖時,提取工作流可以將它們分組在這樣的集合中。該提取技術除了被用於產生視圖以外,該提取技術可進一歩被用於產生過程。這些過程可以定義對ー個或多個視圖的內容進行操作、管理或刷新的方法。使用用於對這些視圖進行操作的資料庫系統能夠訪問這些過程。在高層次上,用戶可以用非結構化文檔的表格開始。在圖I中,這被示出為數據語料庫102。在一些實施例中,數據語料庫可包括若干不同文檔。用戶指定與提取有關的服務來執行提取,諸如提取元數據屬性、提取實體和關係、使用短語語義進行提取等。這作為圖I的示例由提取工作流104示出。工作流104表示用戶指定的特定提取類型。用戶還選擇他們是否想要展示結構化的結果。這在圖I中由視圖106示出。在一些實施例中,無論所指定的特定提取如何,選擇和展示提取的不同方法可以是相同的,或非常類似的,以創建用於結構化非結構化數據的通用過程。具體而言,用戶可以能夠使用標準化用戶接ロ或API來調用不同提取。從本高層次圖示中,進ー步探究了各種中間概念。第一個概念是已存儲文檔的概念。這與在提取之前文檔如何在資料庫中存儲有夫。已存儲文檔可以是作為表格中的行或視圖的文檔。在本不例中,該行具有卩隹ーid,該卩隹一id可以是該表格上的卩隹ー鍵的一部分。該行可以具有多個具有文本或ニ進位碼的列,該文本或ニ進位碼可以等同於文檔的已命名章節。文檔語料庫可以是行集,諸如表格或視圖。第二個概念是自組織文檔的概念。本概念針對當文檔沒有被存儲而是為單個查詢而被提供吋,如何表示這些文檔。在一些用於與可從華盛頓雷蒙德的微軟公司獲得的SQL伺服器一起使用的示例實施例中,SQL伺服器CLR類型(被稱為文檔)可被用於表示被指定為URI的文檔。例如DECLAREidDOCUMENT=『file://···』·第三個概念是提取工作流的概念。提取工作流定義並命名用於從非結構化數據提取結構的過程。可以實現一些實施例,其中用戶能創建他們自己的提取工作流。附加地或可另選地,一些實施例可具有系統定義的工作流。例如,該系統可以定義從文件提取元數據的property_promotion(屬性_提升)工作流,或者提取已命名實體和關係的entity_relationship(實體_關係)工作流。每個工作流是一已命名黑箱,該黑箱展示它接受什麼配置選項,以及在它能被創建之前什麼其他提取工作流應當存在。這可以通過資料庫中的系統目錄展示。第四個概念是提取調用的概念。提取調用包括向文檔的特定語料庫應用提取工作流。該調用包括指定該工作流可用的配置選項,指定用於在語料庫變化時應當如何更新提取輸出的更新政策(例如,自動地,人工地),以及當需要提取輸出時在其上構建的現有提取輸出。因此,該調用可被視為提取管道的創建,該提取管道將使用該工作流處理文檔並產生輸出。在一些實施例中,為了表示調用,可以使用子句。下面示出了可被定義的子句的示例USINGEXTRACTIONextraction_workflow_nameONdocument_table(document_columns)WITHconfiguration_optionsREFERENCESexisting_extraction_output上面示出了可由系統接受的調用子句的非常具體的示例,而可以使用另選的子句或其他調用方法。USINGEXTRACTION(使用提取)被用於定義在數據語料庫上操作的ー個或多個提取工作流。此處,extraction_workflow_name(提取_工作流_名稱)表示針對特定用戶的提取工作流。ON(對於)被用於定義數據語料庫。WITH(具有)被用於定義各配置選項,諸如用於基於字典的提取的字典,或輸入文檔中要忽略的ー組無用詞(stop-word)。REFERENCES(參考)用於定義要在其上構築的現有提取輸出。例如,定義實體間關係的提取工作流可以在提取了這些實體的早先提取工作流的輸出上構築。這裡,REFERENCES將指向該早先提取工作流的輸出。一些實施例可以實現並使用自組織調用。自組織調用將提取工作流應用到特定自組織文檔。然而,一些提取使用包括多個文檔在內的語料庫作為上下文。例如,考慮ー工作流,該工作流使用對語料庫中的短語頻率的靜態分析來從文本中提取關鍵概念。這種提取使用包括多個文檔在內的語料庫作為上下文來從每個單獨文檔中提取關鍵短語而獲得更好的效果。因此,自組織提取可以指定由在現有語料庫的基礎上的提取創建的現有提取輸出。對於非自組織調用,實施例可使用上面的用於自組織調用的子句上的變型。下面示出了上面示出的調用的ー個非常具體的變型。USINGEXTRACTIONstatistically_key_phrasesONad-hocdocumentBASISexisting_extraction_output在本示例中,關鍵短語將從該自組織文檔(ad-hocdocument)中提取,其中該自組織文檔不作為單個文檔,而是就像它是用於產生現有提取輸出的語料庫的一部分一祥。提取輸出表示在文檔的語料庫上調用提取工作流的結構化輸出。此輸出可以是可獨立查詢的。然而,在它來自對基礎數據應用ー過程的意義上,它是推導出的數據。在RDBM上,表示可獨立查詢的推導出的數據的概念可以是視圖。因此,在一些實施例中,提取的輸出被展示為視圖。此視圖可以是使用適當的調用持久化的,或者用於通過自組織命令中的自組織調用的單個自組織查詢。例如,WITH命令是在可從華盛頓雷蒙德的微軟公司獲得的SQL伺服器中使用的自組織命令。—些提取產生可不被清晰顯示為單個視圖的輸出。例如,考慮ー提取,該提取輸出實體-關係圖。這種圖的ー個自然的關係型表示是將其對於多個緊密相關的視圖歸ー化。ー些資料庫系統實現能夠包含多個視圖的集合単元。例如,在SQL伺服器中,能夠包含多個視圖的単元被稱為「模式」,而不與定義結構和內容的其他上下文中使用的模式相混淆。因此,當提取輸出多個視圖吋,它可以被持久化為包含那些視圖的集合。接下來是多個用例示例。可實現其中用戶確定哪些類型的提取可用的實施例。例如,資料庫可包括允許用戶查詢可用提取的用戶接ロ,以及應當為那些提取指定的屬性。例如,用戶可以提交會致使該系統指示屬性提升和短語語義提取可用的查詢。例如,一些實施例包括允許用戶確定什麼提取工作流可用的命令。例如,在ー個非常具體的實施例中,下面的命令SELECT*FR0Msys.extraction_workflows;產生下面的表格輸出權利要求1.一種在計算環境中的按照允許使用關係型資料庫概念來查詢的方式表示從非結構化數據提取的結構化數據的方法,所述方法包括接收指定一個或多個資料庫視圖(106)的用戶輸入(302);接收指定信息提取技術的用戶輸入(304);接收指定數據語料庫(102)的用戶輸入(306);以及將所述提取技術應用到所述數據語料庫(102)以產生所述ー個或多個資料庫視圖(106)(308)。2.如權利要求I所述的方法,其特徵在於,所述ー個或多個視圖包括單個查詢的ー個或多個自組織視圖。3.如權利要求I所述的方法,其特徵在於,多個視圖被指定為視圖的集合。4.如權利要求I所述的方法,其特徵在於,還包括接收與所述提取技術有關的附加選項。5.如權利要求I所述的方法,其特徵在於,還包括對所產生的視圖執行ー個或多個查詢。6.如權利要求I所述的方法,其特徵在於,應用所述提取技術還產生過程。7.如權利要求6所述的方法,其特徵在於,所述過程定義對所述ー個或多個視圖進行操作的方法。8.如權利要求I所述的方法,其特徵在於,所述提取技術包括語義提取技木。9.如權利要求I所述的方法,其特徵在於,所述提取技術包括屬性提升。10.如權利要求I所述的方法,其特徵在於,所述提取技術包括關係標識。11.如權利要求I所述的方法,其特徵在於,所述提取技術包括實體識別或實體提取。12.如權利要求I所述的方法,其特徵在於,所述提取技術包括實體消歧。13.如權利要求I所述的方法,其特徵在於,所述ー個或多個視圖表示圖。14.如權利要求I所述的方法,其特徵在於,所述ー個或多個視圖表示表格數據。15.如權利要求I所述的方法,其特徵在於,所述提取技術包括模式識別。全文摘要本發明涉及用於消費信息提取服務的可擴展表面。按照允許使用關係型資料庫概念查詢的方式表示從非結構化數據提取的結構化數據。一種方法包括接收指定一個或多個資料庫視圖的用戶輸入。該方法進一步包括接收指定信息提取技術(諸如提取工作流)的用戶輸入。該方法進一步包括接收指定數據語料庫的用戶輸入。該提取技術被應用到該數據語料庫以產生該一個或多個資料庫視圖。然後使用資料庫工具來查詢這些視圖或對其進行操作。文檔編號G06F17/30GK102693269SQ20121005287公開日2012年9月26日申請日期2012年3月2日優先權日2011年3月4日發明者P·D·德羅塞申請人:微軟公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀