高效能空間抽樣調查三明治模型方法
2023-06-26 21:05:06
專利名稱:高效能空間抽樣調查三明治模型方法
技術領域:
本發明涉及一種空間高效抽樣調査方法,生態環境監測、資源調査、農業估產、林業調査、 健康調查、遙感監測等。
技術背景空間抽樣具有實際意義,好的抽樣方案可在保持或提高精度同時,減少採集與測量數據的 花費,如美國自70年代採用MSS對世界小麥估產,精度達到90%;近年採用氣象衛星圖像進 行農作物估產,全國範圍估產開支僅幾千美元(用陸地衛星稍貴),帶來的經濟效益可達上億 美元。我國農業部採用類似方法通過抽樣調查結合衛星遙感調査,也證明了其顯著的經濟效益。傳統的抽樣技術可以分為簡單隨機抽樣、系統抽樣、分層抽樣、整群抽樣和階段抽樣。簡 單隨機抽樣是隨機在抽樣區域中選擇樣本,這種抽樣技術對於效率較低,如果抽樣區域目標具 有空間上的相關性,通過隨機抽樣得到的樣本對總體估計會產生偏差。系統抽樣在抽樣區域中 按照一定規則均勻的布置樣本,如果布樣密度足夠能夠很好的估計總體,但是要達到較高的布 樣密度,需要較多的樣本成本較高。分層抽樣是對抽樣區域有一定了解情況下提高抽樣效率的 一種技術,通過根據層內變異小,層間差異大的分層原則,能夠通過較少的點得到較高的抽樣 精度。在每個層內布置樣本也同樣面臨與簡單隨機抽樣和系統抽樣的問題。整群抽樣和多階段 抽樣都是解決抽樣目標較大而提出的解決方案。整群抽樣是整群的抽取樣本而不是單個抽取樣本,適用於群之間的差異不大情況。多階段抽樣是對抽樣目標在不同的層次上劃分,從粗粒度 到細粒度的劃分,逐步得到樣本。在選擇群或者在多階段抽樣中,每個階段抽樣樣本的選取也 面臨這簡單隨機抽樣或者系統抽樣等面臨的問題。國內外的很多應用中,大部分基本上還是採 用基於經典統計學的傳統抽樣方法,空間相關性及空間異質性沒有融合到算法中,導致不可忽 視的偏差及精度下降,間接地影響到抽樣的效率及結果準確性。空間抽樣受地學規律及區域因素的影響,如抽樣分層涉及到複雜的時空因子、最優樣本的 設計需要分析空間變異性、動態抽樣涉及到的時空複雜性、在空間抽樣中誤差的普遍性(如數 據、測量方法、模型誤差)等;這些問題都是採用單純的統計抽樣不能很好處理的,需要在實 踐中結合地學規律謹慎研究並找出合適的處理方法。在考慮了空間相關性的條件下,抽樣目標 區域的分層與調査結果匯報單元往往不一致,而如果根據匯報單元進行抽樣,則會造成抽樣成 本的大幅上升,當報告單元眾多時,如我國以2700多個縣為報告單元,即使利用高效的抽樣調查的辦法,調查費用仍是很高的。 發明內容本發明的技術解決問題是提供一種高效能空間抽樣調査三明治模型方法,該方法克服了 按照報告單元布置樣本導致的效率過低和單一根據知識分層布置樣點無法在報告單元表達的難 題,提高了監測抽樣效率和預見性,同時以知識分層為樣本布設範圍,抽樣結果綜合到報告單 元,避免使得樣本量隨報告單元數目增加而呈線性增加,使調查費用降低,滿足了調查結果以 行政區的方式表達。本發明的技術解決方案為 一種高效能空間抽樣調查三明治模型方法,首先對抽樣域進行 離散化,構造一個抽樣框;然後根據層內方差小層間方差大的原則對抽樣框分層,構成不同的 次級抽樣框,所有次級抽樣框構成的總體稱為知識層,樣本布置在這樣的次級抽樣框中;計算 每個層內樣本調査值,得到層的均值和方差;將知識層得到的方差和均值,按照誤差和均值傳 遞方法,算到不同的報告層上,其具體步驟如下(1) 根據抽樣目標的複雜程度和抽樣基本對象的大小,設定抽樣分辨 率;通過抽樣解析度將連續的空間離散化,形成格網單元,即抽樣框;(2) 則對所述的抽樣框進行分層,構成不同的次級抽樣框,所有次級抽樣框構成的總體稱 為知識層;樣本按照隨機方法布置在這樣的次級抽樣框中;(3) 計算抽樣框中各個層的均值和方差;(4) 根據每個報告單元所包含的不同分層對報告單元貢獻的權重,計算每個報告單元的均 值和方差,從而完成從知識層到報告層的信息傳遞。本發明的原理是首先,格網化抽樣域得到布滿整個抽樣域的單元格網,作為計算分層單 元對報告單元貢獻權重的基本度量尺度;其次,通過計算或者利用先驗知識引入知識分層,使得調査目標在每個層內方差變異小,層與層之間的方差變異大,使得在層內通過簡單隨機的方 法抽樣就能夠使得層內的均值和方差有較好的估計;然後計算計算各個報告單元所包含的分層 單元面積比重作為分層單元佔報告單元的權重;再次計算每層的均值和空間方差,空間方差是 考慮了樣本空間相關性的一種方差,其計算公式如下formula see original document page 5其中formula see original document page 5formula see original document page 6上式中(72是考慮了空間相關性以後得到的空間方差,CT, 是層內的算術方差,五[^fl-fl'"度 量了層內的空間相關性。y。表示樣本值,?表示均值。hi表示第h層內的地i個樣本點的值。^表示第h層的樣點的均值,其計算公式如下■n="^rl^A, (4)在完成層內的均值和方差計算以後,可以根據下面的公式計算每個報告單元的均值和方差R,/W (5)F = J>AxWi (6)公式(5)中f^表示h層的佔報告單元的權重,iV力表示在報告單元中,第h層所包含的抽樣 單元的個數,W表示報告單元包含的抽樣單元個數。公式(6)是計算某個報告單元的均值的方法, ^表示知識層中計算得到第h層均值。v60是報告單元的方差,^表示知識層中第h層被報告 單元包含的抽樣數,W,的意義跟第(5)式的意思一樣,《表示第h知識層的有(l)式計算得到的空間方差。在求得知識層的均值和空間方差以後對每個報告單元根據其包含的知識層按照公式 (5)、 (6)、 (7)計算報告單元的均值和方差。 本發明與現有技術相比的優點在於(1) 在一般調查抽樣中,最後的調査結果需要按照行政單元報告,因此一般採用在每個行 政單元內放樣,如果行政單元較多,則樣本非常多,效率不高。本發明採用知識分層抽樣,能 夠極大的提高抽樣效率,尤其是地理對象往往具有空間相關性,則最後的調査結果,無法匯報 到行政單元上去,因為一個行政單元往往可能包含多個不同的層類型。(2) 以知識分層為樣本布設範圍,抽樣結果綜合到報告單元,避免使得樣本量隨報告單元 數目增加而呈線性增加,使調査費用大大降低,同時滿足調查結果以行政區的方式表達。(3) 本發明在樣本布設採用分層模型後,利用誤差和均值傳遞方法,最後結果根據行政單 元匯報,成功的實現了抽樣調査中效率和實用性的結合,同時對於地學對象調查,通過分層的 方式考慮了大尺度上的空間變異性,通過空間方差的計算又考慮了小區域內空間相關性,由此 利用先驗知識提高抽樣效率即在同樣的樣本下可以獲得更好的抽樣精度,在同樣精度要求下, 需要較少的樣本,並保持了精度的先驗性和報告單元的目的性。
圖1為本發明高效能空間抽樣調查三明治模型方法的流程圖。
具體實施方式
如圖1所示,以耕地調查為例,本發明的具體實施方法如下1. 設定基本抽樣單元格的大小,也就是離散化連續的抽樣空間,形成大小一致的抽樣單元, 每個抽樣單元被認為是均一的個體,所有抽樣單元構成了抽樣總體。根據抽樣的目標,通過抽 樣單元格大小的設置,可以控制抽樣粒度大小,當單元格越大,抽樣的樣本量越小,但是具體 調査的點的位置隨機性大。抽樣單元格越小,樣本量越大,相對抽樣樣點在單元格內選擇範圍 較小,得到結果對單元格代表性更高。例如,對國內的耕地面積的抽樣調查中,通過TM影像 可以得到大概的全國各個省的耕地面積,但是細小地物無法區分,因此通過航空攝影相片識別細小地物的比例,從而求得實際耕地面積。因為,採用基本的抽樣單元為3O米x30米的航空攝 影照片估計細小地物的面積比例,然後乘以TM影像得到總的耕地面積,得到精確的全國各個 省的耕地面積。2. 對抽樣域分層,根據抽樣分層原則層內方差小,層間方差大。對目 標抽樣域進行分層,在分層的時候,主要考慮目標的自然特徵,不需要考慮最後結果報告的報告單元的範圍限制。例如在耕地面積調查中,將細小底物類型比較一致的或者是非耕地面 積不能被TM影像識別但是所佔比例類似的抽樣區域分為一類,而不需要根據各個省的範圍對 每個省都進行分層,並且分層的邊界也不需要考慮各個省的實際邊界範圍。3. 在各個層內,按照隨機方法布置樣本。在全國耕地面積調査中,根據 步驟2得到的不同的層,在每個層內,按照抽樣調査的精度要求,在每個層內分別隨機布設樣本,層與層之間樣本布設互不幹擾。在每個層內,每個樣本被抽到的概率為1/N, N為層內 所有樣本單元的個數。層內布設的樣本量大小可以按照下式計算formula see original document page 7其中C7是總體方差,F是用戶希望這次調査方差,n是樣本量。4. 計算各個層內的均值和方差,每個層內的均值和方差,根據隨機抽樣理論可以通過下式 得到formula see original document page 7yhi:在A層內調查單元/的調查值A: &層均值 "A: /2層樣本個數A層均值算術方差 然後根據空間相關性理論,計算空間方差CT2 =丄{1_£|>(0 — 0')]}0",2,l;i;[凡-F〗[凡,—O"2:是考慮了空間相關性以後得到的空間方差,£[K _"')]:度量了層內的空間相關性,少。表示層內樣本值, P:表示層內均值。5.計算每個報告單元所包含的層的權重,根據三明治抽樣理論,每個報 告單元內包含的各個層所佔報告單元的權重為『、第A層在報告單元中的權重,W、第A層被報告單元中包含的基本抽樣單元的個數, W:報告單元總的基本抽樣單元的個數。 然後計算報告單元的均值和方差7:報告單元的均值h :表示知識層(第2步中根據目標屬性得到的分層)中計算得到第h層均值W':知識層/所佔報告單元的權重 <》報告單元的方差知識層中第&層被報告單元包含的抽中的樣本數A、第^層被報告單元中包含的基本抽樣單元的個數W:知識層^的空間方差W:報告單元包括的總的樣本單元個數6.計算各個報告單元的均值和方差,對每一個報告單元,根據步驟5進行計算得到各個單 元的均值和方差。對於全國耕地面積調查,如果以省為單元匯報各個省的耕地面積,則在全國 每個省份都按照步驟5計算均值和方差。
權利要求
1、高效能空間抽樣調查三明治模型方法,其特徵在於包括以下步驟(1)根據抽樣目標的複雜程度和抽樣基本對象的大小,設定抽樣解析度;通過抽樣解析度將連續的空間離散化,形成格網單元,即抽樣框;(2)則對所述的抽樣框進行分層,構成不同的次級抽樣框,所有次級抽樣框構成的總體稱為知識層;樣本按照隨機方法布置在這樣的次級抽樣框中;(3)計算抽樣框中各個層的均值和方差;(4)根據每個報告單元所包含的不同分層對報告單元貢獻的權重,計算每個報告單元的均值和方差,從而完成從知識層到報告層的信息傳遞。
2、 根據權利要求1所述的高效能空間抽樣調査三明治模型建模方法,其特徵在於所述的 步驟(2)中根據層內方差小層間方差大的原則對所述的抽樣框進行分層。
3、 根據權利要求l所述的高效能空間抽樣調査三明治模型建模方法,其特徵在於所述的 步驟(3)中按照如下方式計算均值和方差-formula see original document page 2在A層內調查單元/的調查值 A層均值 力層樣本個數 A層均值算術方差然後根據空間相關性理論,計算空間方差formula see original document page 2(T2 :是考慮了空間相關性以後得到的空間方差,五[r(a-ci')]:度量了層內的空間相關性,凡表示層內樣本值, 7:表示層內均值。
4、根據權利要求l所述的高效能空間抽樣調査三明治模型建模方法,其特徵在於所述的 步驟(4)中按照如下方式計算各個層的權重、報告單元的均值和方差第A層在報告單元中的權重,第/2層被報告單元中包含的基本抽樣單元的個數,W:報告單元總的基本抽樣單元的個數。 然後計算報告單元的均值和方差formula see original document page 3打A F:報告單元的均值^ :表示知識層中計算得到第h層均值W':知識層i所佔報告單元的權重報告單元的方差 WA:知識層中第/ 層被報告單元包含的抽中的樣本數^、第^層被報告單元中包含的基本抽樣單元的個數知識層^的空間方差 W:報告單元包括的總的樣本單元個數。
全文摘要
高效能空間抽樣調查三明治模型方法,基於抽樣域的自然屬性分層布置樣本,根據分層原理和方差傳遞原理,結果根據報告單元表達,不受自然分層的限制,具體實現為首先對抽樣域進行離散化,構造一個抽樣框;然後根據層內方差小層間方差大的原則對抽樣框分層,構成不同的次級抽樣框,所有次級抽樣框構成的總體稱為知識層,樣本布置在這樣的次級抽樣框中;計算每個層內樣本調查值,得到層的均值和方差;根據知識分層對報告單元的貢獻,將知識層得到的方差和均值,按照誤差和均值傳遞方法,算到不同的報告層上。本發明克服了按照報告單元布置樣本導致的效率過低和單一根據知識分層布置樣點無法在報導單元表達的難題。可用於大規模的自然資源,環境監測,經濟人口調查等多個領域。
文檔編號G06F19/00GK101271495SQ20081010428
公開日2008年9月24日 申請日期2008年4月17日 優先權日2008年4月17日
發明者劉紀遠, 姜成晟, 莊大方, 李連發, 王勁峰, 詠 葛 申請人:中國科學院地理科學與資源研究所