新四季網

用於在包含分子遺傳標誌物的植物和動物數據集中挖掘關聯規則,繼而利用由這些關聯...的製作方法

2023-09-20 06:30:55


專利名稱::用於在包含分子遺傳標誌物的植物和動物數據集中挖掘關聯規則,繼而利用由這些關聯...的製作方法
技術領域:
:本公開涉及一種或多種關聯規則挖掘算法(associationruleminingalgorithm)的用途,用於挖掘含有由至少一種基於植物或動物的分子遺傳標誌物創建的特徵的數據集(dataset),發現關聯規則,以及利用由這些關聯規則創建的特徵用於分類或預測。
背景技術:
:植物和動物改良的一個主要目標是獲得新的栽培種,該新的栽培種在所期望的目標特徵方面優異,所期望的目標特徵例如產率、穀物油含量(grainoilcontent)、疾病抗性以及對非生物脅迫的抗性。傳統的植物和動物改良的方法是基於動物或植物的表型,或它們的後代的表型來選擇單個的植物或動物。隨後,可以對選擇的個體進行,例如進一步測試或使其成為未來世代的親本。對於一些育種項目在產生針對特定個體的表型之前或當針對該個體僅獲得了少量表型記錄時擁有對其特性的預測是有益的。僅倚靠表型選擇的植物和動物改良方法的一些關鍵限制在於成本和產生這些數據的速度,並且環境(例如,溫度、管理、土壤條件、日光、灌溉條件)對於目標特徵的表達存在強烈影響。近來,分子遺傳標誌物的發展開啟了在使用植物或動物的表型、環境信息和其它類型的特徵之外,使用植物或動物的基於DNA的特徵來完成多種任務的可能性。針對這種類型的數據集的數據分析方法的一些重要的考慮在於挖掘歷史數據的能力,對於多重共線性具有魯棒性(toberobusttomulticollinearity)的能力,以及說明(accountfor)包括在這些數據集中的特徵之間的相互作用(例如,受環境相互作用影響的基因型和上位效應(印istaticeffect))的能力。挖掘歷史數據的能力避免了對用於數據分析的高度結構化數據(highlystructureddata)的需求。需要來自有計劃的實驗的高度結構化數據的方法通常在人力資源、經費和時間方面是資源密集型的。在經濟上重要的植物和動物中大量最為重要的性狀的表達受到強烈的環境影響,這要求這樣的實驗是大型的、經謹慎設計並且受到謹慎控制的。多重共線性限制是指如下情況其中兩種或更多種特徵(或特徵子集(featuresubset))彼此成線性關係。多重共線性可能會導致精確性較低的評價,該評價是對於特徵(或特徵子集)對目標特徵的影響的評價,並且從而導致有偏向的預測。基於挖掘關聯規則的框架(framework)並利用由這些規則創建的特徵來改善預測或分類對於解決上述三方面的考慮是適當的。用於分類或預測的優選方法是機器學習方法(machinelearningmethod)。因此,可以將關聯規則用於對一個或多個目標特徵的分類或預測。在本公開中描述的方法是倚靠執行一種或多種基於機器學習的關聯規則挖掘算法來挖掘含有至少一種植物或動物分子遺傳標誌物的數據集,基於所發現的關聯規則來創建特徵,並使用這些特徵用於目標特徵的分類或預測。
發明內容在實施方式中,公開如下方法所述方法挖掘含有由至少一種基於植物的分子遺傳標誌物創建的特徵的數據集以發現至少一種關聯規則,以及隨後使用由這些關聯規則創建的特徵來進行分類或預測。這些方法中的一些適合用於以含有植物和動物特徵的數據集來進行的分類或預測。在實施方式中,挖掘具有由至少一種基於植物的分子遺傳標誌物創建的至少一種特徵的數據集,以發現至少一種關聯規則,並利用由這些關聯規則創建的特徵來分類或預測一種或多種目標特徵的步驟包括(a)探測關聯規則;(b)基於步驟(a)中的發現創建新的特徵,並將這些特徵添加到數據集中;(c)使用至少一種利用步驟(b)中創建的特徵而創建的特徵,針對一種或多種目標特徵的模型開發(modeldevelopment);(d)從數據集中的特徵中選擇特徵的子集;以及(e)使用自組織映射(self-organizingmaps)(參見TeuvoKohonen(2000),Self-OrganizingMap,Springer,第三版),從空間和時間的關聯探測關聯規則。在實施方式中,公開了挖掘具有一種或多種特徵的數據集的方法,其中所述方法包括使用至少一種基於植物的分子標誌物以發現至少一種關聯規則,並利用由這些關聯規則創建的特徵來進行分類或預測,該方法包括以下步驟(a)探測關聯規則,(b)基於步驟(a)中的發現創建新的特徵,並將這些特徵添加到數據集中;(c)從數據集中的特徵中選擇特徵的子集。在實施方式中,將關聯規則挖掘算法用於使用一種或多種機器學習算法的分類或預測,所述機器學習算法選自特徵評估算法(featureevaluationalgorithm)、特徵子集選擇算法(featuresubsetselectionalgorithm)、貝葉斯網絡(Bayesiannetwork)(參見Cheng禾口Greiner(1999),ComparingBayesiannetworkclassifiers.ProceedingsUAI,pp.101-107·)、基於實例的算法(instance-basedalgorithm)、支持向量機(supportvectormachine)(參見例如Shevade等人(1999),ImprovementstoSMOAlgorithmforSVMRegression.TechnicalReportCD-99—16,ControlDivisionDeptofMechanicalandProductionEngineering,NationalUniversityofSingapore;Smola等人(1998).ATutorialonSupportVectorRegression.NeuroC0LT2TechnicalReportSeries-NC2-TR-1998-030;SchOlkopf(1998).SVMs-apracticalconsequenceoflearningtheory.IEEEIntelligentSystems.IEEEIntelligentSystems13.418-21;Boser等人(1992),ATrainingAlgorithmforOptimalMarginClassifiersV144-52;以及Burges(1998),Atutorialonsupportvectormachinesforpatternrecognition.DataMiningandKnowledgeDiscovery2(1998):121-67)、投票算法(votealgorithm)、代價敏感分類器(cost-sensitiveclassifier)、疊力口算法(stackingalgorithm)、分類規則(classificationrule)和決策樹算法(decisiontreealgorithm)(參見Witten和Frank(2005),DataMining-PracticalmachinelearningToolsandTechniques.MorganKaufmann,SanFrancisco,第二片反)0適合的關聯規則挖掘算法包括但不限於=APriori算法(參見Witten和Frank(2005),DataMining-PracticalmachinelearningToolsandTechniques.MorganKaufmann,SanFrancisco,SecondEdition)、FP_growth算法、可以處理大量特徵的關聯規則挖掘算法、巨模式挖掘算法(colossalpatternminingalgorithm)、直接判別模式挖掘算法(directdiscriminativepatternminingalgorithm)、決策豐對(decisiontree)>|糖集(roughset)(參見ZdzislawPawlak(1992),RoughSets:TheoreticalAspectsofReasoningAboutData.KluwerAcademicPrintonDemand)禾口自組織映射(SOM)算法。在實施方式中,處理大量特徵的適合的關聯規則挖掘算法包括但不限於CLOSET+(#JALWang^A(2003),CLOSET+:Searchingforbeststrategiesforminingfrequentcloseditemsets,ACMSIGKDD2003,pp.236-245)、CHARM(參見Zaki等人(2002),CHARM:Anefficientalgorithmforcloseditemsetmining,SIAM2002,pp.457-473)、CARPENTER(參見Pan等人(2003),CARPENTER=FindingClosedPatternsinLongBiologicalDatasets,ACMSIGKDD2003,pp.637-642)和COBBLER(參見Pan等人(2004),COBBLERCombiningColumnandRowEnumerationforClosedPatternDiscovery,SSDBM2004,pp.21)。在實施方式中,發現直接判別模式(directdiscriminativepattern)的適合的算法包括但不限於DDPM(參見Cheng等人(2008),DirectDiscriminativePatternMiningforEffectiveClassification,ICDE2008,pp.169-178)、HARM0NY(參見Jiyong等人(2005),HARMONYEfficientlyMiningtheBestRulesforClassification,SIAM2005,pp.205-216)>RCBT(Cong^A(2005),Miningtop-Kcoveringrulegroupsforgeneexpressiondata,ACMSIGMOND2005,pp.670-681)>CAR(#BKianmehr等人(2008,CARSVM:Aclassassociationrule-basedclassificationframeworkanditsapplicationingeneexpressiondata,ArtificialIntelligenceinMedicine2008,pp.7-25)和PATCLASS(參見Cheng等人(2007),DiscriminativeFrequentPatternAnalysisforEffectiveClassification,ICDE2007,pp.716-725)。在實施方式中,發現巨模式的適合的算法包括但不限於模式融合算法(PatternFusionalgorithm)(參見Zhu等人(2007),MiningColossalFrequentPatternsbyCorePatternFusion,ICDE2007,pp.706-715)。在實施方式中,適合的特徵評估算法選自下組信息增益算法(informationgainalgorithm)>Relief算法(Reliefalgorithm)(參見例如,Robnik-Sikonja禾口Kononenko(2003),TheoreticalandempiricalanalysisofReliefandReliefF.Machinelearning,53:23-69;以及Kononenko(1995).Onbiasesinestimatingmulti-valuedattributes.InIJCAI95,pages1034-1040)、ReliefF算法(ReliefFalgorithm)(參見例如,Kononenko,(1994),Estimatingattributes:analysisandextensionsofRelief.In:L.DeRaedtandF.Bergadano(eds.):MachinelearningECML-94.171-182,SpringerVerlag.)、RReliefF算法(RReliefFalgorithm)、對稱不確定{¢^(symmetricaluncertaintyalgorithm)、3|$·^^去(gainratioalgorithm)、以及評級算法(rankeralgorithm)。在實施方式中,適合的機器學習算法是選自下組的特徵子集選擇算法與其它任何機器學習算法聯合的包裝算法(wrapperalgorithm),以及基於關聯性的特徵選擇(correlation-basedfeatureselection(CFS))算法(參見Hall,Μ.Α..1999.Corre1ation-basedfeatureselectionforMachineLearning.Ph.D.thesis.DepartmentofComputerScience-TheUniversityofWaikato,NewZealand.)。這些特徵子集選擇算法可以與選自下組的搜索方法聯合貪婪逐步搜索算法(greedystepwisesearchalgorithm)、最好優先搜索算法(bestfirstsearchalgorithm)、窮舉搜索算法(exhaustivesearchalgorithm)、Race搜索算法(racesearchalgorithm)、以及評級搜"MM-^ii,(ranksearchalgorithm)。在實施方式中,適合的機器學習算法是貝葉斯網絡算法(Bayesiannetworkalgorithm),包括樸素貝葉斯算法(naiveBayesalgorithm)。在實施方式中,適合的機器學習算法是選自下組的基於實例的算法基於實例1(instance-based1)(IB1)算法、基於實例k-近鄰(instance—basedk-nearestneighbor)(IBK)算法、Etar算法、惰式貝葉斯規則(lazyBayesianrule)(LBR)算法和局部加權學習(locallyweightedlearning)(LffL)算法。在實施方式中,適合的用於分類或預測的機器學習算法是支持向量機算法。在優選的實施方式中,適合的機器學習算法是使用序列最小優化(sequentialminimaloptimization)(SMO)算法的支持向量機算法。在優選的實施方式中,機器學習算法是使用回歸型序列最小優化(sequentialminimaloptimizationforregression)(SMOReg)算法的支持向量機算法(參見例如,Shevade等人(1999),ImprovementstoSMOAlgorithmforSVMRegression.TechnicalReportCD—99—16,ControlDivisionDeptofMechanicalandProductionEngineering,NationalUniversityofSingapore;Smola禾口Scholkopf(1998),ATutorialonSupportVectorRegression.NeuroC0LT2TechnicalReportSeries-NC2-TR-1998-030)。在實施方式中,適合的機器學習算法是自組織映射(klf-orgmizingmaps,TeuvoKohonen,Springer)0在實施方式中,適合的機器學習算法是選自下組的決策樹算法邏輯模型樹(logisticmodeltree)(LMT)算法、交互式決策樹(alternatingdecisiontree)(ADTree)算法(參見Freund禾口Mason(1999),Thealternatingdecisiontreelearningalgorithm.Proc.SixteenthInternationalConferenceonmachinelearning,Bled,Slovenia,pp.124—133)、M5P算法(參見Quinlan(1992),Learningwithcontinuousclasses,inProceedingsAI'92,Adams&Sterling(Eds.),WorldScientific,pp.343-348;WangandWitten(1997),InducingModelTreesforContinuousClasses.9thEuropeanConferenceonmachinelearning,pp.128-137)禾口REPTree算法(ffitten和Frank,2005)。在實施方式中,目標特徵選自由連續的目標特徵和離散的(discrete)目標特徵組成的組。離散的目標特徵可以是二元目標特徵。在實施方式中,至少一種基於植物的分子遺傳標誌物來自於植物種群,並且該植物種群可以是未結構化的植物種群(unstructuredplantpopulation)。所述植物種群可以包括近交植物(inbredplant)或雜交植物或它們的組合。在實施方式中,適合的植物種群選自下組玉米、大豆、高粱、小麥、向日葵、稻、蕓薹(canola)、棉花以及黍(millet)。在實施方式中,所述植物種群可以包括約2至約1000000個成員。在實施方式中,分子遺傳標誌物的數量的範圍可以為約1約1000000個標誌物。特徵可以包括的分子遺傳標誌物數據可以包括但不限於一種或多種簡單序列重複(simplesequencer印eat(SSR))、切割擴增多態性序列(cleavedamplifiedpolymorphicsequences(CAPS))、簡單序列長度多態性(simplesequencelengthpolymorphism(SSLP))、限制性片段長度多態性(restrictionfragmentlengthpolymorphism(RFLP))、隨機擴增多態性DNA(randomamplifiedpolymorphicDNA(RAPD))標誌物、單核苷酸多態性(singlenucleotidepolymorphism(SNP))、任意片段長度多態性(arbitraryfragmentlengthpolymorphism(AFLP))、插入、缺失、來源於DNA、RNA、蛋白質或代謝產物的任何其它類型的分子遺傳標記物、由兩種或更多種上述來源於DNA的分子遺傳標誌物創建的單元型、以及它們的組合。在實施方式中,所述特徵還可以包括一種或多種簡單序列重複(SSR)、切割擴增多態性序列(CAPS)、簡單序列長度多態性(SSLP)、限制性片段長度多態性(RFLP)、隨機擴增多態性DNA(RAPD)標誌物、單核苷酸多態性(SNP)、任意片段長度多態性(AFLP)、插入、缺失、來源於DNA、RNA、蛋白質或代謝產物的任何其它類型的分子遺傳標記物、由兩種或更多種上述來源於DNA的分子遺傳標誌物創建的單元型、以及它們的組合,與一種或多種表型測量、RNA(包括mRNA、微小RNA(miRNA)、非編碼RNA(ncRNA))表達水平的微陣列數據、分析性測量、生化測量或環境測量或它們的組合結合作為特徵。植物種群中的適合的目標特徵包括一種或多種可數字表示的和/或可定量的表型性狀,其包括疾病抗性、產率、穀物產量、紗線強度(yarnstrength)、蛋白質組成、蛋白質含量、昆蟲抗性、穀物水分含量、穀物油含量、穀物油質量、乾旱抗性、根倒伏抗性(rootlodgingresistance)、植物高度、穗位高(earheight)、穀物蛋白質含量、穀物胺基酸含量、穀物顏色和莖稈倒伏抗性(stalklodgingresistance)。在實施方式中,樣品植物種群對於一種或多種分子遺傳標誌物的基因型通過直接DNA測序來實驗確定。在實施方式中,挖掘具有至少一種基於植物的分子遺傳標誌物的數據集以發現關聯規則,並且使用由這些關聯規則創建的特徵對一種或多種目標特徵進行分類或預測的方法包括如下步驟(a)探測關聯規則;(b)基於步驟(a)中的發現創建新的特徵,並將這些特徵添加到數據集中;(c)評估特徵;(d)從數據集中的特徵中選擇特徵的子集;和(e)用至少一種在步驟(b)中創建的特徵,開發對一種或多種目標特徵進行預測或分類的模型。在實施方式中,使用上述步驟(a)(e)的任何組合來完成選擇近交系、選擇雜種、評級雜種(rankhybrid)、針對特定的地理學評級雜種、選擇新近交種群的親本、發現用於滲入到優良近交系中的片段,或者它們的任何組合的方法。在實施方式中,探測關聯規則包括使用自組織映射的空間和時間的關聯。在實施方式中,用於預測或分類的模型的至少一種特徵是早先使用特徵評估算法選擇的特徵的子集。在實施方式中,使用交叉驗證來比較算法和參數值的集合。在實施方式中,使用受試者操作特徵(ROC)曲線來比較算法和參數值的集合。在實施方式中,一種或多種特徵數學地或計算地來源於其它的特徵。在實施方式中,公開了挖掘包括至少一種基於植物的分子遺傳標誌物的數據集的方法,以發現至少一種關聯規則,並且利用來自這些關聯規則的特徵對一種或多種目標特徵進行分類或預測,其中該方法包括如下步驟(a)探測關聯規則;(i)其中利用自組織映射探測關聯規則、空間和時間的關聯。(b)基於步驟(a)中的發現創建新的特徵,並將這些特徵添加到數據集中;(c)用至少一種在步驟(b)中創建的特徵,開發對一種或多種目標特徵進行預測或分類的模型;其中,可以在步驟(a)、(b)和(C)之前進行從數據集中的特徵中選擇特徵的子集的步驟。在實施方式中,公開了挖掘包括至少一種基於植物的分子遺傳標誌物的數據集以發現至少一種關聯規則,並使用由這些關聯規則創建的特徵進行分類或預測的方法,其中該方法包括如下步驟(a)探測關聯規則;(b)基於如下發現創建新的特徵,並將這些特徵添加到數據集中,所述發現基於步驟(a)中的發現;(c)在數據集中選擇特徵的子集。在實施方式中,其中這些方法的結果包括具有至少一種基於植物的分子遺傳標誌物的數據集,該數據集用來發現至少一種關聯規則,並且使用由這些關聯規則創建的特徵進行分類或預測,將這些方法的結果用於(a)預測雜種的性能,(b)預測跨越不同地理位置的雜種的性能;(c)選擇近交系;(d)選擇雜種;(e)針對特定的地理學評級雜種;(f)選擇新近交種群的親本;(g)發現用於滲入到優良近交系中的DNA片段;(h)或(a)(g)的任何組合。在實施方式中,使用具有至少一種基於植物的分子遺傳標誌物的數據集以發現至少一種關聯規則,並將由這些關聯規則創建的特徵用於分類或預測,並且針對一種或多種感興趣的目標特徵從植物種群中選擇至少一株植物。在實施方式中,考慮現有知識,現有知識包括初步調查、植物遺傳學的數量研究、基因網絡、序列分析或它們的任意組合。在實施方式中,可以對上述方法進行改變以包括下述步驟(a)利用包括在所述一種或多種關聯規則中的一種或多種特徵的組合來代替原有的特徵以減少維度;(b)通過基於模型的搜索樹(searchtree)挖掘區別性和必要性頻繁模式。圖1添加來自步驟(b)的新特徵之前和之後,ROC曲線下的面積。發明詳述關聯規則挖掘算法提供在非常大的數據集上發現相關的相互作用所需的框架和規模可變性(scalability)。本文中公開的方法對於鑑定影響表型的多基因座相互作用(multi-locusinteraction)是有用的。本文中公開的方法對於鑑定分子遺傳標誌物、單元型和環境因素之間的相互作用是有用的。基於這些相互作用創建的新特徵對於分類或預測是有用的。這些方法中的一些對於多重共線性問題和特徵的缺失值(missingvalue)的魯棒性,以及這些方法描述特徵之間的錯綜複雜的依賴性(cbpendency)的能力,使得這樣的方法適合用於分析包括基於分子遺傳標誌物的特徵的大的、複雜的數據集。WEKA(WaikatoEnvironmentforKnowledgeAnalysisdevelopedatUniversityOfWaikato,紐西蘭)是一套機器學習軟體,該軟體是使用Java程式語言編寫的,其實現眾多來自不同學習範型(learningparadigm)的機器學習算法。該機器學習軟體工作站促進了機器學習算法的執行並支持了算法的開發或數據挖掘和計算方法的適應性(adaptation)0WEKA還提供了通過方法(例如交叉驗證和ROC(受試者操作特徵)曲線)適當地測試每種算法和參數值集合的性能的工具。使用WEKA來執行供建模(modeling)用的機器學習算法。但是,本領域普通技術人員應當理解其它機器學習軟體也可以用於實施本發明。另外,使用本文所描述的方法的數據挖掘提供靈活的、規模可變(scalable)的框架,用於利用包括基於分子遺傳標誌物的特徵的數據集進行建模。該框架是靈活的,這是因為其包括用於確定哪些算法和具體的參數設置(parametersettings)應當被用於數據集分析的測試(即交叉驗證和ROC曲線)。該框架是規模可變的,這是因為其適合於非常大的數據集。在實施方式中,公開了挖掘包含由至少一種基於植物的分子遺傳標誌物創建的特徵的數據集,以發現至少一種關聯規則,然後使用由這些關聯規則創建的特徵來進行分類或預測的方法。這些方法中的一些適合於以含有植物和動物特徵的數據集進行的分類或預測。在實施方式中,挖掘具有由至少一種基於植物的分子遺傳標誌物創建的至少一種特徵的數據集,以發現至少一種關聯規則,並利用由這些關聯規則創建的特徵對一種或多種目標特徵進行分類或預測的步驟包括(a)探測關聯規則;(b)基於步驟(a)中的發現創建新的特徵,並將這些特徵添加到數據集中;(c)用至少一種利用步驟(b)中創建的特徵而創建的特徵,針對一種或多種目標特徵進行模型開發;(d)從數據集中的特徵中選擇特徵的子集;和(e)使用自組織映射從空間和時間的關聯中探測關聯規則。在實施方式中,公開了挖掘具有一種或多種特徵的數據集的方法,其中所述方法包括使用至少一種基於植物的分子標誌物以發現至少一種關聯規則,並利用由這些關聯規則創建的特徵來進行分類或預測,該方法包括以下步驟(a)探測關聯規則,(b)基於步驟(a)中的發現創建新的特徵,並將這些特徵添加到數據集中;(c)從數據集中的特徵中選擇特徵的子集。在實施方式中,將關聯規則挖掘算法用於利用一種或多種機器學習算法進行的分類或預測,所述機器學習算法選自特徵評估算法、特徵子集選擇算法、貝葉斯網絡、基於實例的算法、支持向量機、投票算法、代價敏感分類器、疊加算法、分類規則、以及決策樹算法。適合的關聯規則挖掘算法包括但不限於=APriori算法、FP-growth算法、可以處理大量的特徵的關聯規則挖掘算法、巨模式挖掘算法、直接判別模式挖掘算法、決策樹、粗糙集和自組織映射(SOM)算法。在實施方式中,處理大量特徵的適合的關聯規則挖掘算法包括但不限於CLOSET+、CHARM、CARPENTER和COBBLER。在實施方式中,發現直接判別模式的適合的算法包括但不限於DDPM、HARMONY、RCBT、CAR禾口PATCLASSo在實施方式中,發現巨模式的適合的算法包括但不限於模式融合算法。在實施方式中,適合的機器學習算法是選自下組的特徵子集選擇算法與其它任何機器學習算法結合的包裝算法和基於關聯性的特徵選擇(CFS)算法。這些特徵子集選擇算法可以與選自下組的搜索方法聯合貪婪逐步搜索算法、最好優先搜索算法、窮舉搜索算法、Race搜索算法和評級搜索算法。在實施方式中,適合的機器學習算法是貝葉斯網絡算法,包括樸素貝葉斯算法的。在實施方式中,適合的機器學習算法是選自下組的基於實例的算法基於實例KIB1)算法、基於實例k-近鄰(IBK)算法、KStar算法、惰式貝葉斯規則(LBR)算法和局部加權學習(LWL)算法。在實施方式中,適合的用於分類或預測的機器學習算法是支持向量機算法。在優選的實施方式中,適合的機器學習算法是使用序列最小優化(SMO)算法的支持向量機算法。在優選的實施方式中,機器學習算法是使用回歸型序列最小優化(SMOReg)算法的支持向量機算法。在實施方式中,適合的機器學習算法是自組織映射。在實施方式中,適合的機器學習算法是選自下組的決策樹算法邏輯模型樹(LMT)算法、交互式決策樹(ADTree)算法、M5P算法和REPTree算法。在實施方式中,目標特徵選自由連續的目標特徵和離散的目標特徵組成的組。離散的目標特徵可以是二元目標特徵。在實施方式中,至少一種基於植物的分子遺傳標誌物來自於植物種群,並且該植物種群可以是未結構化的植物種群(unstructuredplantpopulation)。植物種群可以包括近交植物或雜交植物或它們的組合。在實施方式中,適合的植物種群選自下組玉米、大豆、高粱、小麥、向日葵、稻、蕓薹、棉花以及黍。在實施方式中,植物種群可以包括約2約100000個成員。在實施方式中,分子遺傳標誌物的數量的範圍可以為約1約1000000個標誌物。特徵可以包括的分子遺傳標誌物數據包括但不限於一種或多種簡單序列重複(SSR)、切割擴增多態性序列(CAPS)、簡單序列長度多態性(SSLP)、限制性片段長度多態性(RFLP)、隨機擴增多態性DNA(RAPD)標誌物、單核苷酸多態性(SNP)、任意片段長度多態性(AFLP)、插入、缺失、來源於DNA、RNA、蛋白質或代謝產物的任何其它類型的分子遺傳標記物、由兩種或更多種上述來源於DNA的分子遺傳標誌物創建的單元型和它們的組合。在實施方式中,特徵還可以包括一種或多種簡單序列重複(SSR)、切割擴增多態性序列(CAPS)、簡單序列長度多態性(SSLP)、限制性片段長度多態性(RFLP)、隨機擴增多態性DNA(RAPD)標誌物、單核苷酸多態性(SNP)、任意片段長度多態性(AFLP)、插入、缺失、來源於DNA、RNA、蛋白質或代謝產物的任何其它類型的分子遺傳標記物、由兩種或更多種上述來源於DNA的分子遺傳標誌物創建的單元型和它們的組合,與一種或多種表型測量、微陣列數據、分析性測量、生化測量、或環境測量或它們的組合結合作為特徵。植物種群中的適合的目標特徵包括一種或多種可數字表示的表型性狀,包括疾病抗性、產率、穀物產量、紗線強度、蛋白質組成、蛋白質含量、昆蟲抗性、穀物水分含量、穀物油含量、穀物油質量、乾旱抗性、根倒伏抗性、植物高度、穗位高、穀物蛋白質含量、穀物胺基酸含量、穀物顏色和莖稈倒伏抗性。在實施方式中,樣品植物種群對於一種或多種分子遺傳標誌物的基因型通過直接DNA測序來實驗確定。在實施方式中,挖掘具有至少一種基於植物的分子遺傳標誌物的數據集以發現關聯規則,並且使用由這些關聯規則創建的特徵對一種或多種目標特徵進行分類或預測的方法,其中該方法包括如下步驟(a)探測關聯規則;(b)基於步驟(a)中的發現創建新的特徵,並將這些特徵添加到數據集中;(c)評估特徵;(d)從數據集中的特徵中選擇特徵的子集;和(e)利用至少一種在步驟(b)中創建的特徵,開發對一種或多種目標特徵進行預測或分類的模型。在實施方式中,使用上述步驟(a)(e)的任何組合來完成選擇近交系、選擇雜種、評級雜種、針對特定的地理學評級雜種、選擇新近交種群的親本、發現用於滲入到優良近交系中的片段,或者它們的任何組合的方法。在實施方式中,探測關聯規則包括使用自組織映射的空間和時間的關聯。在實施方式中,用於預測或分類的模型的至少一個特徵是早先使用特徵評估算法選擇的特徵的子集。在實施方式中,使用交叉驗證來比較算法和參數值的集合。在實施方式中,使用受試者操作特徵(ROC)曲線來比較算法和參數值的集合。在實施方式中,一種或多種特徵數學地或計算地來源於其它的特徵。在實施方式中,公開了挖掘包括至少一種基於植物的分子遺傳標誌物的數據集,以發現至少一種關聯規則,並且利用來自這些關聯規則的特徵對一種或多種目標特徵進行分類或預測的方法,其中該方法包括如下步驟(a)探測關聯規則;(i)其中利用自組織映射探測關聯規則、空間和時間的關聯。(b)基於步驟(a)中的發現創建新的特徵,並將這些特徵添加到數據集中;(c)利用至少一種在步驟(b)中創建的特徵,開發對一種或多種目標特徵進行預測或分類的模型;其中可以在上述步驟(a)、(b)和(C)之前進行從數據集中的特徵中選擇特徵的子集的步驟。在實施方式中,公開了挖掘包括至少一種基於植物的分子遺傳標誌物的數據集以發現至少一種關聯規則,並使用由這些關聯規則創建的特徵進行分類或預測的方法,其中該方法包括如下步驟(a)探測關聯規則;(b)基於如下發現創建新的特徵,以及將這些特徵添加到數據集中,所述發現基於步驟(a)中的發現;(c)在數據集中選擇特徵的子集。在實施方式中,其中這些方法的結果包括具有至少一種基於植物的分子遺傳標誌物的數據集,該數據集用來發現至少一種關聯規則,並且使用由這些關聯規則創建的特徵進行分類或預測,將這些方法的結果用於(a)預測雜種的性能,(b)預測跨越不同地理位置的雜種的性能;(c)選擇近交系;(d)選擇雜種;(e)針對特定的地理學評級雜種;(f)選擇新近交種群的親本;(g)發現用於滲入到優良近交系中的DNA片段;(h)或(a)(g)的任何組合。在實施方式中,其中使用具有至少一種基於植物的分子遺傳標誌物的數據集以發現至少一種關聯規則,並將由這些關聯規則創建的特徵用於分類或預測,並且針對一種或多種感興趣的目標特徵從植物種群中選擇至少一株植物。在實施方式中,考慮現有知識,現有知識包括初步調查、植物遺傳學的定量研究、基因網絡、序列分析或它們的任意組合。在實施方式中,可以對上述方法進行改變以包括下述步驟(a)利用包括在所述一種或多種關聯規則中的一種或多種特徵的組合來代替原有的特徵以減少維度;(b)通過基於模型的搜索樹挖掘區別性和必要性頻繁模式。在實施方式中,特徵評估算法,例如信息增益、對稱不確定性和Relief家族算法是適合的算法。這些算法能夠一起評估所有的特徵,而不是一次一個特徵。這些算法中的一些對於偏向、缺失值以及共線性問題具有魯棒性。Relief家族算法提供了能夠說明深度相互作用(de印-levelinteraction)的工具,但是需要減少的數據集中的特徵之間的共線性。在實施方式中,通過算法來應用子集選擇技術,例如CFS子集評估器(CFSsubsetevaluator)。子集選擇技術可以用於通過除去冗餘、迷惑性特徵(distractingfeature)並保持能夠適當地解釋目標特徵的子集來減少複雜性。當使用例如交叉驗證和ROC曲線這樣的方法進行評估時,這些迷惑性特徵的除去通常提高建模算法的性能。已知特定種類的算法,例如基於實例的算法,對於迷惑性特徵是非常敏感的,而其它算法例如支持向量機受到迷惑性特徵的適度影響。通過基於存在的特徵產生新特徵來減少複雜性也經常使得機器學習算法的預測性能提高。在實施方式中,過濾器和包裝器算法(filterandwrapperalgorithm)可以用於特徵子集選擇。為了使用過濾器進行特徵子集選擇,通常將用於發現特徵的最佳子集(即,窮舉搜索在計算上不是始終可行的)的有效搜索方法(例如貪婪逐步搜索、最好優先搜索和Race搜索)與價值公式(meritformula)(例如CFS子集評估器)關聯。CFS子集評估器在子集中適當地說明冗餘的水平,而不會忽視局部預測性特徵。除了降低複雜性以支持建模,基於機器學習的子集選擇技術還可以用於選自特徵的子集,該特徵的子集適當地解釋目標特徵同時在該子集中包括的特徵之間具有低水平的冗餘。子集選擇方法的一個目的在於通過僅關注於發現的適當解釋目標特徵的子集來減少在未來的數據收集、操作和儲存工作(effort)過程中的損耗。可以使用例如交叉驗證和ROC曲線對在本文中描述的用於減少複雜性的機器學習方法進行比較。然後可以選擇出具有最佳性能的特徵子集選擇算法用於最終分析。這種比較通常如下進行通過將交叉驗證和ROC曲線用於不同的子集選擇算法和建模算法的組合。為了在子集選擇和建模步驟過程中運行交叉驗證,可以使用多臺運行機器學習軟體(例如WEKA)的平行形式的計算機。本文所描述的用於特徵子集選擇的技術使用有效的搜索方法以發現特徵的最佳子集(即,窮舉搜索不總是可能的)。本文公開的建模方法的方面是因為單一算法對於建模每種數據集而言可能不會總是最佳選擇,本文所描述的框架使用交叉驗證技術、ROC曲線和精度(precision)以及重複調用(recall),以從機器學習領域中的多種選擇中選擇針對每個數據集的最佳算法。在實施方式中,在模型開發過程中,可以使用交叉驗證、ROC曲線和精度和重複調用對數種算法和參數設置進行比較。一些機器學習算法對於多重共線性問題有魯棒性(允許以大量特徵建模),對於缺失值有魯棒性,並且可以說明特徵之間的深度相互作用而不會過度擬合(over-fitting)數據。在實施方式中,除了貝葉斯網絡和基於實例的算法,用於建模的機器學習算法還有支持向量機,例如SMOReg,決策樹,例如M5P、RepTree和ADTree。通過M5P、REPTree和ADTree算法產生的樹的生成著眼於減少分配給每個新創建的節點的樣品子集中目標特徵的變化。M5P通常用於處理連續的目標特徵,ADTree通常用於處理二元(或二元化的(binarized))目標特徵,而REPTree可以用於處理連續的和離散的目標特徵兩者。本文公開的機器學習方法的方面是本文所使用的算法可能不需要高度結構化的數據集,不像一些嚴格基於統計技術的方法,這些方法通常倚靠高度結構化的數據集。結構化的實驗通常在人力、成本和時間方面是資源密集型的,這是由於環境強烈地影響在經濟上重要的植物和動物中的大量最為重要的數量遺傳性狀的表達,因此需要這樣的實驗是大型的、經謹慎設計並且受到謹慎控制的。然而,使用機器學習算法的數據挖掘可以有效地利用現有的數據,這些數據不是針對該數據挖掘目的而特別生成的。在實施方式中,本文公開的方法可以用於在第二代目標植物種群的一個或多個成員中基於其針對一個或多個分子遺傳標誌物的基因型或與性狀相關的單元型進行的對目標特徵值的預測。對值進行預測可以在通過實驗得到確定之前或用來代替通過實驗進行確定。在實施方式中,本文公開的方法在與或不與其它統計方法(例如BLUP(最佳線性無偏預測(BestLinearUnbiasedPrediction)))聯合的植物(例如,雜交作物植物)應用育種項目中具有多種應用。例如,所述方法可以用於預測雜種後代的表型性能,所述雜種後代是例如通過雜交具有已知分子遺傳標誌物基因型的一對給定的近交系產生的單一雜交雜種(singlecrosshybrid)(可以是實際的或者處於假設狀態)。所述方法還可以用於選擇植物(例如,近交植物、雜交植物等)以用作一個或多個雜交中的親本;所述方法允許選擇如下親本植物,該親本植物的後代具有擁有所期望的表型的最高可能性。在實施方式中,了解了至少一種特徵和目標特徵的關聯。可以在樣品植物種群(例如,育種種群)中對該關聯進行評估。通過用具有特徵的數據集訓練(train)機器學習算法在第一植物種群中對關聯進行評估,所述特徵併入了關於至少一種分子遺傳標誌物的基因型和該植物種群的至少一個成員中關於目標特徵的值。然後可以使用經訓練的機器學習算法和關於至少一個特徵的值對第二種群預測目標特徵的值。對值進行預測可以在通過實驗得到確定之前或用來代替通過實驗進行確定。在實施方式中,目標特徵可以為數量性狀,例如,針對該性狀提供數量值。在另外的實施方式中,目標特徵可以為定性性狀,例如,針對該性狀提供定性值。可以包括在一些特徵中的表型性狀可以由單個基因或多個基因決定。在實施方式中,所述方法還可以包括選擇目標植物種群中的至少一個成員,其具有目標特徵的期望的預測值,並且包括將所述目標植物種群的至少一個選擇的成員與至少一個其它植物進行育種(或者自交(selfing)所述至少一種選擇的成員,例如用以創建近交系)。在實施方式中,樣品植物種群可以包括大量近交、單雜交Fl雜種或它們的組合。近交可以來自彼此之間相關和/或無關的近交系,而單雜交Fl雜種可以由近交系和/或一種或多種別的近交系的單雜交產生。在實施方式中,樣品植物種群的成員包括來自現有的、已建立的育種種群(例如,商用的育種種群)的成員。已建立的育種種群的成員通常是相對少數建立者(founder)的派生物,並且通常是內部相關的。育種種群可以覆蓋大量世代以及育種周期。例如,已建立的育種種群可以橫跨三、四、五、六、七、八、九或更多個育種周期。在實施方式中,樣品植物種群不需要是育種種群。樣品種群可以是基因型和表型數據全部或部分可獲得的任何現有的植物種群的亞種群。樣品植物種群可以包括任何數量的成員。例如,樣品植物種群包括約2約100000個成員。樣品植物種群可以包括至少約50、100、200、500、1000、2000、3000、4000、5000、或甚至6000或10000或更多成員。樣品植物種群通常在感興趣的目標特徵方面顯示變異性(例如數量目標特徵的數量變異性)。樣品植物種群可以從一個或多個植物細胞培養物中提取。在實施方式中,通過評估樣品植物種群的成員之間的目標特徵(例如,對種群的成員之間的數量目標特徵進行定量)來獲得樣品植物種群中的目標特徵的值。可以在構成第一植物種群的成員(例如近交和/或單雜交Fl雜種)中對表型進行評估。目標特徵可以包括任何數量或定性的目標特徵,例如,具有農業或經濟重要性的特徵。例如,目標特徵可以選自產率、穀物水分含量、穀物油含量、紗線強度、植物高度、穗位高、疾病抗性、昆蟲抗性、乾旱抗性、穀物蛋白質含量、測試重量、視覺或美學外觀和穗軸顏色(cobcolor)。這些性狀,以及其評估技術(例如定量)在本領域中是已知的。在實施方式中,樣品或測試植物種群對於分子遺傳標誌物的集合的基因型可以通過實驗確定、預測、或它們的組合。例如,在一類實施方式中,在植物種群中存在的每個近交的基因型可以通過實驗確定,並且對存在於第一植物種群中的每個單雜交Fl雜種的基因型進行預測(例如,根據通過實驗確定的每種單雜交雜種的兩個近交親本基因型)。可以通過任何適合的技術來實驗確定植物的基因型。在實施方式中,對來自每個近交的大量DNA片段進行測序以實驗地確定每個近交的基因型。在實施方式中,譜系樹和概率性方法(probabilisticapproach)可以用於為單雜交雜種的兩個近交親本計算在不同的標誌物基因座的基因型概率。在實施方式中,本文中公開的方法可以用於針對包括與目標特徵關聯的至少一種分子遺傳標誌物的選定的基因型選擇植物。「等位基因」或「等位基因變體(allelicvariant)」是指遺傳基因座的可選擇形式。每個基因座的單個等位基因分別遺傳自各個親本。如果相同的等位基因存在兩次(即,在每個同源染色體上一次),則二倍體個體是純合的,或者如果存在兩個不同的等位基因,則二倍體個體是雜合的。本文中使用的術語「動物」意在包括除了植物之外的非人類生物,包括但不限於陪伴動物(即寵物)、食用動物、役用動物(workanimal)、或動物園動物。優選的動物包括但不限於魚、貓類、犬類、馬類、白鼬(ferret)以及其它鼬科動物(Mustelid)、牛、綿羊以及豬。更優選動物包括貓類、犬類、馬類以及其它陪伴動物,其中貓類、犬類和馬類甚至更為優選。本文中使用的術語「陪伴動物」是指人類視為寵物的任何動物。本文中所使用的貓類是指貓科(即貓科(Felidae))的任何成員,包括家貓、野貓和動物園貓。貓的例子包括但不限於家貓、獅、虎、美洲豹(leopard)、黑豹(panther)、美洲獅(cougar)、短尾貓(bobcat)、猞猁、美洲虎(jaguar)、印度豹(cheetah)以及藪貓(serval)。優選的貓為家貓。本文中所使用的犬類是指犬科(familyCanidae)的任何成員,包括但不限於家犬、野狗、狐狸、狼、豺以及山狗(coyote)以及犬科的其它成員。優選的犬類為家犬。本文中所使用的馬是指馬科(familyEquidae)的任何成員。馬科動物為有蹄哺乳動物包括但不限於家馬(domestichorse)和野馬例如馬、驢(ass)、驢子(donkey)以及斑馬。優選的馬包括家馬,包括競賽馬。在機器學習上下文中的術語「關聯」是指特徵之間的任何相互關係,不僅是預測特定的種類或數值的相互關係。關聯包括但不限於發現關聯規則、發現模式、進行特徵評估、進行特徵子集選擇、開發預測模型以及理解特徵之間的相互作用。在本發明的上下文中的術語「關聯規則」是指在數據集中經常同時出現的元素。其包括但不限於關聯模式(associationpattern)、判另Ij模式(discriminativepattern)、頻繁模式(frequentpattern)、閉合模式(closedpattern)以及巨模式(colossalpattern)。在機器學習上下文中的術語「二元化的」是指被轉變為二元特徵(binaryfeature)的連續的或分類的(categorical)特徵。「育種種群」通常是指在育種程序中用作親本的植物的集合。通常,在遺傳和表型兩個方面對育種種群中的個體植物進行表徵。術語「數據挖掘,,是指使用減少、建模、理解或分析數據的計算機算法從數據中鑑定或提取關係和模式。術語「決策樹」是指任何種類的基於樹的學習算法,包括但不限於模型樹、分類樹(classificationtree)禾口回歸樹。在機器學習的上下文中的術語「特徵」或「屬性(attribute)」是指一種或多種原始輸入變量、一種或多種經處理的變量、或其它變量(包括原始變量和經處理的變量)的一種或多種數學組合。特徵可以是連續的或離散的。特徵可以經由通過任何過濾器算法或任何統計方法進行的處理以產生。特徵可以包括但不限於DNA標誌物數據、單元型數據、表型數據、生化數據、微陣列數據、環境數據、蛋白質組學數據以及代謝數據。本發明上下文中的術語「特徵評估」是指對特徵進行評級或進行評級然後基於它們對於目標特徵的影響選擇特徵。短語「特徵子集」是指一種或多種特徵的組。「基因型」是指細胞或單個植物或生物關於一個或多個分子遺傳標誌物或等位基因的遺傳組成(geneticmakeup)。「單元型」是指個體遺傳自一個親本的等位基因的組。術語單元型還可以指物理連鎖的和/或不連鎖的與目標特徵關聯的分子遺傳標誌物(例如多態性序列)。單元型還可以指在染色體上物理連鎖的兩個或更多個分子遺傳標誌物的組。在機器學習的上下文中術語「實例」是指來自數據集的例子。本發明上下文中的術語「相互作用」是指通過一個特徵對另一個特徵的依賴性產生的特徵和目標特徵之間的關聯。在機器學習的上下文中術語「學習」是指鑑定和訓練用於完成感興趣的任務的適合的算法。術語「學習」包括但不限於關聯學習(associationlearning)、分類學習(classificationlearning)、聚類(clustering)以及數值預測(numericprediction)。術語「機器學習」涉及研究電腦程式的設計的計算機科學領域,所述電腦程式可以用於根據過去的經驗歸納出模式、規律或規則以對於未來數據產生合適的響應,或以有意義的方式描述該數據。在本發明的上下文中,「機器學習」算法意指關聯規則算法(例如,Apriori、判別模式挖掘、頻繁模式挖掘(frequentpatternmining)、閉合模式挖掘(closedpatternmining)、巨模式挖掘以及自組織映射)、特徵評估算法(例如,信息增益、Relief、ReliefF,RReliefF、對稱不確定性、增益率和評級器)、子集選擇算法(例如,包裝器、一致性(consistency)、分類器(classifier)、基於關聯性的特徵(CFS))、支持向量機、貝葉斯網絡、分類規則、決策樹、神經網絡、基於實例的算法、使用在本文中列出的算法的其它算法(例如,投票、疊加、代價敏感分類器)以及任何其它算法,所述其它算法是在計算機科學領域涉及根據過去的經驗歸納出模式、規律或規則以產生對於未來數據的合適的響應,或以有意義的方式描述該數據的算法。術語「模型開發」是指建立一個或多個用於數據挖掘的模型的過程。術語「分子遺傳標誌物」是指下述中的任一簡單序列重複(SSR)、切割擴增多態性序列(CAPS)、簡單序列長度多態性(SSLP)、限制性片段長度多態性(RFLP)、隨機擴增多態性DNA(RAPD)標誌物、單核苷酸多態性(SNP)、任意片段長度多態性(AFLP)、插入、缺失、來源於DNA、RNA、蛋白質或代謝產物的任何其它類型的分子遺傳標記物和它們的組合。分子遺傳標誌物還指用作探針的多核苷酸序列。術語「表型性狀」或「表型」是指生物的可觀察到的物理的或生化的特徵,其由遺傳組成和環境影響兩者來決定。表型是指特定基因型的可觀察到的表達。術語「植物」包括高等和低等植物類別,包括被子植物(單子葉和雙子葉植物)、裸子植物、蕨類植物以及多細胞藻類。其包括不同倍體水平的植物,包括非整倍體、多倍體、二倍體、單倍體以及半合子植物。術語「基於植物的分子遺傳標誌物」是指下述任一簡單序列重複(SSR)、切割擴增多態性序列(CAPS)、簡單序列長度多態性(SSLP)、限制性片段長度多態性(RFLP)、隨機擴增多態性DNA(RAPD)標誌物、單核苷酸多態性(SNP)、任意片段長度多態性(AFLP)、插入、缺失、來源於植物DNA、RNA、蛋白質或代謝產物的任何其它類型的分子遺傳標記物和它們的組合。分子遺傳標誌物還指用作探針的多核苷酸序列。本發明上下文中的術語「現有知識」是指可以用於修改機器學習算法性能的任何形式的信息。表明個體之間的相互關係(relatedness)的程度的關係矩陣(relationshipmatrix)是現有知識的例子。「定性性狀」通常是指如下特徵,該特徵由一個或少數幾個基因調控並且在性質上是離散的。定性性狀的例子包括花的顏色、穗軸顏色和疾病抗性。「數量性狀」通常是指可以被量化的特徵。數量性狀通常在種群的個體之間展現連續變化。數量性狀通常是遺傳基因座與環境相互作用的結果或是多個遺傳基因座彼此之間和/或與環境相互作用的結果。數量性狀的例子包括穀物產率、蛋白質含量以及紗線強度。與特徵相關的術語「評級(ranking)」是指對特徵進行順序排列,例如分子遺傳標誌物可以通過它們與性狀相關的預測能力來進行評級。術語「自組織映射」是指通常用於高維數據(high-dimensionaldata)的可視化以及分析的無監督的(unsupervised)學習技術。在機器學習的上下文中的術語「監督的」是指在監督下操作的方法,其通過提供針對每個訓練實例的實際結果來實現。在機器學習的上下文中的術語「支持向量機」包括但不限於用於分類目的的支持向量分類器(supportvectorclassifier),以及用於數字預測的支持向量回歸機(supportvectorregression)。可以執行其它算法(例如,序列最小優化方法(SMO))來訓練支持向量機。本發明上下文中的術語「目標特徵」是指但不限於有興趣進行預測或解釋的特徵,或者有興趣使用該特徵來開發關聯的特徵。數據挖掘成果可以包括一個目標特徵或多於一個目標特徵,以及術語「目標特徵」可以指一個或多於一個特徵。「目標特徵」可以包括但不限於DNA標誌物數據、表型數據、生化數據、微陣列數據、環境數據、蛋白質組學數據以及代謝數據。在機器學習領域,當「目標特徵」是離散的,通常將其稱為「類(class)」。穀物產率是目標特徵的例子。在機器學習的上下文中術語「無監督的」是指在沒有監督下運行的方法,其通過不提供針對每個訓練實例的實際結果來實現。一些相關方法的理論概述和實用方面關聯規則挖掘關聯規則挖掘(ARM)是用於提取特徵之間有意義的關聯模式的技術。適合於學習關聯規則的機器學習算法之一是APriori算法。ARM算法通常的第一步是在所有的觀察結果中找出最為頻繁的事項或特徵的集合。它們也被稱為頻繁項目集(frequentitemset)。它們的頻率也稱作支持(support)(用戶可以確定最小支持閾值(minimumsupportthreshold)用於將一個項目集認作是頻繁的)。一旦獲得了頻繁項目集,就從它們提取規則(例如利用用戶指定的最小信心度評估(minimumconfidencemeasure))。後一部分與前部分不一樣,不是計算密集型的。因此,ARM算法的目標集中在發現頻繁項目集。頻繁項目集不一定是數據集的核心(最為相關的)信息模式,因為通常在模式中存在大量冗餘。結果,很多應用倚靠於獲得頻繁閉合模式(frequentclosedpattern)0頻繁閉合模式是如下模式該模式滿足用戶指定的最小支持要求(minimalsupportrequirement)並且不具有和其直接的超集(immediatesuperset)相同的支持。如果至少一個直接的超集具有與其相同的支持計數(supportcount),則頻繁模式不是閉合的。找到頻繁閉合模式可以實現找到在特徵之間的相關相互作用的子集。Apriori算法通過合併具有n_l個特徵的頻繁項目集以形成具有η個特徵的頻繁項目集進行迭代運算。該過程隨著特徵數量的增加執行時間成指數增長。因此,針對具有大量特徵的數據集,利用Apriori算法提取頻繁項目集變成了計算密集型的。可以通過一些現有的算法來解決發現頻繁閉合項目集的規模可變性問題。CARPENTER,深度優先的行枚舉算法(d印th-firstrowenumerationalgorithm)能夠從具有大量特徵的大型生物數據集中發現頻繁閉合模式。隨著樣品數量的增加,CARPENTER不能很好的放大。其它頻繁模式挖掘算法是CHARM、CLOSET。兩者均對於深度優先的列枚舉算法(depth-firstcolumnenumerationalgorithm)是有效的。COBBLER是列和行的枚舉算法,其隨著特徵和樣品數量的增加可以很好的放大。出於多個不同的目的,發現判別頻繁模式(discriminativefrequentpattern)甚至比發現頻繁閉合關聯模式更為有用的。幾種算法從數據集中僅會有效地挖掘判別模式。大多數現有算法執行用於發現判別模式的兩步方法(twosetapproach)(a)發現頻繁模式(b)從該頻繁模式中獲得判別模式。步驟(a)是非常耗時的過程並且會得到大量冗餘的頻繁模式。DDPMine(直接判別模式挖掘)、判別模式挖掘算法不是按照上述的兩步方法。代替得出頻繁模式,其產生了描述數據的收縮FP-樹。該過程不僅減少了問題的大小,而且還加速了挖掘過程。其使用信息增益作為量度以挖掘判別模式。其它的判別模式挖掘算法為HARM0NY、RCBT和PatClass。HARMONY是實例中心基於規則的分類器(instance-centricrule-basedclassifier)。其直接挖掘分類規則的最終集合。RCBT分類器如下工作通過首先對於每一列確定top-k覆蓋規則組(top-kcoveringrulegroup)並且使用它們用於分類框架。PatClass利用兩步過程通過首先挖掘頻繁項目集,然後進行特徵選擇步驟。大多數現有的關聯規則挖掘算法返回小型頻繁(smallsizedfrequent)或閉合模式。隨著特徵數量的增加,大型(largesized)頻繁或閉合模式的數量也增加。對於具有大量特徵的數據集,得出所有長度的所有頻繁模式在計算方面過於昂貴,甚至是不可能的。模式融合算法試圖通過跳過模式搜索間隔(takeleapsinthepatternsearchspace)將小頻繁模式合併成巨模式來解決上述問題。自組織映射自組織映射(SOM)也稱為Kohonen網絡保留圖(Kohonennetworkpreservingmap),是無監管的學習技術,其通常用於高維數據的可視化和分析。典型的應用集中於可視化圖中數據內的中心依賴性(centrald印endencies)。其已經被應用的一些領域包括自動語音識別、臨床聲音分析(clinicalvoiceanalysis)、衛星圖像的分類、來自腦的電信號的分析和從大量文件集中的組織(organization)和檢索(retrieval)。通過SOM產生的圖已經被用來通過使用SOM集群(S0Mcluster)(在SOM訓練過程中確定的視覺的集群)加速通過例如Apriori方法進行的關聯規則的鑑定。SOM圖包括處理單元,S卩「神經元」的網格(grid)。每個神經元與特徵向量(觀察結果(observation))相關聯。該圖試圖使用有限的模型集合以最佳精度來表現所有的可用觀察結果(availableobservation)。在同一時間,在網格上模型變得有序,從而使得相似的模型彼此靠近,而不相似的模型彼此遠離。該過程可以實現數據中特徵之間的依賴性或關聯的鑑定以及可視化。在SOM的訓練階段中,使用競爭學習算法來將模型向量擬合至神經元的網格。其是一個連續回歸過程(sequentialregressionprocess),其中t=1,2,...是步驟指數對於每個樣品x(t),首先通過下述條件來確定獲勝者指數c(最佳匹配神經元(bestmatchingneuron))V,,Ilx(t)—mc(OIl<Ilx(t)—mit)||然後,將屬於以節點c=C(X)為中心圍繞的節點的所有模型向量或它們的子集如下更新Iiii(t+1)=Hii(t)+hc(x)ji(χ(t)-Iiii(t))其中mc是第c(即獲勝者)節點的平均權重向量。Hii是第i節點的平均權重向量。hc(x)ji是「鄰域函數(neighborhoodfunction)」,是圖的網格上第i和第c節點之間距離的遞減函數。Hii(t+Ι)是第t步之後經更新的權重向量。該回歸通常在可用的觀察結果上重複迭代(reiterate)。SOM算法已經被頻繁用於探索實體(entity)之間的空間和時間的相互關係。觀察結果之間的相互關係和關聯是基於這些觀察結果在圖上的空間聚集得出的。如果神經元表示不同的時間狀態,則該圖顯示出觀察結果之間的時間模式。特徵評估特徵評估算法的一個主要目的在於理解產生數據的基本過程(underlyingprocess)0這些方法還經常用於減少「迷惑性」特徵數,以實現提高分類算法的性能的目的(參見Guyon禾口Elisseeff(2003)·AnIntroductiontoVariableandFeatureSelection.JournalofMachinelearningResearch3,1157-1182)。術語「變量」有時用於代替較寬的術語「特徵」或「屬性」。特徵(或屬性)選擇是指通過方法(例如核方法(kernelmethod))處理的變量的選擇,但是有時用來指原始輸入變量的選擇。這些特徵評估算法的期望的輸出通常是基於它們對於目標特徵的影響而對特徵進行的評級或者進行評級繼之以特徵的選擇。可以通過不同方式來測量這樣的影響。信息增益是適合於特徵評估的機器學習方法之一。信息增益的定義需要信息熵(entropy)的定義,其是訓練實例的集合中雜質(impurity)的量度。通過知道特定特徵的值實現目標特徵的信息熵的減少稱作信息增益。信息增益可以用作確定特徵在解釋目標特徵中的效力的參數。本文描述的基於關聯性的特徵選擇(CFS)算法利用對稱不確定性,其通過將特徵標準化至範圍來補償信息增益針對具有多個值的特徵的偏向(bias)。對稱不確定性始終在01之間。其是用於測量兩個表觀特徵(nominalfeature)之間的相關性的一種方法。評級算法也可以用於在每一次(eachfold)交叉驗證時通過它們的單獨評估來對特徵評級,並且輸出平均價值(averagemerit)以及對每個特徵的評級。Relief是屬性評估算法(attributeevaluatoralgorithm)的一類,其可以用於本文所公開的特徵評估步驟。該類含有能夠用於處理分類的或連續的目標特徵的算法。這樣寬的範圍使得它們可以用於數種數據挖掘用途。原始的Relief算法具有數種版本和擴展。例如,ReliefF是原始Relief算法的擴展,其不限於兩類問題且可以處理不完整的數據集。ReliefF還比Relief更魯棒,並且能夠處理噪音數據,。通常,在Relief和ReliefF中,評估的特徵重要性是通過對於每一個實例分配給該特徵的分數的總和來確定的。每個分數取決於在確定實例的類別中有多重要。如果特徵在確定類別中是決定性的,特徵得到最大值。當將大量不提供信息的特徵加入到分析中時,對於這些算法需要大量實例以收斂到(convergeto)每個特徵價值(worth)的正確評估。當處理幾個鄰近的未命中(neighboringmiss)時,重要的特徵是那些它們的值的最小變化會導致所評估的實例的類別中的變化的特徵。在ReliefF中,當實例的數量巨大時,接近的命中(nearhits)發揮最小的作用而接近的未命中(nearmiss)發揮巨大的作用,但是對於實際大小的問題,接近的命中發揮稍大的作用。RReliefF是ReliefF的擴展,其處理連續目標特徵。正更新(positiveupdate)形成了特徵將具有不同類別值(classvalue)的實例加以區別的可能性(probability)。另一方面,負更新(negativeupdate)形成了特徵將具有相同類別值的實例加以區別的可能性。在回歸問題中,通常難以推斷兩個實例是否屬於同一類或者不屬於同一類,因此該算法引入了概率值(probabilityvalue),該值預測兩個實例的值是否不同。因此,RReliefF算法對沒有分開相似預測值的特徵進行獎勵,而對沒有分開不同預測值的特徵進行懲罰。RReliefF與Relief和ReliefF不同,其不使用符號,因此不使用命中(hit)和未命中(miss)的概念。RReliefF認為好的特徵是如下特徵該特徵分開具有不同預測值的實例,並且不區分具有接近預測值的實例。通過來自Relief算法類的算法產生的評估依賴於所使用的相鄰元素(neighbor)的數量。如果不使用對相鄰元素數量的限制,則每個特徵將會受到數據集中的所有樣品的影響。對於所使用的樣品數量的限制通過Relief算法提供評估,該評估是在實例空間(instancespace)的較小部分中的局部評估的平均值。這些局部預測使得Relief算法當更新每個特徵的權重時能夠考慮其它特徵,同時近鄰(nearest-neighbor)通過考慮所有特徵的距離量度來確定。因此,Relief算法對於包括在數據集中的特徵的數量和有效性敏感。其他特徵通過其對於正在更新的特徵的條件依賴性(conditionaldependency)考慮到預測的值來考慮,該預測值可以在局部的上下文中(inthecontextoflocality)探測。實例之間的距離通過「相關的」和「無關的」特徵的值的差異的總和來確定。作為其它k_近鄰算法,這些算法對無關特徵不具魯棒性。因此,在存在大量不相關特徵時,建議使用大k值(即,增加近鄰的數量)。這樣操作,可以為相關特徵提供更好的條件以對每個特徵「施加」「正確的」更新。但是,已經知道當在權重公式(weightformula)中所使用的近鄰的數量過大時,Relief算法可能會失去功能,經常混淆提供信息的特徵。當考慮所有樣品時尤為如此,因為在命中和未命中之間僅會存在較小的對稱性,當僅考慮少量近鄰時,該對稱性則更加顯著。Relief算法的能力來自於利用局部上下文而提供全局觀察的能力。在計算實例之間的歐氏距離(Euclidiandistance)或曼哈頓距離(Manhattandistance)以確定近鄰時,與表觀特徵相比,RReliefF算法可能會趨於低估重要的數字特徵。RReliefF還高估隨機(非重要)數字特徵,潛在地降低兩組特徵的可分離性(s印arability)。可以使用斜坡函數(rampfunction)(參見Hong(1994)Useofcontextualinformationforfeaturerankinganddiscretization.TechnicalReportRC19664,IBM;以及Hong(1997)IEEEtransactionsonknowledgeanddataengineering,9(5)718-730)以克服RReliefF的上述問題。當對應當分配給給定的特徵集合中每個特徵的權重進行評估時,與較遠的實例相比強調較近的實例是標準的實踐。然而,使用過小數量具有噪音和複雜目標特徵的相鄰元素通常是較為危險的,因為這可能會導致魯棒性的損失。使用較大數量的近鄰避免了減少一些特徵的重要性,就這些特徵而言前10的(例如)近鄰是暫時相似的。隨著相鄰元素數量的減少,這樣的特徵喪失重要性。如果將所有相鄰元素的影響按相同處理(忽視它們與查詢點(querypoint)的距離),則建議的近鄰的數量值通常為10。如果考慮距離,則建議值通常為具有指數遞減影響的70個近鄰。ReliefF和RReliefF是上下文敏感的(contextsensitive),因此在分析中其對隨機(非重要)特徵的數量比近視測量(myopicmeasure)(例如增益率和MSE)更為敏感。Relief算法在其它特徵的上下文中評估每個特徵並且較好的特徵得到更高的分數。當在數據集中有數以百計的重要特徵時,Relief算法傾向於低估不太重要的特徵,但是重複的或高度冗餘的特徵會共享分數(credit)並且看起來比它們實際上更為重要。能夠出現這樣的情況是因為特徵的額外複本會改變在其中搜索近鄰的問題空間。使用近鄰,僅當兩個鄰近實例的特徵值之間存在差異時才會發生更新。因此,如果兩個近鄰之間的差異為零,在近鄰的給定集合上對於給定的特徵不會出現更新。高度冗餘的特徵的這些差異會總是等於零,其減少了在整個鄰近實例和特徵中更新的機會。近視評估器(myopicestimator)例如增益率和MSE對於重複的特徵不敏感。但是,如果在特徵之間存在相互作用,則Relief算法會表現得優於近視算法(myopicalgorithm)。子集選擇子集選擇算法倚靠評估方法(例如對稱不確定性和信息增益)以及搜索方法(例如評級器、窮舉搜索、最好優先以及貪婪爬山(greedyhill-climbing))的結合。子集選擇算法類似於特徵評估算法,對特徵的子集進行評級。但是,與特徵評估算法相對,子集選擇算法的目標在於選擇對於目標特徵具有最大影響的特徵的子集,同時說明子集中包括的特徵之間的冗餘程度。設計子集選擇算法使得其對於多重共線性和缺失值具有魯棒性,從而可以實現從成百或甚至成千的特徵的初始池中進行選擇。特徵子集選擇的優點包括促進數據的可視化和理解,減少測量和存儲需求,減少訓練和使用時間,並且去除迷惑性特徵以改善分類。例如,來自子集選擇方法的結果對於植物和動物遺傳學者是有用的,因為這些結果可以用來預選擇分子遺傳標誌物,該分子遺傳標誌物將在以表型性狀作為目標特徵的標誌物輔助選擇程序中得到分析。這可以顯著地減少必須被檢測的分子遺傳標誌物的數量,從而可以減少該項工作所伴隨的成本。子集選擇算法可以適用於寬範圍的數據集。在選擇適合的搜索算法時一個重要的考慮在於數據集中特徵的數量。隨著特徵數量的增加,特徵可能的子集數量將成指數增加。出於這個原因,窮舉搜索算法僅適合用於當特徵的數量相對較少時。但是,具有足夠的計算能力時,可以使用窮舉搜索以確定特徵的最相關子集。存在數種算法適合用於具有對於窮舉搜索而言過大(或可用計算能力不足夠大)的特徵集合的數據集。子集選擇算法的兩個基本方法是向工作子集(workingsubset)中增加特徵的過程(前向選擇(forwardselection))和從現有的特徵子集中刪除特徵(後向消除(backwardelimination)).在機器學習中,進行前向選擇不同於具有相同名稱的統計方法。在此,使用交叉驗證通過評估增加了一個新特徵的當前子集的性能,來發現待加入到當前子集中的特徵。在前向選擇中,通過向當前子集中按順序加入每個剩餘特徵來構建子集,並同時利用交叉驗證來評估每個新子集的預期性能。保留在加入到當前子集中時產生了最佳性能的特徵並且繼續該過程。當剩餘可用的特徵無一改善當前子集的預測能力時,搜索結束。該過程找出特徵的局部(即不需要是全局)最優集合。後向消除通過相似的方式實現。在後向消除中,當在特徵集合中的進一步減少不會改善子集的預測能力時,搜索結束。為了針對較小的子集引入偏向(bias),需要對於待增加(在前向選擇過程中)或刪除的特徵(在後向消除過程中)改善一定量的預測能力。在一方面,通過應用利用回溯機構(backtrackingfacility)擴充的貪婪爬山,最好優先算法可以向前、向後或在兩個方向搜索(通過考慮在給定的點處所有可能的單特徵的加入和刪除)(參見Pearl,J.(1984),HeuristicsJntelligentSearchStrategiesforComputerProblemSolving.Addison-ffesley,p.48;andRussell,S.J.,&Norvig,P.ArtificialIntelligence:AModemApproach.2ndedition.PearsonEducation,Inc.,2003,pp.94and95)。該方法保存具有所有之前訪問的子集的列表,並且一旦對於特定子集,預測能力不再改善時重新訪問這些子集。如果時間允許並且沒有施加終止判據(stopcriterion),則該方法將會搜索整個空間(即窮舉搜索),當與前向選擇和後向消除相比時,更加難以找到局部最大值。最好優先的結果,如所期待的,與窮舉搜索獲得的結果非常相似。在一方面,束搜索方法(beamsearchmethod)的運轉類似於最好優先,但是在每一個階段會截短特徵子集的列表,因而將其限制到一個被稱為束寬(beamwidth)的固定數量上。在一方面,遺傳算法是使用候選子集當前列表的隨機擾動以產生新的好的子集的搜索方法(參見Schmitt,LotharM(2001),TheoryofGeneticAlgorithms,TheoreticalComputerScience(259),pp.1-61)。它們是適應性的並且是使用基於生物學中的自然選擇原理的搜索技術。建立競爭解決方案(Competingsolution)並隨著搜索解決方案空間的時間而平行進化(其有助於避免局部最大)。將交叉(crossover)和突變施加到當前一代的成員以產生下一代。從子集中隨機增加或刪除特徵與自然系統中的突變的作用在概念上是類似的。相似地,交叉合併了來自一對子集的特徵以形成新的子集。適合度(fitness)的概念引入起作用,這是因為在給定的世代,最適合(最佳)子集具有更大的可能被選擇以通過交叉和突變形成新的子集。因此,好的子集隨時間而進化。在一方面,方案特效(Scheme-Specific)(包裝器(wrapper))(Kohavi和John(1997),Wrappersforfeatureselection.ArtificialIntelligence,97(1-2)273-324,December1997.)是適合的搜索方法。此處的思路是選擇特徵的子集,當其用於構建具有特定算法的模型時該子集會具有最佳的分類性能。通過交叉驗證、保留集合(holdoutset)或Bootstrap評估器(bootstrapestimator)來評估精度。對於每個受到評估的特徵子集必須完成模型和一組交叉驗證輪次(asetofcross-validationfolds)。例如,具有k個特徵和10次交叉驗證的前向選擇或者後向消除會進行約k2乘以10次學習步驟。窮舉搜索算法將會使事物以2k乘以10次學習步驟的階次進行。對於方案特效搜索顯示了好的結果,其中後向消除與前向選擇相比得到了更為精確的模型,以及還有更大的子集。更複雜的技術不總是合理的,但是在一些情況下可以得到好得多的結果。統計顯著性檢測可以用來確定終止搜索的時間,其基於受到評估的子集會導致對當前最佳子集的改善的機率。在一方面,Race搜索是合適的,該搜索使用t_檢測至少通過一種用戶指定的小閾值(user-specifiedthreshold)來確定某個子集優於當前最佳子集的概率。如果在留一法交叉驗證(leave-one-outcross-validation)過程中,該概率變小,則可以放棄子集,因為不太可能出現如下情況即向該子集中添加或刪除特徵會導致對當前最佳子集的改善。在前向選擇中,例如,同時評估所有對子集的特徵添加,並且將不能很好表現的放棄。因此,不是所有的實例均用來評估所有的子集(在留一法交叉驗證中)。Race搜索算法還阻礙(block)所有幾乎相同的特徵子集並且使用貝葉斯統計以保持在對於每個競爭子集的平均留一法交叉驗證誤差的評估上的概率分布。使用前向選擇,但是代替持續地嘗試對於最佳子集的所有可能的改變,使這些改變進行競賽並且當交叉驗證結束或剩下單一子集時,結束競賽。在一方面,概要搜索(schematasearch)是為了競賽(racing)設計的更為複雜的方法,該方法運行一系列重複的競賽(aniterativeseriesofraces),每個競賽確定是否應該包括某個特徵(參見Moore,Α.W.,和Lee,Μ.S.(1994).Efficientalgorithmsforminimizingcross-validationerror.InCohen,W.W.,andHirsh,H.,eds.,MachinelearningProceedingsoftheEleventhInternationalConference.MorganKaufmarm)。搜索開始於將所有特徵標註為未知,而非特徵的空集或全集。以相等的概率使用未知特徵的所有組合。在每一輪,選擇特徵並且使具有以及不具有所選擇的特徵的子集進行競賽。在評估中的每一個點上,隨機地包括或排除其它構成子集的特徵。使用競賽的獲勝者作為下一輪競賽的起始點。考慮概率性框架,好的特徵將會包括在最終的子集中,即使其依賴於另外的特徵。在加速搜索過程的同時,概要搜索考慮相互作用的特徵,且已經顯示比Race搜索(其使用前向或後向選擇)更為高效且快速得多。在一方面,例如,評級競賽搜索(rankracesearch)基於它們的信息增益來為特徵排序,並且隨後使用基於特徵的評級的子集來進行競賽。在沒有特徵的條件下開始競賽,通過評級最高的特徵、最高的兩個特徵、最高的三個特徵等等來繼續競賽。可以使用交叉驗證來確定對於具體數據集的最佳搜索方法。在一方面,選擇性樸素貝葉斯使用例如前向選擇的搜索算法以避免包括冗餘特徵以及彼此依賴的特徵(參見例如,Domingos,Pedro和MichaelPazzani(1997)〃OntheoptimalityofthesimpleBayesianclassifierunderzero-oneloss".Machinelearning,29:103_137)。通過簡單地使用訓練集合來測試子集的性能以找到最佳子集。過濾器方法獨立於任何學習算法運行,而包裝器方法(wrappermethod)倚靠於具體的學習算法並且利用例如交叉驗證的方法來評估特徵子集的精度。包裝器通常比過濾器表現更好,但是慢得多,並且只要是使用了不同的學習算法或者甚至是當使用了一組不同的參數時,均必須重新運行。包裝器方法的性能依賴於使用的是哪一種學習算法,用於評估學習算法的無樣品(off-sample)精度的程序,以及搜索的組織。對於子集的選擇,過濾器(例如,CFS算法)比包裝器快很多(由於上述指出的原因),所以,過濾器可以用於更大的數據集。過濾器還可以通過為包裝算法提供起始特徵子集來提高特定算法的精度。由此,該過程加速了包裝器分析(wrapperanalysis)0CFS算法的原始版本僅測量離散特徵之間的相互關係,所以該方法首先會使所有連續特徵離散。較新的版本處理連續的特徵而不需要離散化。CFS考慮到目標特徵假設各特徵是獨立的。如果存在強的特徵依賴性,CFS的性能可能受到影響並且可能無法選擇所有的相關特徵。CFS對於消除冗餘和不相關的特徵是有效的,並且在特徵之間不存在強依賴性時CFS會檢測所有的相關特徵。CFS會接受如下特徵,所述特徵能夠在尚未通過其它特徵預測的實例空間區域中預測響應變量(responsevariable)0存在CFS的變型(variation),其能夠改善局部預測特徵的探測,在強的全局預測特徵遮蔽(overshadow)局部預測特徵的情況下是非常重要的。已經證明,在很多時候CFS優於包裝器(Hall,Μ·Α.1999.Correlation-basedfeatureselectionforMachineLearning.Ph.D.thesis.DepartmentofComputerScience-TheUniversityofWaikato,NewZealand.),特別是對小數據集,以及在存在小的特徵依賴性的情況下。在CFS算法的情況下,評估函數的分子表明子集具有多大的目標特徵的預測性,而分母表明子集中的特徵有多少冗餘。在原始的CFS算法中,首先利用Fayyad和Irani方法(Fayyad,U.M.禾口Irani,K.B..1993.Multi-intervaldiscretisationofcontinuous-valuedattributesforclassificationlearning.InProceedingsoftheThirteenthInternationalJoinConferenceonArtificialIntelligence.MorganKaufmann,1993.)使目標特徵離散。然後,該算法計算所有的特徵-目標特徵的相互關係(其將會用在評估函數的分子中)以及所有的特徵_特徵相互關係(其將會用在評估函數的分母中)。然後,算法搜索特徵子集空間(利用任何用戶-確定的搜索方法)尋找最佳子集。在CFS算法的變形中,使用對稱不確定性來計算相互關係。CFS的最大假設在於考慮到目標特徵,各特徵是獨立的(即,不存在相互關係)。因此,如果存在強相互作用,CFS可能無法探測相關特徵。期望CFS在適當(moderate)水平的相互作用條件下可以表現良好。CFS趨於處罰噪音特徵。CFS對於小的特徵子集是具有嚴重偏向,在一些情況下會導致精度降低。CFS不高度依賴於所使用的搜索方法。可以設置CFS使其放置更多的值在局部預測特徵上,即使這些特徵沒有顯示優異的全局預測能力。如果沒有設置來解釋局部預測特徵,CFS對於小子集的偏向可能會排除這些特徵。在小數據集方面CFS可能會優於包裝器,這也是因為其不需要那樣儲存部分數據集用來檢測。當存在相互作用時,包裝器表現優於CFS。具有前向選擇的包裝器可以用於探測成對的相互作用,但是需要後向消除來探測較高水平的相互作用。但是,後向搜索(backwardsearch)使包裝器甚至更為緩慢。雙方向搜索可以用於包裝器,以通過CFS算法選擇的子集開始。該種巧妙的方法可以顯著地減少利用包裝器完成搜索所需的時間的量。模型開發為了對大數據集建模,取決於數據的性質,可以使用數種算法。在一方面,例如,貝葉斯網絡方法對於推理提供有用的靈活的概率性方法(probabilisticapproach)0^h^7jM,Bayes(Bayesoptimalclassifieralgorithm)是針對新的記錄應用最大後驗假設(maximumaposteriorihypothesis)以預測其分類的概率(Friedman等人(1997),Bayesiannetworkclassifiers.Machinelearning,29:131-163)。該算法還考慮由每個通過訓練集合獲得的其它假設的概率(不僅是最大後驗假設)並且使用這些概率作為用於未來預測的權重因數(weightingfactor)。因此,利用所有通過它們的後驗概率(posteriorprobability)加權的假設(即所有可能的模型)來進行未來預測。在一方面,考慮到特徵的聯合概率(jointprobability),樸素貝葉斯分類器向記錄(record)分配最可能的分類。計算聯合概率需要大的數據集,並且是計算密集型的。樸素貝葉斯分類器是稱為貝葉斯網絡的更大算法類別的一部分。這些貝葉斯網絡中的一些可以放寬(relax)特徵之間關於獨立性的由樸素貝葉斯算法建立的強假設。貝葉斯網絡是對於每個節點具有條件概率分布(conditionalprobabilitydistribution)的有向無環2圖(directacyclicgraph(DAG))。其倚靠於以下假設考慮到目標特徵(樸素貝葉斯)或其親本,特徵是條件性獨立的,其可能需要包括目標特徵(貝葉斯擴展網絡(Bayesianaugmentednetwork))或不需要包括目標特徵(一般貝葉斯網絡)。將條件獨立性的假設限於特徵的子集,而這導致條件獨立性假設的集合,連同條件概率的集合。輸出反映對於某個特徵集合的聯合概率的描述。在一方面,不同的搜索算法可以在這些區域中的每一個中使用軟體包(package)TOKA來實現,並且可以通過簡單的評估器或通過貝葉斯模型平均(Bayesianmodelaveraging(BMA))來計算才既率表(probabilitytable)。關於搜索最佳網絡結構的方法,一種選擇是使用基於全局評分矩陣的算法(globalscoremetric-basedalgorithm)。這些算法倚靠於利用留一法、k次或累積交叉驗證(cumulativecross-validation)進行的交叉驗證。留一法方法隔離出一個記錄,訓練數據集的剩餘部分,並且評估該隔離的記錄(重複地,對於每個記錄)。k次方法(k-foldmethod)將數據分割成k個部分,隔離這些部分中的一個,訓練數據集的剩餘部分,並且評估該隔離出的記錄集合。累積交叉驗證算法以空的數據集開始,並且逐漸增加記錄,在每次添加的記錄之後更新網絡的狀態,並且根據網絡的當前狀態來評估待加入的下一個記錄。在一方面,通過這些過程之一找到的合適的網絡結構被認為是如下結構,該結構將數據最佳擬合,如通過全局或局部分數決定的。也可以將其認為是如下結構該結構最佳編碼特徵之間的條件獨立性;這些獨立性可以通過卡方檢驗或互信息檢驗(mutualinformationtest)來測量。特徵之間的條件獨立性可以用於構建網絡。當計算的複雜性較高時,可以通過特徵的子集來進行分類,該特徵的子集是通過任意子集選擇方法確定的。在構建網絡的可選擇的方法中,在發現依賴性時,可以將目標特徵用作任何其它節點(一般貝葉斯網絡),然後,通過其馬爾科夫毯(Markovblanket)使其與其它特徵隔離。馬爾科夫毯隔離節點使其不受其邊界外的任何節點的影響,包括節點的親本、其子代以及其子代的親本組成。當應用時,目標特徵的馬爾科夫毯通常足以進行分類而不會損失精度並且可以刪除所有的其它節點。該方法選擇應當用於分類的特徵(即,包括在馬爾科夫毯中的特徵),並且通過刪除所有在目標特徵的馬爾科夫毯之外的節點來降低數據過度擬合的風險。在一方面,基於實例的算法也適合用於模型開發。基於實例的算法也稱為「懶惰」算法,其特徵在於對於每個實例生成新的模型,而非將預測基於由訓練集合(一次(once))產生的樹或網絡。換言之,其不提供可以解釋目標特徵的通用函數(generalfunction)0這些算法在內存中儲存整個訓練集合併且由與那些被檢驗的記錄類似的記錄的集合構建模型。通過近鄰或局部加權方法(locallyweightedmethod),利用歐氏距離來評估相似性。一旦選擇了記錄的集合,就可以利用數種不同的算法例如樸素貝葉斯來構建最終模型。所得模型通常不會為了在應用於其他記錄時也表現良好而進行設計。由於清楚地儲存了訓練觀察結果,而不是以樹或網絡的形式,因此在訓練基於實例的算法時,信息從來不會被浪費。在一方面,基於實例的算法對於複雜的、多維的問題是有用的,對於這類問題樹和網絡的計算需求超過了可用的內存。該方法避免嘗試通過選擇特徵來減少複雜性以適合樹或網絡的需求的問題。但是,當對新的實例進行分類時,該過程可能表現不佳,因為所有的計算在分類時進行。在同時對一種或少數幾種實例進行分類的應用中這一點通常不是問題。通常,這些算法對於所有的特徵給予相似的重要性,而不是在那些更好解釋目標特徵的特徵上放置更多的權重。這可能導致選擇如下實例,這些實例實際上並非最接近就其與目標特徵的關係受到評估的實例。基於實例的算法對於數據收集中的噪音有魯棒性,這是因為實例獲得在它們的相鄰元素之間最常見的分配或這些相鄰元素(連續情況)的平均值,並且這些算法通常對於非常大的訓練集合表現良好。在一方面,支持向量機(SVM)用於建模數據集以供數據挖掘目的。支持向量機是統計學習理論(StatisticalLearningTheory)的派生物並且於1992年首次提出。SVM的重要方面在於一旦支持向量(supportvector)被確定,就可以從計算中除去剩餘的觀察結果,由此大大降低問題的計算複雜性。在一方面,決策樹學習算法是適合建模的機器學習方法。這些決策樹算法包括ID3,Assistant以及C4.5。這些算法的優勢在於在沒有很多限制的條件下搜索大型假設空間(hypothesisspace)。它們通常偏向於構建小樹,是一種在有些情況下理想的屬性。得到的樹通常可以由「若-則(if-then)」規則的集合來表示;這種不會見於其它算法類型例如基於實例的算法的屬性能夠改善人的可讀性(readability)。通過從頭到尾掃描樹以及評估樹上每個節點處的一些特徵來進行實例的分類。不同的決策樹學習算法在它們的能力和需求方面有所不同;一些僅對離散特徵有效。大部分決策樹算法還需要目標特徵是二元的,而其它可以處理連續的目標特徵。這些算法通常對於為每個特徵確定類別(編碼)中的錯誤(error)有魯棒性。另外的相關特徵是這些算法中的一些可以有效地處理缺失值。在一方面,迭代二叉樹3代(ID3)算法是適合的決策樹算法。該算法使用「信息增益」來決定哪個特徵自身最佳地解釋目標,且該算法將這個特徵放置在樹的頂部(即,在根節點(rootnode)上)。然後,通過下述方法為每一類根節點分配子孫(descendant)根據根節點的類別來分選訓練記錄並在這些類別中的每一種中找出具有最大信息增益的特徵。對於每個新增加的特徵重複該循環,等等。該算法可以不用「回溯(back-track)」以重新考慮其在先的決定,並且這可以導致收斂至局部最大值。存在ID3算法的幾種擴展,其進行對決策樹的「後剪枝(post-priming)」,這是回溯的一種形式。ID3算法進行「爬山搜索(hill-climbingsearch)」經過決策樹的空間,以簡單的假設開始並且通過更為精心的假設推進。因為其進行對假設空間的完整搜索,所以其避免了選擇不含目標特徵的假設空間的問題。ID3算法僅輸出一個樹,而不是輸出所有合理的樹(reasonabletree)0利用ID3算法可以出現歸納偏向(inductivebias),這是因為其是自頂向下(top-down)、廣度優先(breadth-first)算法。換言之,其在特定的深度考慮所有可能的樹,選擇最佳的一個,然後將其移動到下一個深度。相比於高的樹,其優選矮的樹,並且通過在特定的深度選擇最矮的樹,該算法將具有最高信息增益的特徵放置到最靠近根部。在決策樹的一個方面,ID3算法的變形是邏輯模型樹(logisticmodeltree(LMT))(Landwehr等人(2003),LogisticModelTrees.Proceedingsofthe14thEuropeanConferenceonmachinelearning.Cavtat-Dubrovnik,Croatia.Springer-Verlag.)。該分類器在葉子(leaves)部位實現邏輯回歸函數(logisticregressionfunction)0該算法處理離散目標特徵,並且可以處理缺失值。C4.5是基於ID3算法的決策樹生成算法(Quinlan(1993)C4.5=Programsformachinelearning.MorganKaufmannPublishers)。一些改進包括,例如,選擇合適的特徵評估量度(evaluationmeasure);利用缺失特徵值(missingfeaturevalue)來處理訓練數據;處理具有不同成本的特徵;以及處理連續特徵。用於評價二元分類器(binaryclassifier)性能的有用的工具是受試者操作特徵(ROC)曲線。ROC曲線是二元分類器系統隨著其判別閾值(discriminationthreshold)變化的敏感度對(I-特異度(1-specificity))的點線圖(T.Fawcett(2OO3)·ROCgraphsNotesandpracticalconsiderationsfordataminingresearchers.TechreportHPL-2003-4.HPLaboratories,PaloAlto,CA,USA)由此,受試者操作特徵(ROC)曲線通過對於不同的閾值繪製『敏感度』對『1-特異度』來構建。這些閾值確定記錄是被分類為正或負,並且影響敏感度和『1-特異度』。作為例子,考慮如下分析其中評估一系列植物品種對病原體的應答,並且期望設立閾值,在該閾值之上的變體被認為是易感的。在數種這樣的閾值之上來構建ROC曲線,其幫助針對給定問題確定最佳閾值(其在真陽性率和假陽性率之間提供最佳的平衡)。較低的閾值導致較高的假陽性率,這是因為假陽性和真陰性(一些陰性記錄將會被指定為陽性)比例增加。ROC曲線下的面積是分類器整體性能的量度,但是最佳分類器的選擇可以基於該曲線的特定部分。交叉驗證技術是如下方法通過該方法選擇特定的算法或特定的算法集合以為給定數據集的提供最優的性能。在本文中使用交叉驗證技術是例如用來在模型開發過程中選擇特定的機器學習算法。當數種算法可以用來執行時,通常感興趣的是選擇預期在將來具有最佳性能的算法。交叉驗證通常是為這項任務選擇的方法。交叉驗證基於訓練數據(trainingdata)的第一分離部分(firstseparatingpart),然後利用剩餘的數據進行訓練,並且最終評估該算法對被分離的數據集的性能。與剩餘評估(residualevaluation)相比,優選交叉驗證技術,因為剩餘評估在算法應用至新的數據集時會如何表現這方面是不提供信息的。在一方面,交叉驗證的一個變形,即預留方法(holdoutmethod),是基於將數據分成兩部分,訓練第一子集,並且檢測第二子集。與殘餘方法相比,其花費相同量的時間用來計算,並且當數據集足夠大時其是優選的。取決於如何將數據集分成子集,該方法的性能可能會變化。在交叉驗證方面,k次交叉驗證方法是在預留方法之上的改進。將數據集分成k個子集,並且將預留方法重複k次。然後計算k次試驗(trial)中的平均誤差。每個記錄會有一次是測試集合的一部分,且會有k-Ι次是訓練集合的一部分。該方法對於將數據集分開的方式不太敏感,但是計算的成本是使用預留方法的k倍高。在交叉驗證的另外的方面,留一法交叉驗證方法類似與k次交叉驗證。利用N-I個記錄(其中N是記錄的總數)進行訓練,並且一次僅利用一個記錄進行測試。局部加權學習者(locallyweightedlearner)減少這些算法的運行時間以使其水平與殘餘評估的相似。在交叉驗證方面,隨機樣品技術(randomsampletechnique)是用於測試的另一選擇,其中使用來自數據集的合理大小的樣品(例如,多於30個)來進行測試,利用數據集的剩餘部分進行訓練。使用隨機樣品進行測試的優點在於取樣可以重複任意多次,這可能會導致預測的置信區間(confidenceinterval)減小。但是,交叉驗證技術具有如下優點測試集合中的記錄在多個測試集合之間是彼此獨立的。本文中描述的關聯規則算法中的一些可以用來探測數據集中的特徵之間的相互作用,並且還可以用來進行模型開發。M5P算法是適合用於連續和離散目標特徵的模型樹算法。其利用回歸函數來代替終端類代表值(terminalclassvalue)建立決策樹。連續特徵可以直接得到處理,而不用轉化為離散特徵。其使用條件類概率函數(conditionalclassprobabilityfunction)處理離散類別。其模型樹生成最近似概率值(greatestapproximateprobabilityvalue)的類別被選擇作為預測類別。M5P算法表現未知函數的任何分段線性近似值(piecewiselinearapproximation)。M5P檢查所有可能的測試並且選擇使期望的誤差降低最多的測試。然後M5P通過利用線性回歸模型來代替子樹(sub-tree)來對該樹進行剪枝,條件是線性回歸模型具有較低的評估誤差。評估誤差是在節點上所有實例的預測值和實際值的平均絕對差異(averageabsolutedifference)。在剪枝(priming)過程中,對於未見過的情況的誤差的低估通過(n+V)/(n-V)得到補償,其中η是到達該節點的實例的數量,而ν是對於該節點的線性模型中參數的數量(參見Witten和Frank,2005)。在每個回歸中涉及的特徵是在該節點以下的子樹中所測試的特徵(參見Wang和Witten,1997)。然後使用平滑過程(smoothingprocess)以避免當預測連續類代表值時在葉子處的近鄰線性模型之間的陡峭中斷(ste印discontinuity).在平滑過程中,首先進行利用葉模型(leafmodel)的預測並且通過將其與來自在回溯到根部的路徑中的每個中間節點處的線性模型的預測值結合來使其平滑。在利用決策樹算法建模的方面,在本文中使用交替決策樹(alternatingdecisiontrees(ADTrees))。該算法是依賴於被稱為AdaBoost(參見Freund和Schapire(1996),Experimentswithanewboostingalgorithm.InL.Saitta,editor,ProceedingsoftheThirteenthInternationalConferenceonmachinelearning,pages148-156,SanMateo,CA,MorganKaufmann.)的強化技術以提高性能的決策樹的歸納。當與其它決策樹算法進行比較時,交替決策樹算法趨向構建具有較簡單規則的較小的樹,並且由此可以更容易地進行解釋。其也會將真實值(realvalue)與每個節點關聯,從而使得每個節點獨立於其它節點得到評估。得到的樹的大小較小,並且在內存要求方面相應地減少,使得交替決策樹算法成為少數用於處理非常大且複雜的數據集的選擇之一。在預測節點之後,記錄所遵循的多重路徑使得該算法對於缺失值更為魯棒,因為儘管有一個被忽略的路徑(ignoredpath),但是可以遵循所有其它替代性路徑。最後,該算法在每個分類中提供置信度(measureofconfidence),稱為「分類邊緣(classificationmargin)」,這在一些應用中與分類本身一樣重要。與其它決策樹一樣,該算法對於特徵之間的多重共線性也是非常魯棒的。通常基於特定的理想特徵(例如穀物產率、體脂肪百分比、油的分布(oilprofile),以及疾病抗性)來繁殖植物和動物。植物或動物改良項目的一個目標在於鑑定用於繁殖的個體,使得在後續世代中更為頻繁或更為顯著地表達所期望的特徵。學習涉及但不限於改變實踐、活動或行為,所述實踐、活動或行為涉及鑑定用於繁殖的個體從而使得所期望特徵的表達的增加程度更高或者鑑定用於繁殖的個體的成本更低。通過完成本文中列出的步驟,可以開發出模型用以與通過其它方法相比更為有效地選擇用於繁殖的個體以及用於基於特徵值的組合更為準確地分類或預測假設的個體的性能。除了所期望的特徵之外,可以針對一個或更多個可能與所期望的特徵有或沒有明顯相互關係的別的特徵獲得數據。在此,將本公開中提及的所有引用文獻通過參考併入,其程度為它們涉及的在本公開中使用的材料和方法。實施例下述實施例僅用於說明的目的而不意在限制本公開的範圍。通過田間和溫室篩選來鑑定對於病原體含有高水平和低水平抗性的優良的玉米品系(elitemaizeline)。將對於該病原體顯示高水平抗性的品系用作供體,並與易感的優良品系雜交。然後將後代與相同的易感的優良品系回交。得到的種群與單倍體誘導系原種雜交,並使用染色體加倍技術發展出191個固定的近交系(fixedinbredline)。利用田間篩選方法(fieldscreeningmethodology)對每個品系在兩個複製品中對病原體的抗性水平進行評估。利用田間篩選方法還對易感的優良品系的44個複製品進行了評估。對於所有191個加倍單倍體品系、易感的優良品系和抗性供體使用93個多態性SSR標誌物生成了基因型數據。最終的數據集含有426個樣品,基于田間篩選結果將其分成兩組。田間篩選分數範圍為14的植物構成易感組,而田間篩選分數範圍為59的植物構成抗性組。為了此分析,將易感組用「0」標記而抗性組用「1」標記。利用包括以下步驟的三步過程對數據集進行了分析(a)探測關聯規則;(b)基於步驟(a)中的發現創建新的特徵,並將這些特徵添加到數據集中;(c)不用來自步驟(b)的特徵針對目標特徵開發模型,而另一個模型利用來自步驟(b)中的特徵開發。對於將這些步驟中的每一步用於該數據集的描述如下。步驟(a)探測關聯規則在本實施例中,利用DDPM(判別模式挖掘算法)和CARPENTER(頻繁模式挖掘算法)對426個樣品進行了評估。將全部94個特徵(包括目標特徵)用於評估。通過DDPM算法探測關聯規則,包括下述特徵1.特徵48=5_103.776_umc2013,特徵59=7_12.353_lgi2132和特徵89=10_43.909_phi050該判別模式具有來自具有支持的所有模式的最佳信息增益(0.068)(在426個樣品中的出現(occurrence))>=120。通過CARPENTER算法探測的5個關聯規則包括下述特徵1.特徵59=7_12.353_lgi2132,特徵62=7_47.585_umc1036和響應(Response)=12.特徵59=7_12.353_lgi2132,特徵92=10_48.493_umcl648和響應=13.特徵35=4_58.965_umcl964,特徵59=7_12.353_lgi2132和響應=14.特徵19=2_41.213_lgi2277,特徵20=2_72.142_umcl285和響應=05.特徵19=2_41.2131_gi2277,特徵78=8_95.351_umcl384和響應=06.特徵88=10_18.018_umcl576,特徵89=10_43.909_phi050和響應=0具有響應=1的關聯規則具有180的支持,具有響應=0的規則具有140的支持。步驟(b)基於步驟(a)中的發現創建新的特徵,以及將這些特徵添加到數據集中使用包括在步驟(a)中探測的6個關聯規則中的原始特徵,創建新特徵。如表1所示,通過連接原始的特徵創建這些新特徵。表1由兩個其它特徵創建的新特徵的可能的值的表示權利要求1.一種挖掘包含由至少一種基於植物的分子遺傳標誌物創建的至少一種特徵的數據集以發現至少一種關聯規則,並利用由這些關聯規則創建的一種或多種特徵來對一種或多種目標特徵進行分類或預測的方法。2.根據權利要求1所述的方法,其中所述關聯規則包括利用自組織映射確定的空間和時間的關聯規則。3.根據權利要求1所述的方法,其中所述數據集選自下組環境數據、表型數據、DNA序列數據、微陣列數據、生化數據、代謝數據或它們的組合。4.根據權利要求1所述的方法,其中將由一種或多種關聯規則挖掘算法確定的所述一種或多種關聯規則用於使用一種或多種機器學習算法的分類或預測,所述機器學習算法選自下組特徵評估算法、特徵子集選擇算法、貝葉斯網絡、基於實例的算法、支持向量機、投票算法、代價敏感分類器、疊加算法、分類規則和決策樹。5.根據權利要求4所述的方法,其中所述一種或多種關聯規則挖掘算法選自下組APriori算法、FP-growth算法、可以處理大量特徵的關聯規則挖掘算法、巨模式挖掘算法、直接判別模式挖掘算法、決策樹、粗糙集。6.根據權利要求4所述的方法,其中所述關聯規則挖掘算法是自組織映射(SOM)算法。7.根據權利要求5所述的方法,其中所述可以處理大量特徵的關聯規則挖掘算法包括但不限於CL0SET+、CHARM、CARPENTER和COBBLER。8.根據權利要求5所述的方法,其中所述可以發現直接判別模式的算法包括但不限於DDPM、HARMONY、RCBT,CAR以及PATCLASS。9.根據權利要求5所述的方法,其中所述可以發現巨模式的算法包括但不限於模式融合算法。10.根據權利要求4所述的方法,其中所述特徵評估算法選自下組信息增益算法、Relief算法、ReliefF算法、RReliefF算法、對稱不確定性算法、增益率算法和評級算法。11.根據權利要求4所述的方法,其中所述特徵子集選擇算法選自下組與其它任何機器學習算法聯合的包裝算法和基於關聯性的特徵選擇(ere)算法。12.根據權利要求4所述的方法,其中所述機器學習算法是包括樸素貝葉斯算法的貝葉斯網絡算法。13.根據權利要求4所述的方法,其中所述基於實例的算法選自下組基於實例1(IB1)算法、基於實例k-近鄰(IBK)算法、KMar算法、惰式貝葉斯規則(LBR)算法、以及局部加權學習(LWL)算法。14.根據權利要求4所述的方法,其中所述機器學習算法是支持向量機算法。15.根據權利要求14所述的方法,其中所述支持向量機算法是支持向量回歸(SVR)算法。16.根據權利要求14所述的方法,其中所述支持向量機算法使用序列最小優化方法(SMO)算法。17.根據權利要求14所述的方法,其中所述支持向量機算法使用回歸型序列最小優化(SMOReg)算法。18.根據權利要求4所述的方法,其中所述決策樹選自下組邏輯模型樹(LMT)算法、交互式決策樹(ADTree)算法、M5P算法和REPTree算法。19.根據權利要求1所述的方法,其中所述一種或多種目標特徵選自由連續的目標特徵和離散的目標特徵構成的組。20.根據權利要求1所述的方法,其中所述離散的目標特徵是二元目標特徵。21.根據權利要求1所述的方法,其中所述至少一種基於植物的分子遺傳標誌物來自於植物種群。22.根據權利要求21所述的方法,其中所述植物種群是結構化的或未結構化的植物種群。23.根據權利要求21所述的方法,其中所述植物種群包括近交植物。24.根據權利要求21所述的方法,其中所述植物種群包括雜交植物。25.根據權利要求21所述的方法,其中所述植物種群選自下組玉米、大豆、甘蔗、高粱、小麥、向日葵、稻、蕓薹、棉花以及黍。26.根據權利要求21所述的方法,其中所述植物種群包括約2至約1000000個成員。27.根據權利要求1所述的方法,其中所述分子遺傳標誌物的數量的範圍為約1至約1000000個標誌物。28.根據權利要求1所述的方法,其中所述特徵包括一種或多種簡單序列重複(SSR)、切割擴增多態性序列(CAPS)、簡單序列長度多態性(SSLP)、限制性片段長度多態性(RFLP)、隨機擴增多態性DNA(RAPD)標誌物、單核苷酸多態性(SNP)、任意片段長度多態性(AFLP)、插入、缺失、任何其它類型的來源於DNA、RNA、蛋白質或代謝產物的分子遺傳標記物、由兩種或更多種上述來源於DNA的分子遺傳標誌物創建的單元型、以及它們的組合。29.根據權利要求1所述的方法,其中所述特徵包括一種或多種簡單序列重複(SSR)、切割擴增多態性序列(CAPS)、簡單序列長度多態性(SSLP)、限制性片段長度多態性(RFLP)、隨機擴增多態性DNA(RAPD)標誌物、單核苷酸多態性(SNP)、任意片段長度多態性(AFLP)、插入、缺失、任何其它類型的來源於DNA、RNA、蛋白質或代謝產物的分子遺傳標記物、由兩種或更多種上述來源於DNA的分子遺傳標誌物創建的單元型、以及它們的組合,與一種或多種表型測量、微陣列數據、分析性測量、生化測量或環境測量結合作為特徵。30.根據權利要求1所述的方法,其中所述一種或多種目標特徵是可數字表示的表型性狀,所述表型性狀包括疾病抗性、產率、穀物產量、紗線強度、蛋白質組成、蛋白質含量、昆蟲抗性、穀物水分含量、穀物油含量、穀物油質量、乾旱抗性、根倒伏抗性、植物高度、穗位高、穀物蛋白質含量、穀物胺基酸含量、穀物顏色和莖稈倒伏抗性。31.根據權利要求1所述的方法,其中所述一種或多種目標特徵是使用統計方法、機器學習方法或它們的任何組合調整的可數字表示的表型性狀,所述表型性狀包括疾病抗性、產率、穀物產量、紗線強度、蛋白質組成、蛋白質含量、昆蟲抗性、穀物水分含量、穀物油含量、穀物油質量、乾旱抗性、根倒伏抗性、植物高度、穗位高、穀物蛋白質含量、穀物胺基酸含量、穀物顏色和莖稈倒伏抗性。32.根據權利要求1所述的方法,其中樣品植物種群對於所述一種或多種分子遺傳標誌物的基因型通過直接DNA測序來實驗確定。33.一種挖掘具有由至少一種基於植物的分子遺傳標誌物創建的至少一種特徵的數據集以發現至少一種關聯規則,並利用由這些關聯規則創建的特徵來對一種或多種目標特徵進行分類或預測的方法,所述方法包括以下步驟(a)探測關聯規則;(b)基於步驟(a)中的發現創建新的特徵,並將新特徵添加到所述數據集中;(c)進行特徵評估;(d)從數據集中的特徵中選擇特徵的子集;和(e)用至少一種由步驟(a)中探測的關聯規則創建的特徵開發對一種或多種目標特徵進行預測或分類的模型。34.根據權利要求33所述方法用於選擇近交系、選擇雜種、評級雜種、針對特定的地理學評級雜種、選擇新近交種群的親本、發現用於滲入到優良近交系中的片段或者它們的任何組合的用途。35.根據權利要求33所述的方法,其中所述步驟(a)-(e)中的至少一步利用機器學習算法進行。36.根據權利要求33所述的方法,其中步驟(a)包括使用自組織映射探測關聯規則,空間和時間的關聯。37.根據權利要求33所述的方法,其中步驟(e)的至少一種特徵是步驟(d)中選擇的特徵的子集。38.根據權利要求33所述的方法,其中使用交叉驗證來比較算法和參數值的集合。39.根據權利要求33所述的方法,其還包括使用受試者操作特徵(ROC)曲線來比較算法和參數值的集合。40.根據權利要求33所述的方法,其中一種或多種特徵數學地或計算地來源於其它的特徵。41.一種挖掘具有由至少一種基於植物的分子遺傳標誌物創建的至少一種特徵的數據集以發現至少一種關聯規則,並利用由這些關聯規則創建的特徵來對於一種或多種目標特徵進行分類或預測的方法,所述方法包括以下步驟(a)探測關聯規則;(b)基於步驟(a)創建新的特徵,並將這些新特徵添加到所述數據集中;(c)用至少一種在步驟(b)中創建的特徵開發對一種或多種目標特徵進行預測或分類的模型。42.根據權利要求41所述的方法,其中權利要求41的步驟之前進行如下步驟(a)從數據集中的特徵中選擇特徵的子集。43.一種挖掘具有一種或多種特徵的數據集的方法,該方法包括挖掘具有至少一種基於植物的分子遺傳標誌物的數據集以發現至少一種關聯規則,並利用由這些關聯規則創建的特徵來進行分類或預測,所述方法包括以下步驟(a)探測關聯規則;(b)基於步驟(a)中的發現創建新的特徵,並將這些特徵添加到數據集中;(c)從數據集中的特徵選擇特徵的子集。44.根據權利要求41所述的方法,其中步驟(a)包括使用自組織映射探測空間和時間的關聯。45.根據權利要求1、33或41的方法用於預測雜種性能的用途。46.根據權利要求1、33或41的方法用於預測跨越不同地理位置的雜種性能的用途。47..根據權利要求1、33或41的方法,其中在所述步驟中的至少一步中考慮現有知識。48.根據權利要求1、33或41的方法用於選擇近交系、選擇雜種、評級雜種、針對特定的地理學評級雜種、選擇新近交種群的親本、發現用於滲入到優良近交系中的片段或者它們的任何組合的用途。49.一種針對一種或多種感興趣的目標特徵從植物種群中選擇至少一種植物的方法,所述方法包括以下步驟挖掘具有至少一種基於植物的分子遺傳標誌物的數據集以發現至少一種關聯規則,並利用由這些關聯規則創建的特徵對一種或多種目標特徵進行分類或預測;和基於利用關聯規則的分類或預測針對一種或多種感興趣的目標特徵從植物種群中選擇至少一株植物。50.一種選擇新植物種群的親本植物的方法,所述方法包括以下步驟挖掘具有至少一種基於植物的分子遺傳標誌物的數據集以發現至少一種關聯規則,並利用由這些關聯規則創建的特徵對一種或多種目標特徵進行分類或預測;和基於利用關聯規則的分類或預測從植物種群中選擇至少兩株植物作為新種群的親本。51.一種從植物種群選擇改善植物種群中一個或多個個體的DNA片段的方法,所述方法包括以下步驟挖掘具有至少一種基於植物的分子遺傳標誌物的數據集以發現至少一種關聯規則,並使用由這些關聯規則創建的特徵對一種或多種目標特徵進行分類或預測;和基於利用關聯規則的分類或預測從植物種群選擇改善植物種群中一個或多個個體的DNA片段。52.根據權利要求43所述的方法,其中將結果用於探測一種或多種數量性狀基因座,向一個或多個數量性狀基因座分配顯著性,定位一個或多個數量性狀基因座,或它們的任何組合。53.根據權利要求四所述的方法,其中環境測量包括但不限於培養植物的農田的氣候和土壤特徵。54.根據權利要求1、33或42所述的方法,其中所述至少一種特徵是由至少一種基於動物的分子遺傳標誌物創建的。55.根據權利要求1、33或42所述的方法,其中所述現有知識包括初步調查、植物遺傳學的數量研究、基因網絡、序列分析或它們的任意組合。56.根據權利要求1、33或42所述的方法,其還包括以下步驟(a)利用包括在所述一種或多種關聯規則中的一種或多種特徵的組合來代替原有的特徵以減少維度;(b)通過基於模型的搜索樹挖掘區別性和必要性頻繁模式。57.根據權利要求1、33、41、43、49、50和51所述的方法,其利用計算機和軟體來執行。全文摘要本公開涉及使用一種或多種關聯規則挖掘算法來挖掘含有由至少一種基於植物或動物的分子遺傳標誌物創建的特徵的數據集,發現關聯規則和使用由這些關聯規則創建的特徵來分類或預測。文檔編號G06N5/02GK102473247SQ201080029509公開日2012年5月23日申請日期2010年6月3日優先權日2009年6月30日發明者D.卡拉維洛,R.佩,R.帕特爾申請人:陶氏益農公司

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀