新四季網

一種基於類型推理與語義約束的醫學視覺問答方法

2023-06-09 20:42:13



1.本發明設計了一種基於類型推理與語義約束的醫學視覺問答方法,涉及圖像處理和自然語言處理的交叉領域。


背景技術:

2.隨著人工智慧(ai)的快速發展,臨床決策支持也迎來了新的機遇。目前,圖像診斷的主要任務是圖像識別、病變檢測和良惡性判斷。醫學視覺問答(medical visual question answering,med-vqa)因缺乏詳細的醫學圖像注釋數據集,所以目前的研究工作相對較少。med-vqa是一個特殊的領域問題,其目的是通過考慮放射圖像和臨床問題來檢索正確的答案。本發明旨在設計一個高可靠性的醫學視覺問答系統,除了支持臨床教學,為臨床醫生提供決策支持外,還可以幫助患者根據醫學影像報告更好地了解自身的健康狀況。從臨床醫學與人工智慧的結合角度來看,醫學視覺問答具有廣闊的應用前景。但由於專業知識和數據資源的限制,醫學視覺問答的相關技術仍處於初級發展階段。因此,我們可以借鑑通用視覺問答任務中的先進解決方案。
3.近年來,通用vqa在跨媒體表達和交互領域受到關注,吸引了計算機視覺和自然語言處理領域的許多專家和學者的關注。通用視覺問答的目標是回答與真實圖像相關的問題。例如,給定一張圖片,圖中有幾個人在船上,學生和醫生都可以快速回答「船上有多少人?」一般情況下,通用視覺問答任務包含簡單的問題,如「樹葉是什麼顏色?」和一些具有挑戰性的問題,如「圖像中的紫色物體可以用來做什麼?」。由此可見,對於不同類型的問題視覺問答模型需要不同的推理模塊來自動推理並準確作答。
4.與通用領域的視覺問答任務相比,醫學視覺問答更具挑戰性。我們設計的med-vqa模型是用來解決健康和安全的問題,因此它要求更高的準確性和安全性。然而由於隱私問題,大量醫療數據通常很難獲取。其次,醫學視覺問答涉及多模態影像(mri、x-ray、ct等)和多樣化的臨床問題,如圖1所示,因此需要具備專業的醫學圖像讀片知識,才能做出準確的推斷並給出正確的答案。另外,利用深度學習訓練高效的網絡模型需要大量準確的標註數據。醫學視覺問答的數據也需要對醫學專業知識進行準確的注釋,因而,獲取醫療數據集需要時間、精力和金錢。據現有的調研工作可知,目前只有一個手動標註的公開醫學視覺問答數據集vqa-rad。與通用領域的醫學視覺問答數據集相比,醫療視覺問答數據集非常有限。因此,我們不能直接使用一些先進的vqa模型來處理醫學視覺問答問題。
5.為此,大量的學者針對醫學領域的視覺問答任務提出了先進的圖片特徵提取模塊,問題特徵提取模塊和多模態特徵融合模塊等方法。這些方法主要是針對不同模式特徵提取方法的改進,沒有關注重要的模態數據——答案中的豐富信息。此外,他們還忽略了一個重要的問題,那就是不同類型的問題關注不同的信息。針對這一問題,本發明提出了一種基於類型推理和語義空間約束的醫學視覺問答框架。首先,根據問答對類型,在訓練數據集中訓練一個問題分類器,並使用它對所有問題進行分類。其次,將醫學視覺問答模型的預測結果與參考答案映射到同一個語義空間中。然後,我們計算它們之間的餘弦距離來約束模
型進行訓練。


技術實現要素:

6.本發明針對醫學視覺問答任務,提出了一種基於類型推理和語義約束的醫學視覺問答方法。該方法主要分為圖片特徵提取、問題特徵提取、多模態特徵融合和損失函數設計四個模塊。本發明採用了多任務預訓練模型(mtpt)中相應的resnet-34網絡進行圖片特徵提取。在問題特徵提取模塊,本發明設計了類型推理框架,通過1024維的lstm提取特徵的同時將臨床問題進行封閉式和開放式二分類。然後通過多模態融合特徵模塊將對應的多模態特徵進行融合,並輸入分類器中進行分類。在損失函數設計階段,本發明構建了一個基於候選答案集的聯合語義空間,通過語義損失函數和交叉熵損失函數設計模型的損失函數,來引導模型進行訓練。
7.vqa-rad數據集是目前公開的一個有專業醫務人員手工標註的數據集,在醫學視覺問答領域中,大多數先進的模型都選用該數據來進行方法性能的驗證。該數據包含頭部mri、胸部x-ray和腹部ct共計351張放射科圖像和相關的3,515個臨床問題。每張圖片相關的問題平均有10個。所有的問題主要分為封閉式問題和開放式兩種形式。我們的模型在數據集vqa-rad上取得了較好的實驗結果,並通過對類型推理和語義約束模塊進行了消融實驗分析,驗證了本發明方法的合理性。
8.本發明通過以下技術方案來實現上述目的:
9.1、步驟(一)中將輸入的放射科圖片通過多任務預訓練模型mtpt進行圖片形態的分類,然後將其輸入到對應的resnet-34網絡進行圖片特徵提取,得到圖片特徵向量vi,供後續模塊使用;
10.2、步驟(二)、(三)中將臨床問題通過biowordvec預訓練模型做詞嵌,得到200維的問題詞嵌q
emb
,然後輸入到1024維的lstm,得到問題特徵向量vq,計算公式如下:
11.q
emb
=biowordvec(q)
ꢀꢀꢀꢀꢀꢀꢀ
(1)
12.為了提升模型的推理能力,如圖2所示,將得到輸入到1024維的lstm中獲取問題的特徵向量引入注意力機制來給問題中的不同單詞分配不同的權重,具體計算公式如下:
[0013][0014][0015][0016][0017][0018]
式中w1,w2,wa是訓練權重值,然後通過二元分類網絡,得到問題的分類
[0019]
3、步驟(四)中本發明使用了跨模態自注意力方法來進行多模態特徵的融合。為了更好的理解與問題相關的圖片區域,引入一個8維的空間特徵vs,通過問題類型的二分類網絡將圖片特徵、問題特徵和空間特徵先分為封閉式和開放式兩類,然後針對不同的類型分
別進行圖片特徵、問題特徵和空間特徵的多模態特徵融合,最後進行答案分類。
[0020]
4、步驟(五)(六)中首先我們通過二元交叉熵(binarycross-entropy,bce)損失計算預測答案和參考答案之間的損失,計算公式如下所示:
[0021][0022]
接著將候選答案ai輸入到預訓練模型biowordvec中獲取答案的詞嵌b(i),然後將醫學視覺問答模型的top-k個預測值和數據集中的參考答案映射到同一個語義空間,計算公式如下式所示:
[0023][0024]
f(g
*
)=pib(i)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0025]
式中pi為模型的預測概率,然後計算答案之間的餘弦相似性,計算公式如下式所示:
[0026][0027]
然後模型的語義損失函數可以表示如下:
[0028]
ls=1-s(f(p),f(g
*
))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0029]
最終設計損失函數來約束模型進行訓練,損失計算方式如下:
[0030]
loss=l
ce/bce
+λlsꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(12)
[0031]
為了保證問題類型推理模塊和語義約束模塊對模型的有相同的作用,本發明將式中λ的默認值設置為0.5。
附圖說明
[0032]
圖1是醫學視覺問答實例展示。
[0033]
圖2是醫學視覺問答模型結構。
具體實施方式
[0034]
下面結合附圖對本發明作進一步說明:
[0035]
圖1為醫學視覺問答模型結構。模型可大致分為圖片特徵提取、問題特徵提取、多模態特徵融合和損失函數設計四個模塊,各個模塊之間相互關聯,協同訓練,最終實現醫學視覺問答的答案預測任務。
[0036]
圖片特徵提取模塊的目的是將圖片通過多任務預訓練模型mtpt進行圖片形態的分類,然後輸入到對應的resnet-34網絡進行特徵提取,最終得到圖片特徵向量vi,供後續模塊使用。
[0037]
問題特徵提取模塊的作用是將臨床問題映射到一個醫學語義空間,得到問題向量,作為類型推理模塊的基礎數據。如圖2所示,首先將問題通過biowordvec預訓練模型做詞嵌,得到200維的問題詞嵌q
emb
,然後輸入到1024維的lstm,得到問題特徵向量vq。同時為了提升模型的推理能力,將問題特徵向量和答案類型標籤輸入一個二分類網絡,訓練一個
問題類型分類網絡,將問題分為開放式問題和封閉式問題。
[0038]
多模態特徵融合模塊的主要目的是學習不同模態之間的相互關聯信息。為了更好的理解與問題相關的圖片區域,引入一個8維的空間特徵,通過問題類型的二分類網絡將圖片特徵、問題特徵和空間特徵先分為封閉式和開放式兩類,然後針對不同的類型分別進行圖片特徵、問題特徵和空間特徵的多模態特徵融合,最後進行答案分類。
[0039]
損失函數模塊主要引導模型學習不同模態之間的關係及問答流程中的隱形規律。如圖2所示,首先我們通過二元交叉熵(binary cross-entropy,bce)損失計算預測答案和參考答案之間的損失。然後將候選答案集中的所有答案通過biowordvec預訓練模型將候選答案映射到聯合語義空間,計算答案之間的語義相似性來定義語義損失函數。最後用超參數λ將交叉熵損失和語義損失聯合表示為模型的損失函數,來約束模型進行訓練。
[0040]
為了體現醫學視覺問答的實際應用能力,本發明使用了目前唯一公開的手工標註的數據集vqa-rad來進行模型的性能驗證。同時還跟目前現有的方法進行了對比實驗,具體實驗結果如下圖所示:
[0041]
表1本發明網絡模型在vqa-rad數據集上和其他現有模型的的實驗對比結果
[0042][0043]
如表1實驗結果顯示,本發明提出的基於類型推理和語義約束的醫學視覺問答方法在公開的vqa-rad數據集上的整體性能指標和封閉式問題性能指標均優於現有最好的實驗結果。
[0044]
為了進一步驗證本發明提出的類型推理模塊和語義約束模塊的有效性,本發明進行了詳細的消融實驗,在其他條件不變的情況下分別取消類型推理模塊和語義約束模型,為了保證對比實驗的公平性,本發明在相同實驗環境下訓練模型,消融實驗的詳細結果如表2所示:
[0045]
表1本發明網絡模型不同模塊間的消融實驗結果
[0046][0047]
由表中的實驗結果可見,本發明的兩個模塊均有利於模型性能的提升,相比之下,語義約束模塊的效果優於類型推理模塊。實驗結果再次驗證了本發明方法的有效性。

同类文章

一種新型多功能組合攝影箱的製作方法

一種新型多功能組合攝影箱的製作方法【專利摘要】本實用新型公開了一種新型多功能組合攝影箱,包括敞開式箱體和前攝影蓋,在箱體頂部設有移動式光源盒,在箱體底部設有LED脫影板,LED脫影板放置在底板上;移動式光源盒包括上蓋,上蓋內設有光源,上蓋部設有磨沙透光片,磨沙透光片將光源封閉在上蓋內;所述LED脫影

壓縮模式圖樣重疊檢測方法與裝置與流程

本發明涉及通信領域,特別涉及一種壓縮模式圖樣重疊檢測方法與裝置。背景技術:在寬帶碼分多址(WCDMA,WidebandCodeDivisionMultipleAccess)系統頻分復用(FDD,FrequencyDivisionDuplex)模式下,為了進行異頻硬切換、FDD到時分復用(TDD,Ti

個性化檯曆的製作方法

專利名稱::個性化檯曆的製作方法技術領域::本實用新型涉及一種檯曆,尤其涉及一種既顯示月曆、又能插入照片的個性化檯曆,屬於生活文化藝術用品領域。背景技術::公知的立式檯曆每頁皆由月曆和畫面兩部分構成,這兩部分都是事先印刷好,固定而不能更換的。畫面或為風景,或為模特、明星。功能單一局限性較大。特別是畫

一種實現縮放的視頻解碼方法

專利名稱:一種實現縮放的視頻解碼方法技術領域:本發明涉及視頻信號處理領域,特別是一種實現縮放的視頻解碼方法。背景技術: Mpeg標準是由運動圖像專家組(Moving Picture Expert Group,MPEG)開發的用於視頻和音頻壓縮的一系列演進的標準。按照Mpeg標準,視頻圖像壓縮編碼後包

基於加熱模壓的纖維增強PBT複合材料成型工藝的製作方法

本發明涉及一種基於加熱模壓的纖維增強pbt複合材料成型工藝。背景技術:熱塑性複合材料與傳統熱固性複合材料相比其具有較好的韌性和抗衝擊性能,此外其還具有可回收利用等優點。熱塑性塑料在液態時流動能力差,使得其與纖維結合浸潤困難。環狀對苯二甲酸丁二醇酯(cbt)是一種環狀預聚物,該材料力學性能差不適合做纖

一種pe滾塑儲槽的製作方法

專利名稱:一種pe滾塑儲槽的製作方法技術領域:一種PE滾塑儲槽一、 技術領域 本實用新型涉及一種PE滾塑儲槽,主要用於化工、染料、醫藥、農藥、冶金、稀土、機械、電子、電力、環保、紡織、釀造、釀造、食品、給水、排水等行業儲存液體使用。二、 背景技術 目前,化工液體耐腐蝕貯運設備,普遍使用傳統的玻璃鋼容

釘的製作方法

專利名稱:釘的製作方法技術領域:本實用新型涉及一種釘,尤其涉及一種可提供方便拔除的鐵(鋼)釘。背景技術:考慮到廢木材回收後再加工利用作業的方便性與安全性,根據環保規定,廢木材的回收是必須將釘於廢木材上的鐵(鋼)釘拔除。如圖1、圖2所示,目前用以釘入木材的鐵(鋼)釘10主要是在一釘體11的一端形成一尖

直流氧噴裝置的製作方法

專利名稱:直流氧噴裝置的製作方法技術領域:本實用新型涉及ー種醫療器械,具體地說是ー種直流氧噴裝置。背景技術:臨床上的放療過程極易造成患者的局部皮膚損傷和炎症,被稱為「放射性皮炎」。目前對於放射性皮炎的主要治療措施是塗抹藥膏,而放射性皮炎患者多伴有局部疼痛,對於止痛,多是通過ロ服或靜脈注射進行止痛治療

新型熱網閥門操作手輪的製作方法

專利名稱:新型熱網閥門操作手輪的製作方法技術領域:新型熱網閥門操作手輪技術領域:本實用新型涉及一種新型熱網閥門操作手輪,屬於機械領域。背景技術::閥門作為流體控制裝置應用廣泛,手輪傳動的閥門使用比例佔90%以上。國家標準中提及手輪所起作用為傳動功能,不作為閥門的運輸、起吊裝置,不承受軸向力。現有閥門

用來自動讀取管狀容器所載識別碼的裝置的製作方法

專利名稱:用來自動讀取管狀容器所載識別碼的裝置的製作方法背景技術:1-本發明所屬領域本發明涉及一種用來自動讀取管狀容器所載識別碼的裝置,其中的管狀容器被放在循環於配送鏈上的文檔匣或託架裝置中。本發明特別適用於,然而並非僅僅專用於,對引入自動分析系統的血液樣本試管之類的自動識別。本發明還涉及專為實現讀