外科手術(shù)流程解析是計(jì)算機(jī)輔助外科干預(yù)系統(tǒng)實(shí)現(xiàn)智能環(huán)境感知的核心任務(wù),可以提高手術(shù)的安全性,降低手術(shù)并發(fā)癥。從圖像中精確識別<手術(shù)器械—手術(shù)動作—手術(shù)目標(biāo)>的手術(shù)動作三元組是外科手術(shù)流程細(xì)粒度解析的關(guān)鍵。
在腹腔鏡手術(shù)視頻中,一幀畫面可能出現(xiàn)多個(gè)三元組,例如<抓夾,夾持,膽囊>, <鉤子,離斷,膽囊>。這些三元組具有時(shí)間依賴性,并且不同三元組之間的相似度高,給深度學(xué)習(xí)模型的識別造成了極大的困難。
近日,中國科學(xué)院深圳先進(jìn)技術(shù)研究院醫(yī)工所醫(yī)學(xué)人工智能研究中心針對手術(shù)動作三元組識別問題,提出了一種多任務(wù)細(xì)粒度時(shí)空網(wǎng)絡(luò)模型,實(shí)現(xiàn)了對腹腔鏡膽囊切除手術(shù)視頻的動作三元組有效識別,達(dá)到了當(dāng)前最優(yōu)性能。研究成果以MT-FiST: A Multi-Task Fine-grained Spatial-Temporal Framework for Surgical Action Triplet Recognition為題,發(fā)表在生物醫(yī)學(xué)工程領(lǐng)域著名期刊IEEE Journal of Biomedical and Health Informatics(中科院1區(qū),SCI IF=7.7)。碩士研究生李語翀、夏彤為共同第一作者,賈富倉研究員為通訊作者。
在手術(shù)動作三元組中,每個(gè)任務(wù)中子類的相似度很高。如圖1(a)所示,以手術(shù)器械為例,手術(shù)器械的識別依賴于器械尖端和手柄的綜合分析。有一些器械尖端相似,例如抓取器和雙極手術(shù)鉗尖端都包含一個(gè)橢圓形的圓環(huán),而其他器械可能都有灰黑色的手柄。此外,手術(shù)動作的識別需要考慮一個(gè)視頻片段內(nèi)的上下文內(nèi)容。如圖1(b)所示,某一幀的手術(shù)動作可能出現(xiàn)在圖像的邊角,而在之前的畫面中可能會有完整清晰的時(shí)序線索。
研究團(tuán)隊(duì)提出了一種多任務(wù)細(xì)粒度時(shí)空網(wǎng)絡(luò)模型,包括手術(shù)三元組識別的多任務(wù)時(shí)空框架,多標(biāo)簽細(xì)粒度損失函數(shù)。在多任務(wù)框架中,提出的模型綜合考慮了手術(shù)視頻中的時(shí)間特征和空間特征,而之前的方法大多只使用了空間特征。多標(biāo)簽細(xì)粒度損失函數(shù)能夠使得網(wǎng)絡(luò)特征具有代表性,并且關(guān)注到圖像中的不同區(qū)域,從而提高特征的區(qū)分性和多樣性。
經(jīng)腹腔鏡膽囊切除術(shù)視頻圖像測試,研發(fā)的模型在器械,動作,器官識別任務(wù)上達(dá)到了82.1%,51.5%和45.5%的平均精度,超越了Triplet,Attention Triplet和Rendezvous等當(dāng)前先進(jìn)方法。與Rendezvous方法相比,模型精度分別提高了4.6%,4.0%,7.8%。在三元組整體識別任務(wù)上,研發(fā)的模型也提高了3.1%的平均精度,達(dá)到了35.8%。研發(fā)團(tuán)隊(duì)通過消融實(shí)驗(yàn)證明了不同模塊的有效性。
該工作得到了國家自然科學(xué)基金,科技部重點(diǎn)研發(fā)計(jì)劃、廣東省自然科學(xué)基金、深圳市基礎(chǔ)研究重點(diǎn)項(xiàng)目等資助。
圖1. 手術(shù)動作三元組識別的兩個(gè)特點(diǎn)
?。╝)手術(shù)動作三元組由手術(shù)器械、手術(shù)動作、手術(shù)目標(biāo)三個(gè)任務(wù)組成,每個(gè)任務(wù)中的子類具有相似的外觀特征。
?。╞)時(shí)間上下文在三元組識別中起到了重要的作用。
圖2. 提出的多任務(wù)細(xì)粒度時(shí)空網(wǎng)絡(luò)模型
圖3. 與先進(jìn)方法比較
附件下載: