人工智能在醫(yī)療領(lǐng)域的應(yīng)用有著巨大潛力,可以改善患者治療、減輕醫(yī)院和臨床醫(yī)生的行政負(fù)擔(dān),以及優(yōu)化醫(yī)療流程等。然而,在臨床環(huán)境中引入新技術(shù),特別是人工智能時(shí),也會(huì)面臨一系列挑戰(zhàn)。麻省理工學(xué)院日前發(fā)布了一項(xiàng)研究,深入探討了在美國醫(yī)院系統(tǒng)中實(shí)施生成式人工智能遇到的一系列問題,為我們提供了一個(gè)全面而深刻的視角。
兩組概念,三個(gè)區(qū)別
過去的研究強(qiáng)調(diào),當(dāng)臨床工作人員參與不足時(shí),技術(shù)的應(yīng)用會(huì)遇到障礙;當(dāng)專家被要求與新技術(shù)系統(tǒng)互動(dòng)時(shí),信任和安全也會(huì)面臨挑戰(zhàn)。另一個(gè)主要挑戰(zhàn)是如何與傳統(tǒng)系統(tǒng),特別是電子病歷(EHR)系統(tǒng)集成。
事實(shí)上,過去在醫(yī)療系統(tǒng)中推廣新技術(shù)的嘗試往往會(huì)導(dǎo)致意想不到的后果,例如增加醫(yī)生和臨床團(tuán)隊(duì)的管理負(fù)擔(dān)。此外,盡管有幾個(gè)成功的案例,但在醫(yī)療保健系統(tǒng)中大規(guī)模實(shí)地實(shí)施人工智能軟件的數(shù)量仍然相對(duì)較少。
麻省理工學(xué)院的這項(xiàng)研究,首先明確了一組概念:
傳統(tǒng)的人工智能模型和算法,稱為狹義人工智能(Narrow?。粒伞。韵潞喎QNAI);
最近的生成式人工智能模型和算法(Generative,以下簡稱GAI)。
雖然這兩種應(yīng)用在技術(shù)上都屬于預(yù)測算法,但這兩種工具具有不同的技術(shù)特點(diǎn),因而適用于不同的用例、不同的用戶體驗(yàn)以及對(duì)機(jī)構(gòu)的不同影響。
兩者之間至少有三個(gè)主要區(qū)別:
首先,NAI模型和算法通常是為特定的預(yù)測任務(wù)(例如通過乳房X光檢測癌癥)而構(gòu)建的。相比之下,GAI工具通?;诖笮驼Z言模型(LLM),能夠執(zhí)行各種各樣的任務(wù),例如搜索、摘要和文本生成任務(wù)(例如,患者訪問記錄摘要)。
其次,NAI模型和算法通常是根據(jù)目標(biāo)預(yù)測任務(wù)的特定的標(biāo)注數(shù)據(jù)集開發(fā)的。另一方面,與廣泛的功能相對(duì)應(yīng),GAI工具需要更大更廣的數(shù)據(jù)集。
第三,與通常非常結(jié)構(gòu)化的NAI模型的輸出不同,GAI模型的輸出通常是復(fù)雜和非結(jié)構(gòu)化的。
該研究從技術(shù)、組織和認(rèn)知三個(gè)角度研究了醫(yī)療系統(tǒng)中NAI和GAI應(yīng)用所面臨的挑戰(zhàn)。
一是技術(shù)挑戰(zhàn):數(shù)據(jù)異質(zhì)性與保真度問題
盡管AI的性能取得了顯著進(jìn)步,但其在醫(yī)療系統(tǒng)中的實(shí)際應(yīng)用仍面臨技術(shù)挑戰(zhàn)。
首先,醫(yī)療保健的流程環(huán)境要求新技術(shù)能夠與傳統(tǒng)IT系統(tǒng),尤其是電子病歷系統(tǒng)有效整合。然而,由于臨床醫(yī)生記錄和存儲(chǔ)數(shù)據(jù)的方式各不相同,患者記錄中的文本數(shù)據(jù)可能無法用于訓(xùn)練NAI和機(jī)器學(xué)習(xí)(ML)模型,導(dǎo)致數(shù)據(jù)異質(zhì)性問題。
GAI工具雖然有望解決數(shù)據(jù)異質(zhì)性問題,但它們?cè)谏晌谋净貜?fù)和摘要時(shí)可能會(huì)利用不相關(guān)的數(shù)據(jù),造成所謂的“幻覺”,即數(shù)據(jù)保真度問題。例如,大型語言模型(LLM)在總結(jié)病人筆記時(shí)可能會(huì)引入不準(zhǔn)確的信息,這對(duì)于依賴精確數(shù)據(jù)進(jìn)行治療決策的醫(yī)療行業(yè)來說是一個(gè)嚴(yán)峻的挑戰(zhàn)。
由于這一問題,早期,GAI在醫(yī)院的集中應(yīng)用僅僅被部署在風(fēng)險(xiǎn)相對(duì)較低的環(huán)境中,在這些環(huán)境中,準(zhǔn)確性和數(shù)據(jù)真實(shí)性并不太重要。例如,在生成病歷摘要的應(yīng)用中,醫(yī)護(hù)人員可以使用完整的病歷,因此即使病歷摘要包含不準(zhǔn)確的內(nèi)容,也起碼會(huì)保留"基本事實(shí)"。在回復(fù)患者咨詢的場景中,如果臨床醫(yī)生選擇使用?。牵粒蛇M(jìn)行回復(fù),系統(tǒng)會(huì)提示他們?cè)诎l(fā)送前可以對(duì)信息進(jìn)行編輯,這些都是保障措施。
二是管理挑戰(zhàn):從轉(zhuǎn)變內(nèi)部設(shè)計(jì)到關(guān)注外部環(huán)境
再次強(qiáng)調(diào)GAI有別于 NAI的三個(gè)關(guān)鍵技術(shù)特征:①龐大的數(shù)據(jù)和計(jì)算需求使本地設(shè)計(jì)和開發(fā)變得不切實(shí)際;②靈活性強(qiáng),使分散的用戶轉(zhuǎn)向分散控制,以及從內(nèi)部的監(jiān)控和流程改進(jìn)轉(zhuǎn)向外部。
從開發(fā)角度,GAI解決方案的開發(fā)越來越依賴于 IT 部門成員的在采購和部署方面的專業(yè)知識(shí),而不是臨床業(yè)務(wù)部門領(lǐng)導(dǎo)和AI開發(fā)人員在臨床和技術(shù)知識(shí)。因此領(lǐng)導(dǎo)者需要處理這些利益相關(guān)群體之間的關(guān)系。
例如,在紐約大學(xué)朗貢分校,IT部門的領(lǐng)導(dǎo)最初采用了?。牛穑椋恪『臀④涢_發(fā)的收件箱信息解決方案,來起草對(duì)患者的回復(fù)。該界面不允許個(gè)人用戶設(shè)計(jì)自己的提示。草稿始終存在缺陷,限制了其預(yù)期效益,而?。牛穑椋恪〉母倪M(jìn)也相當(dāng)緩慢。結(jié)果醫(yī)護(hù)人員需要花費(fèi)大量時(shí)間閱讀和編輯冗長的回復(fù),這與他們自己撰寫回復(fù)所需的時(shí)間不相上下。如果靠AI開發(fā)人員來改進(jìn),將使成本大幅上升,因此紐約大學(xué)朗貢分校開始為“醫(yī)療保健特定任務(wù)”開發(fā)自己的LLM,并使用其專有的健康記錄和臨床筆記數(shù)據(jù)集。這個(gè)例子說明了醫(yī)療系統(tǒng)?。牵粒山鉀Q方案市場整合的普遍問題。
從實(shí)施角度,由于GAI解決方案與NAI相比具有更大的靈活性,終端用戶只需接受少量培訓(xùn),就能熟練使用?。牵粒山鉀Q方案,而不依賴 AI開發(fā)人員集中參與。例如,在紐約大學(xué)朗貢分校,登記部門的行政主管用戶甚至可以自己開發(fā)面向患者的登記聊天機(jī)器人,而AI開發(fā)者僅僅支持了用戶的基本技能和安全指導(dǎo),幫助促進(jìn)自下而上的解決方案開發(fā)和共享,支持了這種分散式的實(shí)施。
在維護(hù)環(huán)節(jié),快速變化的外部軟硬件技術(shù)和法規(guī)可能會(huì)影響人工智能模型的性能,因此醫(yī)療機(jī)構(gòu)的領(lǐng)導(dǎo)者需要將重點(diǎn)從監(jiān)控內(nèi)部運(yùn)營轉(zhuǎn)向關(guān)注外部環(huán)境,以提高模型性能和服務(wù)質(zhì)量。例如,朗貢分校的領(lǐng)導(dǎo)還與政府事務(wù)團(tuán)隊(duì)合作,提高政府機(jī)構(gòu)不斷制定治理政策的意識(shí)。
三是認(rèn)知挑戰(zhàn):技能萎縮與誤判
在醫(yī)護(hù)人員層面,NAI和GAI的引入凸顯了人機(jī)交互風(fēng)險(xiǎn),包括技能萎縮、對(duì)AI信任的誤判以及信息超載。
例如,臨床醫(yī)生可能過度依賴AI模型來管理出院事宜,導(dǎo)致他們的專業(yè)技能萎縮。
此外,如今的 GAI工具通常利用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí),即使是開發(fā)人員也無法理解,這與過去可以被人類操作員追蹤的基于明確規(guī)則的系統(tǒng)不同。GAI模型的不透明性放大了信任誤判的風(fēng)險(xiǎn)。在低風(fēng)險(xiǎn)應(yīng)用中,這可能不是問題。但在診斷應(yīng)用中,GAI的用戶必須解釋輸出結(jié)果的有效性,而LLM的黑箱性質(zhì)可能會(huì)帶來挑戰(zhàn)。
GAI工具的靈活性也帶來了額外的挑戰(zhàn)。對(duì)于人類操作員來說,很難理解?。牵粒晒ぞ咴谀男┓矫鏁?huì)產(chǎn)生可靠的結(jié)果,而在哪些方面則不會(huì)。例如,即使LLM在早期響應(yīng)病人信息的試驗(yàn)中產(chǎn)生了可靠的結(jié)果,但隨著時(shí)間的推移,它可能會(huì)被證明是不適應(yīng)的。人工智能系統(tǒng)通過對(duì)新數(shù)據(jù)的自我監(jiān)督不斷更新行為,從人類操作員的角度來看,這大大增加了不可預(yù)測性。
一些開放性問題和新方向
該研究提到,以上三個(gè)方面的不同挑戰(zhàn),是基于醫(yī)院人工智能早期部署和實(shí)驗(yàn)的最新證據(jù),以及電子病歷等新技術(shù)影響下的長期證據(jù)。通過這些證據(jù)能夠總結(jié)出GAI新應(yīng)用所面臨的潛在挑戰(zhàn),但要評(píng)估這些挑戰(zhàn)在實(shí)踐中將如何體現(xiàn),以及在何種條件下體現(xiàn)還為時(shí)尚早。這項(xiàng)研究既是為醫(yī)療機(jī)構(gòu)領(lǐng)導(dǎo)者提供的潛在障礙地圖,也是一套假設(shè),有待未來在部署?。牵粒蓱?yīng)用的醫(yī)院進(jìn)行實(shí)證研究時(shí)加以檢驗(yàn)。因?yàn)槊總€(gè)挑戰(zhàn)中都體現(xiàn)著新的研究方向。
首先,在將?。牵粒梢肱R床流程時(shí),存在著潛在幻覺,以及缺乏可解釋性相關(guān)的風(fēng)險(xiǎn)。那么醫(yī)院將采用哪些策略來管理這些風(fēng)險(xiǎn)?他們將如何衡量這些風(fēng)險(xiǎn)是否值得承擔(dān),尤其是當(dāng)醫(yī)院可能面臨著生產(chǎn)率提高的高概率,以及臨床錯(cuò)誤的低概率時(shí)。
第二,GAI的引入對(duì)不同技能水平的工作人員的影響也是一個(gè)值得研究的問題。來自非醫(yī)療領(lǐng)域的早期實(shí)驗(yàn)室和現(xiàn)實(shí)證據(jù)表明,當(dāng)引入?。牵粒晒ぞ邥r(shí),低技能工人獲益最大,這與以往的軟件技術(shù)形成了鮮明對(duì)比,以往的軟件技術(shù)往往偏向于高技能人才。那么在醫(yī)療領(lǐng)域,技能最低的工作人員是否會(huì)從?。牵粒傻囊胫蝎@益最多,這仍然是一個(gè)懸而未決的問題。即使技能最低的人在?。牵粒傻膸椭聵I(yè)績提高最多,體驗(yàn)到生產(chǎn)率的邊際增長,但可能不會(huì)從GAI中看到工資或職業(yè)發(fā)展優(yōu)勢。
第三,過去的研究表明,引入高質(zhì)量自動(dòng)化可能會(huì)導(dǎo)致技能萎縮。如果自動(dòng)化程度過高,而對(duì)人類操作員的認(rèn)知要求較低,那么人類獨(dú)立完成任務(wù)和識(shí)別潛在錯(cuò)誤的能力就會(huì)降低。在醫(yī)療保健領(lǐng)域,還沒有明確的證據(jù)表明技能萎縮或績效挑戰(zhàn)與引入GAI有關(guān)。不過,這是一個(gè)有待驗(yàn)證的假設(shè),各機(jī)構(gòu)在衡量新的?。牵粒蓱?yīng)用對(duì)其員工的影響時(shí),需要對(duì)風(fēng)險(xiǎn)進(jìn)行管理。
注:文章來源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系刪除