大數據戰“疫”,分秒必爭 2020-03-03 1月24日,除夕夜,bwin必贏(yíng)唯一官網(wǎng)劉躍文副教授接到了合作單位云南省公安廳的電話(huà):“現在疫情可能比較嚴重,要盡量避免外出。我們已經(jīng)組織了專(zhuān)班開(kāi)始做大數據抗疫情的工作?!甭?tīng)到這個(gè)消息,劉躍文坐不住了。云南是寒假旅游的熱門(mén)地區,疫情傳播期內全國各地人員流動(dòng)量極大且結構復雜,交叉感染風(fēng)險極高。如果不能有效控制云南的疫情,甚至有可能影響到全國的疫情防控。作為云南省公安廳大數據專(zhuān)家組組長(cháng),劉躍文覺(jué)得自己責無(wú)旁貸。和家人簡(jiǎn)單商量后,征得云南省公安廳同意,1月25日,農歷新年第一天,劉躍文帶著(zhù)家人前往昆明,加入到省廳緊急組建的大數據戰“疫”專(zhuān)班,著(zhù)手進(jìn)行疫情大數據分析和模型研發(fā)。大數據戰“疫”拉開(kāi)序幕,與疫情賽跑,分秒必爭。 戰“疫”專(zhuān)班開(kāi)會(huì )討論制定方案 防止疫情“輸入型”傳播:一秒鐘計算感染風(fēng)險 1月25日到28日這幾天,戰“疫”專(zhuān)班的主要工作是利用旅行大數據篩查近期去過(guò)疫源地(湖北)的人員。在篩查過(guò)程中,劉躍文發(fā)現了一些問(wèn)題:有很多人在公共交通工具中和疫源地來(lái)的人,甚至和確診病患接觸過(guò),自己根本不知道;還有些人知道自己接觸過(guò),但是覺(jué)得無(wú)所謂或者干脆不承認。這個(gè)問(wèn)題在基層一線(xiàn)摸排和核查時(shí),特別突出,基層只能找到武漢人、湖北人。然而,感染新冠病毒風(fēng)險的因素特別多,需要綜合判斷,基層人員根本無(wú)法及時(shí)獲取相關(guān)數據,也無(wú)法及時(shí)判斷一個(gè)人的風(fēng)險。綜合基層反饋來(lái)的問(wèn)題,劉躍文想,能不能基于旅行大數據做一個(gè)模型,輸入身份證號就立刻計算出被新冠病毒感染的風(fēng)險呢? 劉躍文基于他之前的一項科研成果,快速地搭建了一個(gè)新冠肺炎感染風(fēng)險預測模型。這個(gè)模型基于個(gè)人的旅行數據,自動(dòng)分析其是否到過(guò)疫源地、是否與疫源地人員接觸、是否與已感染病患接觸等多項指標,利用貝葉斯方法,計算感染新冠病毒的可能性指數,并預警高風(fēng)險人員。模型做完后,劉躍文又帶著(zhù)專(zhuān)班研發(fā)了新冠肺炎感染風(fēng)險預測系統。該系統可以通過(guò)掃描身份證、網(wǎng)頁(yè)查詢(xún)、批量計算等方式投入實(shí)際應用,計算一個(gè)人不到一秒鐘,快速地鎖定風(fēng)險。 劉躍文帶領(lǐng)團隊研發(fā)系統 在模型實(shí)現的過(guò)程中,戰“疫”專(zhuān)班遇到了人手不足的大問(wèn)題。公安廳研發(fā)團隊里的很多人都在老家過(guò)春節,如果臨時(shí)召集,他們在返程途中有被感染的風(fēng)險。于是,劉躍文決定靠著(zhù)很有限的人手,每個(gè)人承擔多角色、多任務(wù),用最短的時(shí)間把任務(wù)完成。劉躍文自己除了分析數據、研發(fā)模型,還要負責編寫(xiě)計算過(guò)程的核心代碼,每天至少工作到凌晨?jì)扇c(diǎn)。專(zhuān)班每個(gè)人都有特別急迫的感覺(jué),想把系統趕緊做出來(lái),服務(wù)基層一線(xiàn)。 基層一線(xiàn)干警利用系統現場(chǎng)核查 2月3日,新冠病毒感染風(fēng)險預測系統正式推廣使用,部署應用到云南省每一個(gè)檢查點(diǎn),很快就產(chǎn)生了顯著(zhù)的效果?;鶎右痪€(xiàn)有些同事反饋來(lái)消息說(shuō),已經(jīng)查到了高風(fēng)險人員,迅速移交隔離??吹侥P湍軒退麄冏R別風(fēng)險,提高工作效率,劉躍文特別開(kāi)心。這個(gè)風(fēng)險預測系統在后來(lái)一共使用了數百萬(wàn)次,識別出數百名高風(fēng)險人員,在一定程度上有效地阻止了“輸入型”疫情的傳播。 追溯疫情“聚集型”擴散:一分鐘追溯接觸人員 2月6日,戰“疫”專(zhuān)班對疫情傳播的形勢進(jìn)行了一次深入討論。大家一致認為,疫情傳播形勢正在從“輸入型”傳播向“聚集型”擴散轉變。到2月10日各地陸續復工復產(chǎn)之后,公共場(chǎng)所人員流動(dòng)將會(huì )大幅增加,新型冠狀病毒聚集型傳播的風(fēng)險就會(huì )增大。2月6日之后的幾天,媒體上頻繁出現“緊急擴散”尋找公共場(chǎng)所中接觸人員的新聞,反復地觸動(dòng)著(zhù)劉躍文的神經(jīng)。在媒體上“緊急擴散”是不可能快速準確地找回接觸人員的。能不能設計一種快速準確地追溯公共場(chǎng)所內接觸人員的系統,變“緊急擴散”到“主動(dòng)找回”呢? 經(jīng)過(guò)反復研討,2月9日,劉躍文編寫(xiě)了一個(gè)掃碼“抗疫情”追溯接觸人員的系統方案,提交給抗疫指揮部。掃碼“抗疫情”系統是一個(gè)基于微信小程序的輕量化系統。公共場(chǎng)所在其入口和出口處張貼系統生成的二維碼。市民在進(jìn)入和離開(kāi)公共場(chǎng)所時(shí),拿微信掃一下二維碼,就可以登記其停留信息。一旦有人被確診,就可以快速找回確診病患去公共場(chǎng)所時(shí)可能接觸的人員。劉躍文給自己定了個(gè)目標:“一分鐘”追溯接觸人員。 方案很快就得到了抗疫指揮部的認可,接著(zhù)又是兩日兩夜不眠不休的研發(fā)。2月12日,掃碼“抗疫情”系統在云南省全面推廣上線(xiàn),迅速得到了整個(gè)社會(huì )的廣泛接受和支持。截至2月27日,注冊的公共場(chǎng)所數量已經(jīng)接近100萬(wàn),用戶(hù)數超過(guò)1500萬(wàn),而掃碼量達到了2億多人次。 “云南抗疫情”微信小程序研發(fā)成功 看起來(lái)簡(jiǎn)單的“掃一掃”,背后有著(zhù)艱難的大數據“攻關(guān)”。要攻克的第一關(guān)是“數據量”關(guān)?!皰咭粧摺泵嫦虻氖侨?,高峰時(shí)期每分鐘有將近4萬(wàn)人次的掃碼量。這對于整個(gè)系統的壓力是極其巨大的。項目緊急上線(xiàn)后的第一個(gè)上午非??D,就是因為掃碼量遠遠超出了系統的承受能力。劉躍文帶領(lǐng)專(zhuān)班團隊與騰訊云平臺的團隊一起,齊心協(xié)力地逐個(gè)解決問(wèn)題,終于能平穩地接收所有的掃碼數據。 要攻克的第二關(guān)是“數據質(zhì)量”關(guān)。理想的情況下,一個(gè)人進(jìn)入場(chǎng)所時(shí)掃碼,離開(kāi)時(shí)也掃碼,就能知道這個(gè)人什么時(shí)候在這個(gè)場(chǎng)所里。然而實(shí)際上,70%以上的進(jìn)入掃碼沒(méi)有對應的離開(kāi)掃碼。在這種情況下,簡(jiǎn)單的邏輯判斷就失效了,要利用大數據方法盡可能準確地推斷出真實(shí)情況,“估計”出離開(kāi)時(shí)間。這個(gè)估計方法既要盡量準確,又不能過(guò)于復雜,否則可能會(huì )導致計算時(shí)間過(guò)長(cháng),嚴重影響效率。劉躍文經(jīng)過(guò)三天的努力,終于研究出來(lái)相應的大數據模型和算法。同時(shí),利用“空間換時(shí)間”的策略,在服務(wù)器空閑時(shí)計算先驗停留時(shí)長(cháng),從而解決了“一分鐘找回接觸人員”的問(wèn)題。 要攻克的第三關(guān)是“數據安全”關(guān)。系統在互聯(lián)網(wǎng)上運行,每一分鐘都有被濫用甚至被惡意攻擊的風(fēng)險。上線(xiàn)后第4天,后臺系統中就發(fā)現了木馬,專(zhuān)班人員在發(fā)現的第一時(shí)間就更換了服務(wù)器,萬(wàn)幸的是沒(méi)有造成任何損失。這一事件為數據安全敲響了警鐘。為了保護隱私數據不外泄,在專(zhuān)業(yè)安全團隊的幫助下,對系統做了全面的防護,保障了數據安全。 劉躍文參加云南省新聞發(fā)布會(huì )并講解 “云南抗疫情”微信小程序使用 艱辛的付出很快就產(chǎn)生了效果。2月20日,云南新增1例新冠肺炎確診病例。劉躍文將這名病患的手機號碼錄入系統后,僅用了30秒就篩選出204名與這名確診病患在公共場(chǎng)所內可能接觸過(guò)的人員名單,迅速發(fā)送給防疫指揮部,實(shí)現了“一分鐘內找回接觸人員”的目標。 市民出入公共場(chǎng)所掃碼“云南抗疫情”微信小程序 助力疫情后期經(jīng)濟復蘇:一天撰寫(xiě)數據分析報告 隨著(zhù)疫情形勢逐步好轉,復工復產(chǎn)開(kāi)始穩步推進(jìn)。2月24日,云南省疫情防控響應級別已經(jīng)由一級調整為省級三級。除了防控疫情的工作外,提給劉躍文的新問(wèn)題是,能不能用大數據評估目前復工復產(chǎn)的程度?防控疫情不能耽擱,復工復產(chǎn)同樣也不能耽擱。準確的數據分析報告,將有助于復工復產(chǎn)相關(guān)決策的制定,有助于經(jīng)濟的復蘇。接到任務(wù)后,劉躍文立刻組織專(zhuān)班成員開(kāi)了一個(gè)短會(huì ),評估了一下數據情況,制定了數據分析的方案,決定在一天之內完成報告。 要評估復工復產(chǎn)的程度,最難的是“基準線(xiàn)”不確定的問(wèn)題。例如,某個(gè)生產(chǎn)指標現在是30,要如何評估復工復產(chǎn)達到幾成呢?如果能夠知道,在沒(méi)有疫情的情況下現在的生產(chǎn)指標是100,那么就可以說(shuō),復工復產(chǎn)到了三成,這顯然是不可能知道的。劉躍文需要“推測”沒(méi)有疫情的情況下的生產(chǎn)指標。這個(gè)生產(chǎn)指標和去年同時(shí)段的生產(chǎn)指標是相關(guān)的,也和疫情發(fā)生前的生產(chǎn)指標是相關(guān)的,但又和這兩個(gè)指標不同。經(jīng)過(guò)反復研討,劉躍文最終用時(shí)間序列的方法計算出沒(méi)有疫情的“猜測”值,解決了評估復工復產(chǎn)程度的問(wèn)題。 劉躍文帶領(lǐng)戰“疫”專(zhuān)班成員一起討論問(wèn)題 為了快速完成分析報告,及時(shí)提交指揮部,劉躍文帶領(lǐng)專(zhuān)班團隊與時(shí)間賽跑,集體熬了一個(gè)通宵。大家分工合作,數據統計、繪制圖表、撰寫(xiě)材料等各項工作多頭并進(jìn),終于在早上8點(diǎn)前定稿。報告最終得到了指揮部的肯定,大家都露出了欣慰的笑容。 所有的工作成績(jì),都離不開(kāi)團隊的一起努力。劉躍文帶領(lǐng)的這個(gè)大數據戰“疫”專(zhuān)班主要有三支力量:第一支力量是bwin必贏(yíng)唯一官網(wǎng)劉躍文副教授及他的博士生團隊,主要是基于大數據研究社會(huì )行為,負責提供理論方法和模型;第二支力量是來(lái)自云南省公安廳科信處的民警,他們對云平臺和大數據非常熟悉,非常專(zhuān)業(yè);第三支力量是來(lái)自多個(gè)公司的工程師,為專(zhuān)班提供了強大的開(kāi)發(fā)力量。劉躍文帶著(zhù)專(zhuān)班團隊一起吃泡面、一起熬夜、一起戰斗,從沒(méi)有人叫過(guò)苦,喊過(guò)累。因為每個(gè)人心里都很清楚,大數據戰“疫”,分秒必爭!只有盡快戰勝疫情,才能重享碧水藍天。