當今,數(shù)據(jù)被視為新型生產(chǎn)力,國家層面的《數(shù)據(jù)安全法》與《個人信息保護法》等法律法規(guī)均強調(diào)了數(shù)據(jù)安全分類分級的重要性。金融、政務(wù)以及工業(yè)等領(lǐng)域的監(jiān)管機構(gòu)也相繼發(fā)布了各自行業(yè)的數(shù)據(jù)分類分級指南或指導意見,旨在推動這些措施的有效實施。然而在企事業(yè)單位實際落地數(shù)據(jù)分類分級過程中,仍面臨著諸如行業(yè)數(shù)據(jù)辨識困難、分類標準不易掌握、實施周期較長及成本較高等挑戰(zhàn),這導致高質(zhì)量的數(shù)據(jù)分類分級成果的實現(xiàn)仍具有一定的門檻。
“AI+數(shù)據(jù)安全分類分級”為上述問題提供有效解決方法。美創(chuàng)科技數(shù)據(jù)認知與分類分級系統(tǒng)(AICogniSort)是一款致力于通過AI智能化技術(shù),安全、高效、準確發(fā)現(xiàn)并識別國家、個人和組織安全所必須的各類分級數(shù)據(jù)的產(chǎn)品,通過精準打標,形成符合行業(yè)訴求的資產(chǎn)目錄,滿足安全合規(guī)、以及數(shù)據(jù)流動的安全防護需求。
傳統(tǒng)的元數(shù)據(jù)梳理流程是數(shù)據(jù)源的添加、掃描、采集、語義識別。通過引入大模型,美創(chuàng)數(shù)據(jù)認知與分類分級系統(tǒng)(AICogniSort)在元數(shù)據(jù)梳理上做到了三個增強:
增強支持非結(jié)構(gòu)化數(shù)據(jù)的分類分級:大模型基于自然語言理解能力,有非常好的上下文、切詞、分詞能力,可識別出區(qū)中的文本,判斷數(shù)據(jù)的標簽。
增強數(shù)據(jù)關(guān)系的梳理能力:對海量表、字段、樣本數(shù)據(jù)進行摸底梳理后,大模型可以更好的關(guān)聯(lián)到字段之間的關(guān)系,以知識拓撲的方式進行呈現(xiàn)增強識別語義的精準性:不管字段是拼音的、還是拼音首字母縮寫的,大模型都可通過樣本數(shù)據(jù)、表名、表注釋、字段之間的上下文更精準的識別語義。
盡管此前已有國標、行標指導,但是仍然面臨數(shù)據(jù)分類的劃分較粗略,或定義了共性的業(yè)務(wù)分類,無法完全直接應(yīng)用。而且根據(jù)常規(guī)數(shù)據(jù)分類分級項目經(jīng)驗:分類分級標準基本都需要進行個性化調(diào)整會占1/3實施周期。大模型加持后,標準的輸出可以縮短到1天完成,大量節(jié)省數(shù)據(jù)分類分級標準梳理時間。
傳統(tǒng)模式下,通過一個字段含義綁定一個分類和分級,實現(xiàn)自動分類分級的方式有兩個弊端。一是橫向的可復用能力比較少,二是字段含義的數(shù)量已達千萬級,無法通過人工維護。
而數(shù)據(jù)認知與分類分級系統(tǒng)(AICogniSort)基于大語言模型的自動化分類分級,對于標準沒有分類說明的,首先會對每個分類含義的補充和識別,然后進行字段的分類和分級。通過傳入行業(yè)信息、業(yè)務(wù)系統(tǒng)、表說明、字段含義等表,基于對語義和上下文的理解,高效匹配分類,同時還可通過分類依據(jù)和置信度,讓結(jié)果具有可解釋性和可信任性。
美創(chuàng)科技數(shù)據(jù)認知與分類分級系統(tǒng)(AICogniSort)在完成分類分級后會輸出3個重要清單:
重要/核心數(shù)據(jù)清單,基于合規(guī)需求,滿足數(shù)據(jù)上報要求。
分類分級結(jié)果清單,有助于精細化數(shù)據(jù)安全管控。
數(shù)據(jù)資產(chǎn)清單,基于業(yè)務(wù)層面數(shù)據(jù)目錄,方便取數(shù)、用數(shù),釋放數(shù)據(jù)價值。整體幫助用戶構(gòu)建可視化、可檢索、可管理的數(shù)據(jù)目錄。
通過數(shù)據(jù)認知與分類分級系統(tǒng)(AICogniSort)的分類分級結(jié)果可以用于數(shù)據(jù)安全治理、數(shù)據(jù)安全防護、數(shù)據(jù)上報、數(shù)據(jù)運維等多個層面,真正賦能數(shù)據(jù)應(yīng)用百態(tài)。
此外,數(shù)據(jù)認知與分類分級系統(tǒng)(AICogniSort)形態(tài)是基于高算力的一體機,日均處理字段高達45萬個。例如,對30萬字段的醫(yī)療數(shù)據(jù)進行分類分級應(yīng)用,整個實施周期包括分類分級確認僅需4天即可完成,而一般分類分級工具最少需要花費60天。
部署、應(yīng)用美創(chuàng)科技數(shù)據(jù)認知與分類分級系統(tǒng)(AICogniSort),低成本、高精度、高效能完成分類分級任務(wù)。我們希望在AI的賦能下,分類分級工作能夠以常態(tài)化和可持續(xù)的方式,不斷為業(yè)務(wù)數(shù)據(jù)安全賦能。