芥末堆芥末堆

高校數(shù)據(jù)治理常見(jiàn)挑戰(zhàn)與對(duì)策

作者:汪瓊 發(fā)布時(shí)間:

高校數(shù)據(jù)治理常見(jiàn)挑戰(zhàn)與對(duì)策

作者:汪瓊 發(fā)布時(shí)間:

摘要:潛在的認(rèn)知偏見(jiàn)和系統(tǒng)性種族偏見(jiàn),既影響數(shù)據(jù)模型的設(shè)計(jì),也影響對(duì)研究結(jié)果的解釋。

圖蟲(chóng)創(chuàng)意-939133563243986949.jpg

圖源:圖蟲(chóng)創(chuàng)意

*來(lái)源:中國(guó)教育網(wǎng)絡(luò)(ID:cernet),作者:汪瓊

高校數(shù)據(jù)分析最早是 IT 人員用于改進(jìn)學(xué)校信息化基礎(chǔ)設(shè)施的管理運(yùn)用,現(xiàn)在越來(lái)越多的學(xué)校開(kāi)始使用數(shù)據(jù)分析來(lái)幫助推動(dòng)學(xué)生獲取成功。

以數(shù)據(jù)分析項(xiàng)目為代表的數(shù)據(jù)治理領(lǐng)域已經(jīng)成為全球高校信息化發(fā)展的新熱點(diǎn)。“大數(shù)據(jù)和學(xué)習(xí)分析的使用會(huì)改變教育領(lǐng)域”,這已經(jīng)成為眾多高校領(lǐng)導(dǎo)人的共識(shí)。在高校開(kāi)展數(shù)據(jù)治理時(shí)會(huì)遇到一些挑戰(zhàn)(如數(shù)據(jù)質(zhì)量、數(shù)據(jù)獲取權(quán)限、數(shù)據(jù)運(yùn)用倫理),先行者們也已經(jīng)探索出一些解決之道,提出了數(shù)據(jù)治理成功的關(guān)鍵因素。

高校數(shù)據(jù)治理常見(jiàn)挑戰(zhàn)與對(duì)策

在談到高校數(shù)據(jù)治理實(shí)踐時(shí),一些受訪者提出常遇到如下的挑戰(zhàn):

挑戰(zhàn) 1如何讓各級(jí)領(lǐng)導(dǎo)層建立數(shù)據(jù)分析思維?

很多領(lǐng)導(dǎo)只是把自己作為數(shù)據(jù)的消費(fèi)者,等待技術(shù)團(tuán)隊(duì)提供可用的直觀工具。但是一個(gè)機(jī)構(gòu)要實(shí)現(xiàn)數(shù)據(jù)治理,是需要業(yè)務(wù)部門(mén)提出需求和想法,并參與數(shù)據(jù)分析工具的設(shè)計(jì)與開(kāi)發(fā)的,為此,就需要各級(jí)領(lǐng)導(dǎo)參與相關(guān)的培訓(xùn)首先從建立數(shù)據(jù)素養(yǎng)和數(shù)據(jù)分析思維開(kāi)始,提出業(yè)務(wù)工作中想利用數(shù)據(jù)解決的問(wèn)題。

對(duì)很多大學(xué)來(lái)說(shuō),數(shù)據(jù)治理需要梳理決策邏輯、清理數(shù)據(jù),從哪個(gè)業(yè)務(wù)先開(kāi)始往往不能統(tǒng)一意見(jiàn)。據(jù) 2018 年 6 月美國(guó)的一項(xiàng) 200 所高校領(lǐng)導(dǎo)人調(diào)查發(fā)現(xiàn),教學(xué)部門(mén)(如校長(zhǎng)、教務(wù)長(zhǎng))會(huì)更關(guān)心學(xué)習(xí)產(chǎn)出、學(xué)生保持率和畢業(yè)率,信息技術(shù)部門(mén)則更關(guān)心如何提高大學(xué)的運(yùn)營(yíng)效率。在實(shí)踐中,可行的做法是優(yōu)先與能夠應(yīng)用數(shù)據(jù)分析解決問(wèn)題的團(tuán)隊(duì)合作。

9eb9579e1e76b91a135ed0ab0ec16fcd.jpg

加州州立大學(xué)長(zhǎng)灘分校(California State University, Long Beach)利用數(shù)據(jù)來(lái)提高畢業(yè)率。2015 年,啟動(dòng)了the Data Fellows program,一個(gè) 55 人的團(tuán)隊(duì)兩個(gè)月開(kāi)一次會(huì),討論與學(xué)生學(xué)業(yè)成功相關(guān)的指標(biāo)。這個(gè)團(tuán)隊(duì)成立的目的是建立數(shù)據(jù)所有權(quán)文化,形成推動(dòng)變革的解決方案。

在長(zhǎng)灘分校,四年畢業(yè)率在過(guò)去兩年(2016~2018) 從 16% 躍升至 28%,與此同時(shí),少數(shù)族裔和非少數(shù)族裔學(xué)生的畢業(yè)率差距從 12% 下降到 4%。

挑戰(zhàn) 2如何保證所基于的數(shù)據(jù)具有高質(zhì)量?

基于數(shù)據(jù)決策的前提是數(shù)據(jù)可靠且相關(guān),數(shù)據(jù)必須是“真實(shí)可信的”,否則“輸出將是誤導(dǎo)和無(wú)效的”。但是學(xué)校所收集的數(shù)據(jù)可能不完全,或者更新不及時(shí)。不完全的數(shù)據(jù),特別是不準(zhǔn)確的數(shù)據(jù),可能會(huì)帶來(lái)更危險(xiǎn)的決策。但是,所收集的數(shù)據(jù)來(lái)源多樣,種類(lèi)豐富,也很容易出現(xiàn)同一個(gè)數(shù)據(jù)(比如一所高校的在校生人數(shù)) 從不同的部門(mén)得到的數(shù)值不一樣的情況。

IBM 認(rèn)為,高質(zhì)量的數(shù)據(jù)具有以下四個(gè)特征:

  • 完整性(Completeness):要從所有可能的來(lái)源中關(guān)聯(lián)相關(guān)的數(shù)據(jù)。

  • 準(zhǔn)確性(Accuracy):數(shù)據(jù)必須是正確的、一致的,沒(méi)有輸入錯(cuò)誤。

  • 可用性(Availability):數(shù)據(jù)必須在需要時(shí)可以獲得。

  • 時(shí)效性(Timeliness):當(dāng)下的數(shù)據(jù)必須可以獲得。

為了提高數(shù)據(jù)的質(zhì)量,可能需要多管齊下。

首先要制訂數(shù)據(jù)治理政策, 其次要開(kāi)發(fā)和部署專(zhuān)門(mén)的工具來(lái)簡(jiǎn)化數(shù)據(jù)收集過(guò)程。美國(guó)的大多數(shù)高校會(huì)選擇數(shù)據(jù)質(zhì)量工具通過(guò)數(shù)據(jù)清理、匹配、監(jiān)控和其他方式, 讓質(zhì)量保證過(guò)程自動(dòng)化。

2129b31a8bc1ef3e7b24922a6996bc94.jpg

2013年圣母大學(xué)(University of Notre Dame)建立了商業(yè)智能(business intelligence)項(xiàng)目dataND ,經(jīng)過(guò)摸索,發(fā)現(xiàn)制訂數(shù)據(jù)治理政策非常有必要,即要定義數(shù)據(jù)是什么,如何使用這些數(shù)據(jù),誰(shuí)應(yīng)該有權(quán)訪問(wèn)這些數(shù)據(jù)。其經(jīng)驗(yàn)總結(jié)如下:

  1. 如何統(tǒng)一數(shù)據(jù)定義:雇傭了一個(gè)數(shù)據(jù)治理管家(a campus data steward)在部門(mén)之間協(xié)調(diào),建立關(guān)于數(shù)據(jù)的共識(shí)。

  2. 如何確定誰(shuí)能訪問(wèn)什么數(shù)據(jù):正確的問(wèn)題不是這個(gè)業(yè)務(wù)是否需要這個(gè)數(shù)據(jù),而是獲取這個(gè)數(shù)據(jù)是否會(huì)給大學(xué)帶來(lái)風(fēng)險(xiǎn),因?yàn)閿?shù)據(jù)治理的目的是為了支持更廣泛地使用數(shù)據(jù),為了避免使用數(shù)據(jù)帶來(lái)的風(fēng)險(xiǎn),要加強(qiáng)對(duì)能夠獲得數(shù)據(jù)的人進(jìn)行培訓(xùn)。當(dāng)數(shù)據(jù)可能對(duì)大學(xué)造成重大傷害時(shí),要有嚴(yán)格的限制。

挑戰(zhàn) 3如何獲得各部門(mén)系統(tǒng)的數(shù)據(jù)?

不少學(xué)校在開(kāi)展數(shù)據(jù)治理的時(shí)候,會(huì)遇到部門(mén)數(shù)據(jù)共享的問(wèn)題。

  • 一方面,一些部門(mén)不愿意分享所管理的數(shù)據(jù),比如,認(rèn)為擁有某些數(shù)據(jù)是特權(quán),或擔(dān)心數(shù)據(jù)安全;

  • 另一方面,即使部門(mén)愿意共享數(shù)據(jù),信息系統(tǒng)之間數(shù)據(jù)互通也會(huì)有技術(shù)障礙,比如,學(xué)校的信息系統(tǒng)有些是采購(gòu)或定制的,供應(yīng)商往往不太愿意做數(shù)據(jù)開(kāi)放或數(shù)據(jù)導(dǎo)出接口,即使學(xué)校愿意在這方面做追加投資,也需要逐個(gè)系統(tǒng)去談。

有些系統(tǒng)有數(shù)據(jù)導(dǎo)出功能,可以定期導(dǎo)入到數(shù)據(jù)分析工具中,只是這些數(shù)據(jù)在利用時(shí)很難做到及時(shí)更新。數(shù)據(jù)需要在整個(gè)機(jī)構(gòu)內(nèi)共享——分析不應(yīng)該以豎井的形式進(jìn)行,也不應(yīng)該被視為機(jī)構(gòu)內(nèi)部門(mén)的獨(dú)有特權(quán)。

f11c6986bffdbc99a8fba41f63cfeb24.jpg

范德比爾特大學(xué) (Vanderbilt University) 建立了“自動(dòng)數(shù)據(jù)質(zhì)量流程”,其信息系統(tǒng)能夠識(shí)別數(shù)據(jù)輸入錯(cuò)誤, 所有數(shù)據(jù)問(wèn)題最終都由學(xué)校數(shù)據(jù)治理團(tuán)隊(duì) (institutional data governance team) 解決。根據(jù)大學(xué)的說(shuō)法,該團(tuán)隊(duì)的任務(wù)是“建立數(shù)據(jù)治理政策、程序、標(biāo)準(zhǔn)和指南”,以最大化學(xué)校數(shù)據(jù)的價(jià)值。

挑戰(zhàn) 4數(shù)據(jù)使用邊界與倫理 

  • 使用學(xué)生數(shù)據(jù)進(jìn)行學(xué)習(xí)分析會(huì)在多大程度上引發(fā)有關(guān)學(xué)生數(shù)據(jù)隱私的問(wèn)題?

  • 高校如何使用和共享這些數(shù)據(jù) ? 

  • 如何審查依據(jù)數(shù)據(jù)的行動(dòng)是否有倫理風(fēng)險(xiǎn)?

  • 當(dāng)機(jī)器學(xué)習(xí)算法出錯(cuò),無(wú)意中引導(dǎo)學(xué)生走向錯(cuò)誤的方向時(shí),會(huì)發(fā)生什么情況?

目前有很多數(shù)據(jù)分析項(xiàng)目是基于歷史數(shù)據(jù)而做預(yù)測(cè)分析,但所有預(yù)測(cè)模型都受人類(lèi)判斷的影響,數(shù)十年來(lái)對(duì)隱性偏見(jiàn)的研究表明,潛在的認(rèn)知偏見(jiàn)和系統(tǒng)性種族偏見(jiàn),既影響數(shù)據(jù)模型的設(shè)計(jì),也影響對(duì)研究結(jié)果的解釋。比如,預(yù)測(cè)模型如果過(guò)度依賴關(guān)鍵的學(xué)生人口數(shù)據(jù),如財(cái)務(wù)狀況、家庭經(jīng)濟(jì)狀況、種族、性別或文化背景, 很容易使教育機(jī)會(huì)存在的歷史性結(jié)構(gòu)不平等永久化。

預(yù)測(cè)分析模型另一個(gè)潛在偏見(jiàn)是“確認(rèn)偏見(jiàn)”,當(dāng)設(shè)計(jì)預(yù)測(cè)模型的人傾向于尋找并使用信息來(lái)支持他們自己已有的想法或信念時(shí),就會(huì)發(fā)生這種情況。在這些情況下,不能支持他們思想的信息將被忽略或丟棄,“確認(rèn)偏見(jiàn)”既會(huì)影響選擇(或未選擇)的數(shù)據(jù)類(lèi)型,也會(huì)影響對(duì)那些數(shù)據(jù)相關(guān)的解釋。因此,“深入理解分析方法背后的假設(shè)”至關(guān)重要。

消除預(yù)測(cè)模型中偏見(jiàn)的一個(gè)方法就是承認(rèn)它。要認(rèn)識(shí)到數(shù)據(jù)的選擇、模型的定義、對(duì)發(fā)現(xiàn)的解釋?zhuān)约盎谶@些模型采取的行動(dòng)不可避免地受到“隱性偏見(jiàn)”的影響。在數(shù)據(jù)上貼上預(yù)測(cè)分析標(biāo)簽并不能確保判斷錯(cuò)誤不會(huì)發(fā)生,也不能減輕這樣一個(gè)事實(shí),即這些偏見(jiàn)在多樣性背景下是極其成問(wèn)題的。因此,我們必須不斷挑戰(zhàn)數(shù)據(jù)的來(lái)源、假設(shè)、數(shù)據(jù)收集方法、數(shù)據(jù)的解釋和使用,特別是當(dāng)數(shù)據(jù)涉及代表性不足群體或少數(shù)民族群體方面時(shí)。

在高等教育中,我們不僅要注重模擬結(jié)果的軌跡, 還要注重改變或破壞現(xiàn)有狀態(tài)結(jié)果的創(chuàng)新方法。在繼續(xù)推進(jìn)數(shù)據(jù)驅(qū)動(dòng)決策和預(yù)測(cè)模型分析的同時(shí),必須牢記數(shù)據(jù)是可能有偏見(jiàn)的。

數(shù)據(jù)治理項(xiàng)目成功關(guān)鍵

已經(jīng)有一些數(shù)據(jù)分析項(xiàng)目獲得成功的高??偨Y(jié)出以下成功經(jīng)驗(yàn):

01管理層支持

學(xué)校管理層是真正希望獲取數(shù)據(jù),并努力盡可能多地使用這些數(shù)據(jù)。為此,要專(zhuān)門(mén)成立數(shù)據(jù)治理管理機(jī)構(gòu),組織人力花時(shí)間有效地挖掘數(shù)據(jù)。

c615eb796e45dc3084d1a89febf00b3d.jpg

普度大學(xué)(Purdue University) 的“院校研究、評(píng)估和有效性辦公室”(Office of Institutional Research, Assessment and Effectiveness) 設(shè)立了幾個(gè)委員會(huì),專(zhuān)門(mén)負(fù)責(zé)高校數(shù)據(jù)治理政策和標(biāo)準(zhǔn)研究,甚至還設(shè)立了一個(gè)數(shù)據(jù)質(zhì)量小組(data quality subcommittee),專(zhuān)注于尋找數(shù)據(jù)質(zhì)量問(wèn)題的解決方案。

02有強(qiáng)大的、標(biāo)準(zhǔn)化的基礎(chǔ)設(shè)施

數(shù)據(jù)分析需要更強(qiáng)大的技術(shù)架構(gòu)和熟練的專(zhuān)業(yè)人員。

03直觀的用戶界面和報(bào)告 

研究用戶友好的數(shù)據(jù)分析產(chǎn)品,使更廣泛的校園工作人員參與設(shè)計(jì)和展示數(shù)據(jù)分析成為可能。當(dāng)目標(biāo)明確、可衡量的結(jié)果有針對(duì)性時(shí),分析效果最佳。

04供應(yīng)商透明度 

為了確保模型和算法是健全的、透明的、沒(méi)有偏見(jiàn)的,必須密切參與或了解預(yù)測(cè)模型和算法是如何構(gòu)建的。

05持續(xù)培訓(xùn) 

持續(xù)介紹有什么數(shù)據(jù)分析系統(tǒng)可用,如何使用,持續(xù)培訓(xùn)會(huì)提高使用數(shù)據(jù)做決策的能力。

除了確保這些因素到位之外,重要的是確保教師、員工和學(xué)生具有數(shù)據(jù)讀寫(xiě)技能,能有效地解析數(shù)據(jù),從而在所有領(lǐng)域?qū)崿F(xiàn)性能改進(jìn)。

本文轉(zhuǎn)載自微信公眾號(hào)“中國(guó)教育網(wǎng)絡(luò)”,原載《中國(guó)教育網(wǎng)絡(luò)》雜志(10月刊),作者汪瓊,北京大學(xué)數(shù)字化學(xué)習(xí)研究中心教授。

1、本文是 芥末堆網(wǎng)轉(zhuǎn)載文章,原文:中國(guó)教育網(wǎng)絡(luò);
2、芥末堆不接受通過(guò)公關(guān)費(fèi)、車(chē)馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫(xiě)信息告訴我們。
來(lái)源:中國(guó)教育網(wǎng)絡(luò)
芥末堆商務(wù)合作:王老師 18710003484
  • 高校數(shù)據(jù)治理常見(jiàn)挑戰(zhàn)與對(duì)策分享二維碼