芥末堆芥末堆

高校數(shù)據(jù)治理常見挑戰(zhàn)與對策

作者:汪瓊 發(fā)布時間:

高校數(shù)據(jù)治理常見挑戰(zhàn)與對策

作者:汪瓊 發(fā)布時間:

摘要:潛在的認知偏見和系統(tǒng)性種族偏見,既影響數(shù)據(jù)模型的設計,也影響對研究結果的解釋。

圖蟲創(chuàng)意-939133563243986949.jpg

圖源:圖蟲創(chuàng)意

*來源:中國教育網(wǎng)絡(ID:cernet),作者:汪瓊

高校數(shù)據(jù)分析最早是 IT 人員用于改進學校信息化基礎設施的管理運用,現(xiàn)在越來越多的學校開始使用數(shù)據(jù)分析來幫助推動學生獲取成功。

以數(shù)據(jù)分析項目為代表的數(shù)據(jù)治理領域已經(jīng)成為全球高校信息化發(fā)展的新熱點?!按髷?shù)據(jù)和學習分析的使用會改變教育領域”,這已經(jīng)成為眾多高校領導人的共識。在高校開展數(shù)據(jù)治理時會遇到一些挑戰(zhàn)(如數(shù)據(jù)質(zhì)量、數(shù)據(jù)獲取權限、數(shù)據(jù)運用倫理),先行者們也已經(jīng)探索出一些解決之道,提出了數(shù)據(jù)治理成功的關鍵因素。

高校數(shù)據(jù)治理常見挑戰(zhàn)與對策

在談到高校數(shù)據(jù)治理實踐時,一些受訪者提出常遇到如下的挑戰(zhàn):

挑戰(zhàn) 1如何讓各級領導層建立數(shù)據(jù)分析思維?

很多領導只是把自己作為數(shù)據(jù)的消費者,等待技術團隊提供可用的直觀工具。但是一個機構要實現(xiàn)數(shù)據(jù)治理,是需要業(yè)務部門提出需求和想法,并參與數(shù)據(jù)分析工具的設計與開發(fā)的,為此,就需要各級領導參與相關的培訓首先從建立數(shù)據(jù)素養(yǎng)和數(shù)據(jù)分析思維開始,提出業(yè)務工作中想利用數(shù)據(jù)解決的問題。

對很多大學來說,數(shù)據(jù)治理需要梳理決策邏輯、清理數(shù)據(jù),從哪個業(yè)務先開始往往不能統(tǒng)一意見。據(jù) 2018 年 6 月美國的一項 200 所高校領導人調(diào)查發(fā)現(xiàn),教學部門(如校長、教務長)會更關心學習產(chǎn)出、學生保持率和畢業(yè)率,信息技術部門則更關心如何提高大學的運營效率。在實踐中,可行的做法是優(yōu)先與能夠應用數(shù)據(jù)分析解決問題的團隊合作。

9eb9579e1e76b91a135ed0ab0ec16fcd.jpg

加州州立大學長灘分校(California State University, Long Beach)利用數(shù)據(jù)來提高畢業(yè)率。2015 年,啟動了the Data Fellows program,一個 55 人的團隊兩個月開一次會,討論與學生學業(yè)成功相關的指標。這個團隊成立的目的是建立數(shù)據(jù)所有權文化,形成推動變革的解決方案。

在長灘分校,四年畢業(yè)率在過去兩年(2016~2018) 從 16% 躍升至 28%,與此同時,少數(shù)族裔和非少數(shù)族裔學生的畢業(yè)率差距從 12% 下降到 4%。

挑戰(zhàn) 2如何保證所基于的數(shù)據(jù)具有高質(zhì)量?

基于數(shù)據(jù)決策的前提是數(shù)據(jù)可靠且相關,數(shù)據(jù)必須是“真實可信的”,否則“輸出將是誤導和無效的”。但是學校所收集的數(shù)據(jù)可能不完全,或者更新不及時。不完全的數(shù)據(jù),特別是不準確的數(shù)據(jù),可能會帶來更危險的決策。但是,所收集的數(shù)據(jù)來源多樣,種類豐富,也很容易出現(xiàn)同一個數(shù)據(jù)(比如一所高校的在校生人數(shù)) 從不同的部門得到的數(shù)值不一樣的情況。

IBM 認為,高質(zhì)量的數(shù)據(jù)具有以下四個特征:

  • 完整性(Completeness):要從所有可能的來源中關聯(lián)相關的數(shù)據(jù)。

  • 準確性(Accuracy):數(shù)據(jù)必須是正確的、一致的,沒有輸入錯誤。

  • 可用性(Availability):數(shù)據(jù)必須在需要時可以獲得。

  • 時效性(Timeliness):當下的數(shù)據(jù)必須可以獲得。

為了提高數(shù)據(jù)的質(zhì)量,可能需要多管齊下。

首先要制訂數(shù)據(jù)治理政策, 其次要開發(fā)和部署專門的工具來簡化數(shù)據(jù)收集過程。美國的大多數(shù)高校會選擇數(shù)據(jù)質(zhì)量工具通過數(shù)據(jù)清理、匹配、監(jiān)控和其他方式, 讓質(zhì)量保證過程自動化。

2129b31a8bc1ef3e7b24922a6996bc94.jpg

2013年圣母大學(University of Notre Dame)建立了商業(yè)智能(business intelligence)項目dataND ,經(jīng)過摸索,發(fā)現(xiàn)制訂數(shù)據(jù)治理政策非常有必要,即要定義數(shù)據(jù)是什么,如何使用這些數(shù)據(jù),誰應該有權訪問這些數(shù)據(jù)。其經(jīng)驗總結如下:

  1. 如何統(tǒng)一數(shù)據(jù)定義:雇傭了一個數(shù)據(jù)治理管家(a campus data steward)在部門之間協(xié)調(diào),建立關于數(shù)據(jù)的共識。

  2. 如何確定誰能訪問什么數(shù)據(jù):正確的問題不是這個業(yè)務是否需要這個數(shù)據(jù),而是獲取這個數(shù)據(jù)是否會給大學帶來風險,因為數(shù)據(jù)治理的目的是為了支持更廣泛地使用數(shù)據(jù),為了避免使用數(shù)據(jù)帶來的風險,要加強對能夠獲得數(shù)據(jù)的人進行培訓。當數(shù)據(jù)可能對大學造成重大傷害時,要有嚴格的限制。

挑戰(zhàn) 3如何獲得各部門系統(tǒng)的數(shù)據(jù)?

不少學校在開展數(shù)據(jù)治理的時候,會遇到部門數(shù)據(jù)共享的問題。

  • 一方面,一些部門不愿意分享所管理的數(shù)據(jù),比如,認為擁有某些數(shù)據(jù)是特權,或擔心數(shù)據(jù)安全;

  • 另一方面,即使部門愿意共享數(shù)據(jù),信息系統(tǒng)之間數(shù)據(jù)互通也會有技術障礙,比如,學校的信息系統(tǒng)有些是采購或定制的,供應商往往不太愿意做數(shù)據(jù)開放或數(shù)據(jù)導出接口,即使學校愿意在這方面做追加投資,也需要逐個系統(tǒng)去談。

有些系統(tǒng)有數(shù)據(jù)導出功能,可以定期導入到數(shù)據(jù)分析工具中,只是這些數(shù)據(jù)在利用時很難做到及時更新。數(shù)據(jù)需要在整個機構內(nèi)共享——分析不應該以豎井的形式進行,也不應該被視為機構內(nèi)部門的獨有特權。

f11c6986bffdbc99a8fba41f63cfeb24.jpg

范德比爾特大學 (Vanderbilt University) 建立了“自動數(shù)據(jù)質(zhì)量流程”,其信息系統(tǒng)能夠識別數(shù)據(jù)輸入錯誤, 所有數(shù)據(jù)問題最終都由學校數(shù)據(jù)治理團隊 (institutional data governance team) 解決。根據(jù)大學的說法,該團隊的任務是“建立數(shù)據(jù)治理政策、程序、標準和指南”,以最大化學校數(shù)據(jù)的價值。

挑戰(zhàn) 4數(shù)據(jù)使用邊界與倫理 

  • 使用學生數(shù)據(jù)進行學習分析會在多大程度上引發(fā)有關學生數(shù)據(jù)隱私的問題?

  • 高校如何使用和共享這些數(shù)據(jù) ? 

  • 如何審查依據(jù)數(shù)據(jù)的行動是否有倫理風險?

  • 當機器學習算法出錯,無意中引導學生走向錯誤的方向時,會發(fā)生什么情況?

目前有很多數(shù)據(jù)分析項目是基于歷史數(shù)據(jù)而做預測分析,但所有預測模型都受人類判斷的影響,數(shù)十年來對隱性偏見的研究表明,潛在的認知偏見和系統(tǒng)性種族偏見,既影響數(shù)據(jù)模型的設計,也影響對研究結果的解釋。比如,預測模型如果過度依賴關鍵的學生人口數(shù)據(jù),如財務狀況、家庭經(jīng)濟狀況、種族、性別或文化背景, 很容易使教育機會存在的歷史性結構不平等永久化。

預測分析模型另一個潛在偏見是“確認偏見”,當設計預測模型的人傾向于尋找并使用信息來支持他們自己已有的想法或信念時,就會發(fā)生這種情況。在這些情況下,不能支持他們思想的信息將被忽略或丟棄,“確認偏見”既會影響選擇(或未選擇)的數(shù)據(jù)類型,也會影響對那些數(shù)據(jù)相關的解釋。因此,“深入理解分析方法背后的假設”至關重要。

消除預測模型中偏見的一個方法就是承認它。要認識到數(shù)據(jù)的選擇、模型的定義、對發(fā)現(xiàn)的解釋,以及基于這些模型采取的行動不可避免地受到“隱性偏見”的影響。在數(shù)據(jù)上貼上預測分析標簽并不能確保判斷錯誤不會發(fā)生,也不能減輕這樣一個事實,即這些偏見在多樣性背景下是極其成問題的。因此,我們必須不斷挑戰(zhàn)數(shù)據(jù)的來源、假設、數(shù)據(jù)收集方法、數(shù)據(jù)的解釋和使用,特別是當數(shù)據(jù)涉及代表性不足群體或少數(shù)民族群體方面時。

在高等教育中,我們不僅要注重模擬結果的軌跡, 還要注重改變或破壞現(xiàn)有狀態(tài)結果的創(chuàng)新方法。在繼續(xù)推進數(shù)據(jù)驅(qū)動決策和預測模型分析的同時,必須牢記數(shù)據(jù)是可能有偏見的。

數(shù)據(jù)治理項目成功關鍵

已經(jīng)有一些數(shù)據(jù)分析項目獲得成功的高校總結出以下成功經(jīng)驗:

01管理層支持

學校管理層是真正希望獲取數(shù)據(jù),并努力盡可能多地使用這些數(shù)據(jù)。為此,要專門成立數(shù)據(jù)治理管理機構,組織人力花時間有效地挖掘數(shù)據(jù)。

c615eb796e45dc3084d1a89febf00b3d.jpg

普度大學(Purdue University) 的“院校研究、評估和有效性辦公室”(Office of Institutional Research, Assessment and Effectiveness) 設立了幾個委員會,專門負責高校數(shù)據(jù)治理政策和標準研究,甚至還設立了一個數(shù)據(jù)質(zhì)量小組(data quality subcommittee),專注于尋找數(shù)據(jù)質(zhì)量問題的解決方案。

02有強大的、標準化的基礎設施

數(shù)據(jù)分析需要更強大的技術架構和熟練的專業(yè)人員。

03直觀的用戶界面和報告 

研究用戶友好的數(shù)據(jù)分析產(chǎn)品,使更廣泛的校園工作人員參與設計和展示數(shù)據(jù)分析成為可能。當目標明確、可衡量的結果有針對性時,分析效果最佳。

04供應商透明度 

為了確保模型和算法是健全的、透明的、沒有偏見的,必須密切參與或了解預測模型和算法是如何構建的。

05持續(xù)培訓 

持續(xù)介紹有什么數(shù)據(jù)分析系統(tǒng)可用,如何使用,持續(xù)培訓會提高使用數(shù)據(jù)做決策的能力。

除了確保這些因素到位之外,重要的是確保教師、員工和學生具有數(shù)據(jù)讀寫技能,能有效地解析數(shù)據(jù),從而在所有領域?qū)崿F(xiàn)性能改進。

本文轉載自微信公眾號“中國教育網(wǎng)絡”,原載《中國教育網(wǎng)絡》雜志(10月刊),作者汪瓊,北京大學數(shù)字化學習研究中心教授。

1、本文是 芥末堆網(wǎng)轉載文章,原文:中國教育網(wǎng)絡;
2、芥末堆不接受通過公關費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源:中國教育網(wǎng)絡
芥末堆商務合作:王老師 18710003484
  • 高校數(shù)據(jù)治理常見挑戰(zhàn)與對策分享二維碼