編者按:數據開放和數據獲取渠道開放,是否與隱私保護、倫理道德間存在矛盾,如何處理幾者間的關系?作者分別訪問了蓋茨基金會、斯坦福大學、印第安納大學,對研究之前是否需要進行倫理審查進行咨詢,但均未給出正面回應或者直接拒絕回答此類問題,說明在數據開放下,隱私保護和倫理道德現狀堪憂。在大數據時代,只注重大數據開放發展,不注重大數據安全保護,將會給世界帶來一場災難;數據開放與保護,就像是處在天平的兩端,兩者同等重要、缺一不可,必須辯證看待,在開放中保護,在保護中開放。

  在這星期內,我的收件箱并沒有充斥著來自出版商、大學、基金會和非盈利組織發布的最新數據開放和數據獲取渠道規劃的大量公告。這一發現很奇妙,世界上的研究成果可以開放閱讀、重復使用和復制,但到目前為止研究的焦點幾乎都在研究的最終結果上,而應該首先進行什么研究的初步倫理審查仍然是保密的。這是否意味著我們在“開放數據”和“數據獲取渠道”的同時應該增加“倫理開放”?

  當談到“大數據”研究時,很多人認為同行評審流程和機構倫理審查流程(倫理委員會或學術用語“IRB”)確保了創新與倫理道德之間的適當平衡,但正如我去年發現的一樣,即使在受人矚目的道德討論后,例如在臉譜網和和康奈爾大學以及美國國家學術出版社一起合作的情緒研究中,臉譜網幾乎沒有做出任何改變,而后兩者也沒有做出任何改變或僅在事后做出的微小改變。

  我們所生活的世界很多“大數據”研究都是秘密進行的,直到它們發布或泄露那一刻,導致泄露的主要原因是由于技術團隊以意想不到的方式使用數據,頻繁地突破隱私和倫理的界限。許多人來自沒有任何倫理研究歷史的領域,這些領域的期刊或者資助者,包括聯邦資助機構大部分都采取不干預政策,讓研究人員自己檢查或直接免除對整個領域的倫理審查,因為隱私和倫理研究不是該領域以前研究的重點,或因關注倫理研究對“拒絕擴展他們的(倫理)范圍,以涵蓋社會和行為科學”的研究人員來說是不公平的。

  一名心理學家管理著一批自愿參加測試的人,他們都參與了研究報告,心理學家通過一系列的協議來評估他們的各種心理特征和缺陷,他們的名字和特點以及照片可能永遠無法出現在文學作品上,不能讓世人都看到。然而,計算機科學家收集了數以百萬計的不知情的人的Facebook資料(包括兒童),并通過一套情感挖掘算法來分析,以估計高度敏感的情緒狀態,如抑郁癥會怎么做,并將結果作為公共數據發布,其中包括每個人的真實姓名、他們大致的家庭住址和模糊的照片,以上這些他們都沒有與倫理審查者進行交流,并且這些數據在全世界已共享數百萬次了。數據集只有受到媒體和知名度高的倫理學家的關注才有公開討論的可能(即使最終被取消了),可能導致有無數的備份并在鏡像網站上出現,讓這些數據最終產生更多的數據集和出版物。

  這就是今天我們生活的研究倫理的世界:對結果的不懈關注和我們可以做些什么,這些決定都是秘密進行的,而不是公開坦率的討論作為一個社會的人應該做些什么。也許是社會管理者下意識地決定將倫理和隱私排除在研究要考慮的因素之外,但這些決定應該在公開場合進行,并成為公開記錄的一部分,而不是秘密進行只有少數人知道。

  去年12月份,蓋茨基金會給我發送了一封電子郵件,慶祝他們開放獲取內容政策的全面啟動,“要求所有已發表的基金資助的研究都是免費的、立即可獲取的,基礎數據有權重復使用——沒有例外”,一個月后,“所有由基金會資助的研究包括基礎數據都必須完全開放,并可自由、立即訪問?!?/p>

  蓋茨基金履行了開放獲取渠道的承諾,特別是它要求數據集可以公開使用,這些行為都值得贊揚。然而當問道基金會是否會有類似的要求,即公開其項目的倫理研究審查或者是否會考慮這一要求時,基金會回答說“其為開放獲取渠道的努力,不是為了解決這些問題”,而是“為一個普遍的問題,我們的資助人要對他們的項目負責?!彼麄冇型鶕羞m用的法律和道德標準來管理他們的項目,包括獲得適用于該項目的同意和批準。

  簡而言之,蓋茨基金會對開放性研究的重心停留在研究資金的輸出上,而這項研究的倫理和理由被排在首位,在此過程中提出的任何問題仍然是研究人員自己的責任,基金會沒有興趣使該過程更加透明或開放。一個給定的項目是否接受過任何倫理道德審查?由于使用公共數據,無需對其方法或問題進行進一步審查,因此也可以正式免除其倫理審查?這個項目是否已審查過,得到一致的支持,沒有任何顧慮?或者這個項目經歷了一年多的辯論,有相當多的異議,或者研究人員是否去向他們大學法律系的求助,免去進一步審查的辦法?在我探究倫理學研究的過程中,我發現在這幾種情形下有相對應的幾個例子。然而,公眾和其他研究人員永遠不會知道一項研究是如何進行的——他們只會在雜志上看到一篇文章,和一篇新聞稿,用以宣傳這項研究的驚人之處。關于這項研究是否應該發生的爭論幾乎完全是秘密進行的,甚至連學者們都無法知曉。

  接觸了研究“大數據”相關的幾所主要大學,產生了一種大體一致的觀點,都一致認為倫理研究不應該公開。我向哥倫比亞大學詢問:是否要求教師和工作人員在開展研究倫理審查之前提交大量使用過的在線數據集如社交媒體、瀏覽的網頁,尤其是對那些從事在社交媒體中收集用戶個人信息的工作,為了研究工作是否允許其研究人員蓄意違反服務條款或者從盜竊的犯罪數據中獲得所需數據,如使用偷來的醫療記錄。一位發言人向我介紹了他們的IRB網站,但是當被問到這些具體問題時,該大學表示,他們正式拒絕回答任何問題。當像哥倫比亞一樣享有聲譽的機構,在“大數據”研究中投入近1億美元時,決定正式拒絕發表看法,而不是討論如何確保其研究中的道德行為,它充分說明了當今“大數據”中倫理研究的現狀。

  同樣的問題斯坦福大學給了一個相對詳細的回答,提及了人類學研究政策,并指出“包含個人身份信息”的“公開可使用”數據需要IRB審查,但事實上可能并不總是如此。 一位發言人指出“對于來自如社交媒體的外部大數據的研究,學??赡苄枰扰c提供原始數據的機構達成協議?!眻绦袇f議的過程將包括隱私審查,以確定該大學是否能夠接受數據的所有權,在數據移交給大學進行研究之前,這些數據必須符合所有的隱私法和其要求。為了做研究大學將“擁有”這些數據,但如果無法核實數據的來源,他們將不會接受這些數據。當我問道有教員用網絡爬蟲程序收集自己的數據檔案,而不是獲取現有商業數據集這種情況時,大學發言人說道:我們無法做出評論,因為這類研究是否批準將取決于具體情況,需要進一步評估。當問道某個教師違反商業網站使用條款的具體案例時,她說“我們有政策規定,禁止教師如你所述那樣進行研究”,并指著他們的研究手冊給我看。然而,我還問到,斯坦福大學教員在被雇傭前就已經出版了的文章,是否同樣適用斯坦福大學的研究方面規定,她回答我說,如果教師沒有提交包括研究細節的審查,學校是無法對此作出回應的,但上述提到的政策仍將保持不變。

  盡管學校對倫理細節很關注,但當問及某個已通過倫理審查的項目,斯坦福大學是否允許公眾和其他研究人員對此進行再次審核,看研究員是如何對他們的項目進行倫理論證,發言人說“我們不支持公共訪問?!痹谠S多情況下,發布某項研究草案還為時過早,因為研究的目標是確定一個研究是否有效。我們也對贊助的研究進行調查,但贊助商通常需要保密。如果涉及到關于倫理道德的問題,那么倫理審查可以由 IRB提出、或審查人員或專家小組提出。

  像大多數大型研究機構一樣,斯坦福大學進行了大量外部資助的研究,但值得注意的是,斯坦福大學的立場是,這種倫理研究必須遠離公眾視野,就像資助機構在內部進行研究一樣。簡而言之,像臉譜網這樣的公司不管用自己的研究人員進行研究或者否雇用斯坦福大學進行研究,在這兩種情況下倫理研究都是秘密進行的。學術界的透明似乎暫時阻止了道德透明化。

  對印第安那大學的采訪在該問題上沒有多大幫助。我向項目負責人問及美國國家科學基金會資助的近一百萬美元的“揭示真相”項目,以及關于他批準的 IRB 關于該項目的倫理提案副本,和他如何處理他的社交媒體分析平臺的一些倫理問題時,他表示他的項目已獲得IRB批準,但他拒絕提供IRB的批準或與此項目有關的任何細節的副本,相反,他把我介紹給了印第安納大學研究院的副院長,后者又把我介紹給了傳播系的副主任,但最終我的問題也沒有得到回應。一份看似是NSF提案的副本被發布到了學校其中的一個教職工網站,全文都沒有提到“倫理”這個詞,“隱私”只提到過一次,在涉及隱私問題的背景下,讓倫理研究進展變得更加困難,“在收集數據和大量相關數據的問題上,與隱私有關的困難阻礙了更快的進展?!庇捎凇敖沂菊嫦唷表椖渴怯擅绹鴩铱茖W基金會用納稅人的錢資助的,我向NSF咨詢是否可以提供一份NSF批準這一項目的副本。一位發言人回應說,國家科學基金會只有在《信息自由法案》要求之后才會提供這些文件,并且它保留對此類訪問收取費用的權利。

  當有人要求審查網上的隱私和個人信息是如何通過聯邦政府資助的一個公立大學的項目來處理的 ,負責監督這個項目的教員拒絕提供這些資料的獲取渠道,學校也沒有對我提出的多個請求做出回應,用納稅人資金支持該項目的聯邦資助機構說允許審查這些材料的唯一方法是通過《自由信息法案》的要求,它保留對此類訪問收取費用的權利。同樣,我向獲得美國國際開發署獎項(這一獎項涉及大量在外網下載資料的資料,這些資料可能會違反其使用條款,和公布個人資料的可能性)的兩個紐約大學的研究員咨詢,想要看IRB 提案的副本,以便了解 IRB 是如何審查這類項目的,對此他們也沒有做過多的回應,紐約大學公共事務系副主任對重復的請求也沒有做出回應。

  總之,研究員們似乎非常不愿意分享他們工作中關于倫理考慮的任何信息,他們把倫理道德看做是需要克服的一部分障礙,而不是必須遵守的道德準則。

  去年六月我第一篇關于數字倫理的文章想要從哈佛大學獲得相關的意見,但多次嘗試均以失敗告終,而這一次學校響應速度如此之快。一位發言人澄清說,對于某些研究,除IRB批準外,還需要院長對此審核。該大學最初指出,對于特別敏感的研究,比如使用被盜數據,“我們不太可能批準這樣的使用,特別是如果數據是非法獲得的可能會導致個人身份泄露?!比欢?,當被要求對最近一份出版物中使用非法數據進行評論時,發言人說,這項研究已獲得哈佛IRB和“院長審查(Provostial Review)”程序的批準,在使用非法發布的數據(如盜竊數據)的情況下,將會受到嚴格的審查,數據的來源也會受到嚴格的審查,怎樣獲得和從哪里獲得這些數據都是它是否被批準的主要因素。 我們一般認為公共領域的信息公眾是可以使用的(例如通過媒體,公共網站,報紙等)。

  然而,與其他大學一樣,當被問及公眾或相關的學術研究員需要一份哈佛大學關于倫理道德審查的副本需要的流程時,該發言人回應說她不記得有這樣的請求,但是“如果收到這樣的請求 我們當然會做出回應?!比缓?,她又對IRB的提議進行了闡述,其中包括了調查人員試圖證明的假說、實驗過程/方法、用于保護私人信息的過程(例如,他們在發表前如何去除可識別的信息);以及數據安全措施。這些信息的披露對研究人員(例如,其未公開的方法被公開后,會有潛在的知識產權損失)或研究對象(例如,公開去除身份識別的方法和數據安全措施將會增加未經授權的訪問或識別的可能性)都是有害的。這就是為什么在《信息自由法案》下發布的文件被大量修改的原因之一。她還指出,“IRB的批準包括IRB和研究人員之間的、對批準內容的澄清或細節的多次交流”,并且發布這樣的批準信息需要相當大的努力來掩蓋IRB審查者的身份。

  因此,與斯坦福大學相似,哈佛大學引用了對其研究中倫理審查秘密進行的必要性,以保護研究人員不受外部影響。從這個觀點來看,研究人員在他們發表內容前會害怕別人“剽竊”或竊取他們的想法,目前尚不清楚為什么在研究發表后不少評論仍然不能公開發布,特別是IRB認為是倫理和隱私的部分。

  更讓人覺得苦惱的是,發表的文獻通常強調的是成功的研究,而學術研究的本質意味著,對于給定的數據集,許多問題可能無法達到可發表的要求。這意味著,每一天,學術研究人員都會問一些我們永遠不會聽到的數據問題,因為他們沒有得到研究人員認為可以發表的東西或者是沒有期刊接受并出版。

  更重要的是,研究受到道德上的困擾,期刊拒絕發表認為這種研究是不道德的,它可能永遠不會被發表,這意味著更廣泛的研究團體和公眾將永遠不會知道這一點。

  然而,也許在“大數據”研究中免于倫理審查最常見的方法是“公共數據”豁免,對于“公共數據”很多大學不需要IRB審查或利用快速審查的方法,如果研究中利用了公眾普遍可用的數據集,則可以在第一階段對倫理審查進行豁免。在這種情況下,如果工作完全依賴于可以在網上找到的已有數據,IRB通常會免除其余的研究,包括方法和隱私問題。

  最近,我偶然發現了梅隆基金會向滑鐵盧大學提供資金的新聞稿,以資助對網絡檔案的大規模研究,其中至少有兩個一起合作的研究機構有使用大型網絡檔案的研究歷史。在電子郵件中,研究人員強調了他們為研究收集的網絡檔案資料的數量,并且他們對擁有大量網絡檔案數據的組織感興趣,以使用他們正在開發的新平臺。

  當被問及他們開發的軟件工具是否有助于分析網絡檔案時,是否包含了任何隱私或其他倫理方面的考慮,例如,允許禁止對某些隱私進行查詢,或使用人口特征的數據集進行警告或禁用可能引起隱私問題的查詢,研究人員回答說,他們的工具只是傳統的分析工具,專注于盡可能多的提出問題,而不是回避詢問是否有的問題不應該問(事實上,印第安納大學的NSF-funded Twitter 分析平臺的確如此)。

  最近,我偶然發現了梅隆基金會向滑鐵盧大學提供資金的新聞稿,以資助對網絡檔案的大規模研究,其中至少有兩個一起合作的研究機構有使用大型網絡檔案內容的研究歷史。在電子郵件中,研究人員強調了他們為研究收集的網絡檔案數量,并且他們對擁有大量網絡檔案數據的組織感興趣,以使用他們正在開發的新平臺。

  盡管多次向研究員詢問,是否梅隆基金資助的項目或其他網絡檔案研究員已經進行了正式的機構倫理審查,如對于IRB審查,項目負責人拒絕回答,而只表示他們的工作是“完全符合滑鐵盧大學的所有道德準則和政策”。一位大學發言人隨后澄清說,“是否需要道德審查取決于項目”,“總的來說,我知道公眾可以合法獲取的信息,受到法律保護的信息,如果隱私需求不合理,就不需要道德審查?!?/p>

  鑒于大學發言人的澄清,網絡檔案研究可能并不需要倫理審查 ,加上研究人員堅決拒絕確認他的工作是否曾經過倫理審查,目前尚不清楚是否真的有獨立的倫理審查。特別是研究人員先前的工作已經詳細分析了GeoCities 網站的歷史檔案,包括對社區領袖等這樣特定的個人進行分析。這項工作還涉及檢查網站的視覺內容。由于GeoCities網站可以并且確實包含了相當多的個人識別信息,包括個人全名、照片和許多其他細節,目前尚不清楚這種研究多大程度上受同行倫理審查的影響,以及用于證明其合理性的具體論證,以確保此類研究不會造成不必要的隱私擔憂。研究人員拒絕回答他們的GeoCities工作是否受到了IRB或其他倫理機構的審查,只說明他們原來的工作申明內容,即他們的工作是與大學政策相結合的。

  梅隆大學撥款的讓感興趣的研究人員聚集在一起,共同創建工具并對大型網絡檔案進行分析。他們最近的一次活動是上個月在大英圖書館舉辦的,其中包括了兩個與英國相關的數據集:“UK Government Web Archive ——2010英國大選數據收集”,以及“UK Government Web Archive ——公眾調查、皇家委員會、審查和調查數據?!碑斘蚁虼笥D書館詢問如何處理其網絡檔案內容研究的倫理審查時,一位發言人向我介紹了他們的研究政策,尤其是他們的良好實踐規范指南。這些指導方針規定:“圖書館應承擔主要責任,確保在其作為牽頭研究組織的項目和合作中保持道德操守”。由其他研究組織牽頭的合作項目主要由該組織的倫理研究政策和程序來監管。然而,大英圖書館的工作人員必須確保這些程序涵蓋項目涉及到的各方面倫理道德。該政策還要求“在許多類似的情況下,該項目將由合作伙伴組織牽頭,此時該項目主要通過牽頭組織的公司治理和倫理研究流程進行管理。圖書館不希望做重復工作。在一些研究合作中,相關的倫理研究問題可能由牽頭研究機構和/或參與該項目的其他機構或贊助商來解決。不過,在這種情況下,參與該項目的大英圖書館工作人員繼續參考這一實踐守則是非常必要的。特別是對于由外部合作伙伴的政策和程序管理的項目,大英圖書館的工作人員必須確保這些程序涵蓋項目涉及到的所有倫理道德?!薄按送?,根據這些倫理審查的項目的一般清單,“研究是否涉及與直接可識別的與人類主題相關的數據的使用或創建?”以及“研究是否需要特別關注知識產權或版權方面的問題?”

  當問及這些倫理審查是否適用于檔案館中提供的兩份英國數據集時,該圖書館的發言人表示,圖書館無法對此發表評論?;F盧大學也組織了這次活動,我向他們咨詢,是否要求參加者事先提交他們擬議的項目以進行倫理審查,特別是涉及英國的兩個數據集的項目是否要提交給大英圖書館進行審查,研究人員最初答復說,大英圖書館沒有提供任何可供獲取的數據。當我指出一條信息與此說法似乎相矛盾,該條信息表明可用的英國數據集中至少有一個屬于“大英圖書館”,對此研究人員拒絕進一步發表評論,而是將我帶回了大英圖書館和國家檔案館。他們也沒有對使用其他數據集的項目是否受到任何形式的道德審查或對或者對他們提出的問題的限制進行發表任何看法。

  當我再次詢問時,大英圖書館表示對此他們無法發表任何看法,這意味著他們完全不清楚在這個數據集中圖書館的數據是否可用,項目涉及到的數據是否會受到圖書館理論的審查,如果受到倫理審查,那么數據集要如何應對這些要求,或是否任何形式的道德審查都適用于在該事件中執行的項目。

  梅隆基金會作為數字人文社會科學研究的首要資助機構,在與其他基金機構的反應保持一致的同時,梅隆基金未能在道德和隱私領域發揮領導作用,而它卻為這類數據挖掘項目提供了一個獨特而有力的聲音。

  事實上,在我與之交談過的機構和研究人員中,只有一名就職于一所重點大學商學院的研究人員向我提供了他的IRB提案,并第一時間回復了我的電子郵件。他的文章被大量引用,他非??释M量多的討論倫理,并且形成了最終形式,很明顯,雖然他和他的IRB提案在倫理和隱私考慮中放棄了一些思想 ,但他們為重視倫理道德感到自豪。奇怪的是,他的回應是獨立的,因為與我互動過的其他研究人員一直是回避、敵對的,或者根本沒有回應多次有關其工作的倫理考慮的更多信息的請求,或者根本沒有回答我對他們工作中的倫理審查問題的反復請求,而另外一個實際上并沒有提供他們的IRB提案的副本 ,雖然迄今為止我沒有說過的大學對其倫理審查有一個開放的政策,但資助機構似乎對這個話題和主要期刊都沒有興趣,或將其留給研究人員自己審查,或者由于他們領域有歷史要求,有明確的反對倫理審查的政策。

  把這些結合在一起,所有這一切都強調開放數據和獲取渠道是使公民和研究人員更容易獲得學術界成果和實現數據反復使用的新時代,是實現時代轉型的巨大進步,但是,當討論倫理研究和隱私方面的問題時,這種透明度和開放性的渴望似乎突然終結了。大學和研究員個人要自己決定什么是道德的,或者他們甚至相信道德或隱私考量應該在他們的工作中占有一席之地,大學根本不想談道德或堅定地認為道德審查必須以秘密的方式進行,而資助機構和出版商尋找其他途徑或對此根本沒有興趣。研究內容、出版物和數據集的最終輸出,是學術成功的指標,它確定了其創造者的任期、晉升、名譽和聲望,而大學和資助者則獲得了他們所支持的所有工作帶來的回報。一個到處是發表的文章和創新的新數據集是大學實驗室研究非常成功的標志,而一份填滿IRB倫理審查批準和IRB關于倫理審查提案的詳細頁面以及每個出版物或數據集如何保護隱私和遵守普遍接受的道德考慮的詳細理由,遠遠不太可能吸引名利和財富,更有可能出現法律,道德或其他麻煩和負面新聞,正如其他研究人員和公眾對該機構道德觀念的質疑??偠灾?,從研究人員到大學到出版商再到資助者的學術生態系統都寧可以另一種方式來關注可以做的事情,而不是應該做什么。如果,作為一個社會成員我們聚在一起,認為倫理道德和隱私在現代大數據研究中沒有地位可言,是過時概念,那么這是一個大家一起研究討論后的民主決定,而不是少數幾個對他們正在進行的研究或倫理審查、隱私知之甚少的人秘密決定的。

  最后,學術界必須決定,是否“開放性”和“透明性”僅適用于 學術機構的最終研究結果、研究員個人,很多領域沒有進行倫理審查的歷史,完全有權決定什么是倫理和道德行為和在數字社會允許有多少隱私保留,或者,如果我們把“倫理開放”加在開放數據和獲取渠道上,開放大學公開討論“大數據”研究的未來應該是什么樣的。

  譯自:Kalev Leetaru《Should Open Access And Open Data Come With Open Ethics?》

責任編輯:lihui