亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現在的位置是:首頁 > 技術閱讀 >  287萬篇CS文獻數據分析:性別差距100年難消除,男女搭配協作更累?

287萬篇CS文獻數據分析:性別差距100年難消除,男女搭配協作更累?

時間:2024-01-10

近期,來自艾倫人工智能研究所的研究人員對計算機領域中的性別問題做了深入分析。實驗表明,本世紀男性和女性作者數量將不會持平、不同性別作者之間協作率在下降。

性別平等問題似乎一直是個熱議的話題,學術界也是如此。

去年8月,名稱一直飽受爭議的國際頂會NIPS,因在會議中遇到的性騷擾,再次將NIPS推上風口浪尖。

同年11月17日,NIPS官網將會議名稱默默改為NeurIPS。至此,有關該頂會性別歧視、性別平等的問題算是得到了相應的解決。

而近期,一項來自艾倫人工智能研究所(Allen Institute for Artificial Intelligence)的論文對計算機領域中的性別問題做了深入的分析與研究。

論文地址:

https://arxiv.org/pdf/1906.07883.pdf

這項研究對計算機領域近287萬篇文獻(截至2018年)進行了全面的分析,結果表明:

  • 如果按照當前的趨勢發展下去,本世紀男性和女性作者數量將不會持平;

  • 若是按照較為樂觀的預測結果,性別平等預計將在2100年之前實現;

  • 對計算機科學協作趨勢進行分析后表明,不同性別作者之間協作率在下降。

    ━━━━

287萬篇計算機論文做實驗數據

研究人員所要試圖解決的問題包括:

  • 論文作者之間的性別平衡如何隨時間而變化?

  • 論文作者的性別將在何時達到平衡狀態?

  • 協同作者之間的性別存在怎樣的關系?

研究人員通過對計算機科學會議和期刊(287萬篇論文)中的文獻原數據進行自動化研究,并利用Semantic Scholar學術搜索引擎中的數據來回答上述這些問題。

數據統計如下所示:

表1 Computer Science and Medline語料庫統計

作者列表從所有出版物中提取,并編譯成一個名字列表。研究人員使用Gender API為每個名稱執行性別查找。對于每個名稱,Gender API輸出預測的二進制性別(女性或男性),以及與預測相關的準確性和用于確定的樣本數量。只有首字母可用的作者(少于語料庫中所有作者的0.5%)被排除在分析之外。

(性別應用程序接口(Gender API)是一個大型的在線數據庫,通過將各國公開的政府數據與社交媒體資料鏈接起來,可以獲得已知的姓名和性別關系。)

但此時卻存在一個問題:很多名字都是性別模糊的。因此研究人員使用Gender API返回的準確性來表示每個作者是男性和女性的復合。

例如,第一個名字Matthew被確定為男性,準確率最高為100。這個結果是明確的。然而,Taylor這個名字被確定為女性的正確率僅為55分。

精度用于為每個名稱生成兩個概率(m, f),其中m為關聯作者為男性的概率,f為關聯作者為女性的概率,其中m + f = 1。在本例中,每個姓Matthew的作者將用概率元組(1.0,0.0)表示,每個姓Taylor的作者將用概率元組(0.45,0.55)表示。

━━━━

本世紀男女性別平衡較為困難,女性協作者呈下降趨勢

通過實驗,計算機科學語料庫中的287萬篇論文產生了824萬個 author-paper units。

作者的趨勢

圖1 

如圖1所示,按照目前的增長速度,女性作者的比例預計在2137年左右達到0.45(95%置信區間:[2109,2172])。

圖2

圖2顯示了一段時間內女性和男性作者的數量。隨著時間的推移,作家的總數在增加,女性作家的比例也在增加。

圖3 

圖3顯示了對均衡女性作者比例參數α的敏感性分析。該分析顯示了在每個均衡比例中首次達到平等的年份。

當均衡比例被認為有利于女性而非男性(高于0.5)時,達到平衡的年份會更早。即使女性最終將占所有出版物的90%,但按照目前的增長速度,預計到2100年左右將實現男女平等。

協作者趨勢

此處統計的是每年計算機科學中相同和不同性別的協作者人數。

圖4 

圖4顯示了自1995年以來相同/不同性別協作者的額外和缺失的數量。在男性和女性中,相同性別的合作作者比預期的要多,而不同性別的合作作者比預期的要少。近年來(與預期數字相比),每年有超過2萬個不同性別的合作項目消失。

通過分析觀察到的與預期的比率,協作者的趨勢還是較為悲觀的。

雖然男性和女性都更有可能與自己性別的作者合作,但在女性作者中,同性偏好的程度正在下降,而在男性作者中卻在上升。

與此同時,不同性別之間的協作差距(O/E < 1.0)也在不斷擴大。盡管近年來有更多的跨性別合作機會(由于在該領域工作的女性科學家的增加),但觀察到的跨性別合作的數量并沒有如預期的那樣增加。

與Medline的比較

Medline語料庫包括1163萬篇論文,可以產生4766萬個author-paper units。

圖5

圖5顯示了Medline語料庫中女性和男性作者的數量。

圖6

圖6顯示了使用ARIMA預測女性作者的預計比例。

2002年Medline語料庫數據中可以觀察到不連續性。這是由于Medline索引記錄中的完整作者姓名是從2002年才開始要求的。

2002年這一比例的下降表明,Medline期刊沒有對作者使用全名,才造成了2002年以前女性作者比例高的假象。

━━━━

工作總結

研究人員對計算機科學文獻(287萬篇論文)進行了全面分析,以評估作者之間的性別趨勢。

根據最近的趨勢,預計計算機科學中女性作者的比例在本世紀不會達到平等,并且在更現實的假設下,可能需要更長的時間。

研究人員還觀察到跨性別合作的數量低于預期,觀察到的預期比率隨著時間的推移而下降。

計算機科學領域女性科學家的比例增長緩慢,這繼續對進入該領域的女性構成挑戰。并且女性科學家在尋找合作者方面可能比男性科學家面臨更多的挑戰。

研究人員希望,這些發現將激勵該領域的其他人評估他們與這些性別偏見的關系,并考慮改善現狀的方法。

參考鏈接:

arXiv:https://arxiv.org/pdf/1906.07883.pdf

文章來源:新智元


IEEE Spectrum

《科技縱覽》

官方微信公眾平臺



往期推薦

地球歷史的24個轉折點

清華大學的學生筆記原來長這樣……

物理學中的這個“魔數”,可以被推導出來嗎?

主站蜘蛛池模板: 郓城县| 遵义县| 平江县| 永福县| 全椒县| 延安市| 庐江县| 定襄县| 宿松县| 黄龙县| 伊宁县| 长海县| 伊通| 江都市| 樟树市| 清远市| 萨迦县| 苗栗县| 竹北市| 江口县| 长葛市| 东乡县| 城固县| 梁河县| 元阳县| 高尔夫| 达州市| 琼结县| 满城县| 枣强县| 三台县| 南岸区| 武威市| 交城县| 苏尼特右旗| 九龙坡区| 改则县| 徐汇区| 广河县| 固始县| 含山县|