日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶端

登錄

  • +1

GRE作文用AI打分20周年:給中國(guó)考生分?jǐn)?shù)高于人類打分

2019-10-06 09:40
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

關(guān)注前沿科技 量子位 栗子 發(fā)自 凹非寺

量子位 報(bào)道 | 公眾號(hào) QbitAI

GRE作文用了AI打分。

這原本不能算個(gè)新聞。

但由于美媒VICE發(fā)布的一項(xiàng)調(diào)查,這件事又成了熱烈討論的焦點(diǎn)。

VICE調(diào)查了美國(guó)的50個(gè)州,發(fā)現(xiàn)有至少21個(gè)州 (包括加州) 的教育系統(tǒng),已經(jīng)把AI當(dāng)成作文打分的主要/第二主要工具,用在標(biāo)準(zhǔn)化考試?yán)铩?/p>

△ 藍(lán)=AI打分,淺藍(lán)=有試點(diǎn),紅=無(wú)AI打分,桃紅=看學(xué)區(qū),灰=未回應(yīng)

這21個(gè)州里,只有3個(gè)州表示,人類也會(huì)參與作文打分;余下18個(gè)州,只會(huì)隨機(jī)抽出5%-20%的作文,交給人類復(fù)核一下AI給的成績(jī)。

問題是,標(biāo)準(zhǔn)化考試常常作為選拔依據(jù),左右人類前途。AI打分的話,命運(yùn)就在AI手里了。

這時(shí),人們不免想起了GRE,這個(gè)20年前就開始用AI判作文的大前輩。

有有不少研究表明,包括GRE打分機(jī)器e-rater在內(nèi),許多AI評(píng)判文章的機(jī)制,都有明顯的缺陷。

不過(guò)經(jīng)年累月,AI不但沒有被各種作文考試拋棄,反而越發(fā)受歡迎了。

于是,Hacker News網(wǎng)友開啟了激烈的討論,不到一日熱度便有了330+。 GRE:機(jī)器比人更偏愛中國(guó)考生

早在1999年,主辦GRE的美國(guó)教育考試服務(wù)中心 (ETS) ,就開始用e-rater給作文打分了。

跟據(jù)官方信息,這個(gè)自然語(yǔ)言處理 (NLP) 模型,評(píng)分標(biāo)準(zhǔn)有以下8條:

· 基于詞匯考量的內(nèi)容分析 (Content Analysis Based on Vocabulary Measures)

· 詞匯復(fù)雜度/措辭 (Lexical Comlexity/Diction)

· 語(yǔ)法錯(cuò)誤比例 (Proportion of Grammar Errors)

· 用法錯(cuò)誤比例 (Proportion of Usage Errors)

· 機(jī)械錯(cuò)誤比例 (Proportion of Mechanics Errors)

指拼寫錯(cuò)、大小寫錯(cuò)、標(biāo)點(diǎn)錯(cuò)等等技術(shù)問題。

· 風(fēng)格評(píng)論比例 (Proportion of Style Comments)

比如,某個(gè)短語(yǔ)出現(xiàn)過(guò)多,太短的句子過(guò)多,太長(zhǎng)的句子過(guò)多等等。

· 文章組織和發(fā)展分 (Organization and Development Scores)

· 地道用語(yǔ) (Features Rewarding Idiomatic Phraseology)

當(dāng)然,這只AI不止服務(wù)GRE。至少,托福和GRE一樣,也是ETS出品的考試。

至于這套算法的缺陷都出在哪,ETS官方就做過(guò)不少研究,且從不避諱研究結(jié)果。

在1999、2004、2007、2008、2012和2018年的作文里,都能發(fā)現(xiàn)AI給中國(guó)大陸考生的分?jǐn)?shù),普遍比人類打分要高。

相反,在非裔美國(guó)人身上,AI常常比人類給分要低。在母語(yǔ)是阿拉伯語(yǔ)、西班牙語(yǔ)和印地語(yǔ)的考生那里,也有相似的情況。即便團(tuán)隊(duì)一直改進(jìn)算法,也沒有消除這個(gè)問題。

ETS的一位高級(jí)研究員說(shuō):

如果我們想讓算法對(duì)某個(gè)國(guó)家的某個(gè)群體友好一些,那就很可能會(huì)傷害到其他群體了。

再進(jìn)一步,分單項(xiàng)來(lái)觀察AI的打分情況。

會(huì)發(fā)現(xiàn)在全部考生里面,e-rater給中國(guó)大陸考生的語(yǔ)法 (Grammar) 和寫作技巧 (Mechanics) 分,整體偏低;

而在文章長(zhǎng)度和復(fù)雜單詞的選用上,中國(guó)大陸考生的AI打分超過(guò)平均。最終,AI給大陸考生的總分,整體比人類打分更高。GRE作文滿分6分,AI比人類打分平均高出1.3分。

相比之下,在非裔美國(guó)人身上,AI比人類打分平均要低0.81分。以及,這只是平均數(shù)據(jù),在許多考生那里,差異來(lái)得比這更劇烈。

不論是1.3還是0.81,在6分制的考試?yán)锒疾皇切?shù)字,可能嚴(yán)重影響考生的成績(jī)。

不止如此,MIT的小伙伴們開發(fā)過(guò)一個(gè)叫BABEL的算法,把復(fù)雜的詞句拼貼在一起,得出的文章沒有任何實(shí)在的意義,卻被GRE的線上評(píng)分工具ScoreItNow!打出了4分的好成績(jī)。

但ETS說(shuō),AI不是單獨(dú)判卷,每篇AI打分的作文,都有一個(gè)人類同時(shí)打分。然后,把人機(jī)打分之間的差異,交給第二個(gè)人類去判斷,得出最終的分?jǐn)?shù)。

所以,ETS認(rèn)為考生并不會(huì)受到AI缺陷的不利影響。

不過(guò)對(duì)比一下,傳統(tǒng)方法是兩個(gè)人類同時(shí)給一篇文章打分;而當(dāng)AI替代其中一人打分,相當(dāng)于這個(gè)人的職責(zé)變成了復(fù)核。

成本大概下降了不少,對(duì)結(jié)果的影響有多大就很難說(shuō),至少打分機(jī)制和AI參與之前有差別了。

另外,AI的存在不止影響評(píng)分,也直接影響考生的應(yīng)試策略。這些年,討好AI的攻略越來(lái)越多:

△來(lái)自ChaseDream論壇@竹林中人

還好,GRE有人類和AI一起打分。

可還有許多考試是直接交給AI判作文的: 不止GRE算法有問題

比如,VICE調(diào)查發(fā)現(xiàn),猶他州把AI作為主要 (Primary) 作文評(píng)分工具,已經(jīng)有些年頭了。

州內(nèi)的一位官員解釋了原因:

手動(dòng)打分除了耗費(fèi)時(shí)間之外,也是本州一項(xiàng)重大開支。

所以,用AI來(lái)為寫作評(píng)分,在降低成本的同時(shí),能不能做到公平公正?

美國(guó)研究協(xié)會(huì) (American Institutes of Research,AIR) 是一間非盈利機(jī)構(gòu),也是猶他州最主要的考試提供方。

關(guān)于交給AI打分的是怎樣的題目,AIR給出了一個(gè)范本:

這道題目是,看到一張海牛圖像,考生要寫出一個(gè)觀察 (A) ,和一個(gè)推理 (B) 。

而AIR每年都會(huì)做出一份報(bào)告,評(píng)估一些新題目的公平性。

評(píng)估的一個(gè)重點(diǎn)就是:女生和少數(shù)族裔學(xué)生,在特定考題上,是不是比男性/白人的表現(xiàn)要差。這個(gè)指標(biāo)叫做“差異試題功能 (DIF) ”。

報(bào)告顯示,2017-2018學(xué)年、三至八年級(jí)的寫作考題里,有348道題被判定為,對(duì)女生和少數(shù)族裔學(xué)生有輕微DIF;相比之下,對(duì)男生和白人學(xué)生有輕微DIF的題目有40道。

另外,還有3道題被判定為:對(duì)女生和少數(shù)族裔學(xué)生有嚴(yán)重DIF。這些題目會(huì)交由專門的委員會(huì)審核。

可能造成DIF的原因有多種,而算法偏見是大家最關(guān)心的因素。

一位來(lái)自猶他州的家長(zhǎng) (@dahart) ,占據(jù)了Hacker News討論版的頂樓。

他很不喜歡聽那些官員講“成本”。他覺得,教育本來(lái)就是費(fèi)時(shí)費(fèi)力的,不可能又快又便宜。

他說(shuō),孩子的作文是機(jī)器打分,全家不滿意AI給的分?jǐn)?shù),愛人和孩子都會(huì)哭。

One More Thing

當(dāng)然,AI判作文也不止美國(guó)才有。

去年,《南華早報(bào)》說(shuō)國(guó)內(nèi)已經(jīng)有6萬(wàn)所學(xué)校靠AI批改作業(yè),分布在全國(guó)各地。

其中,學(xué)生提交的英文作業(yè),也是機(jī)器打分。作文批改系統(tǒng)來(lái)自酷句批改網(wǎng),要理解文字的一般邏輯和意思,對(duì)作文的整體質(zhì)量做出像人一樣合理的評(píng)判,還要在寫作風(fēng)格、結(jié)構(gòu)、主題等方面給出建議。

據(jù)說(shuō),AI和人類教師對(duì)一篇作文的評(píng)分,在92%的情況下是一致的。

但從評(píng)論來(lái)看,同學(xué)們也像美國(guó)的小伙伴一樣,受了不少委屈:

這樣的情感,還是不分國(guó)界的。

參考資料:

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ETS發(fā)的許多NLP論文:

https://www.ets.org/research/topics/as_nlp/writing_quality/

— 完 —

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋
            少妇爱看 一区二区| 国产传媒京东传媒| 日本中文视频,88xx.| 亚洲 国产 哟| 欧美乱插逼强歼| 三十熟女美臀后入| 国产乱剧情二区| 欧美X级视频| 亚洲av片在线免费观看| 国产婷婷一区二区三区久久| 日本少妇毛茸茸高潮| 久久久久久精品免费久久18| 亚洲久热无码av中文字幕| 亚洲欧洲av无码专区| 国产伦精一区二区三区四区| 色噜噜狠狠色综合网图区| 精品国产乱码久久久久久影片| 国产精品蜜臀av在线一区| 国内偷窥一区二区三区视频 | 国产精品专区一二三| AV网站中文| 欧美丰满多毛少妇XXXX| 黄色午夜视频| 谁有国产精品久久国的网站| 91熟妇丰满人妻刺激战场| 久久精品国产av一区二区三区| 在线观看亚洲AV| xxx性韩国| 亚洲国产精品久久久天堂麻豆宅男 | 欧美H版在线观看播放| 亚洲av成人无码天堂| 国产老熟女一区二区视频| 国产一区二区一卡二卡| 内射东北熟女| 风韵丰满熟妇啪啪区老老熟妇| 国产精品日产欧美久久久久| 2021亚洲国产精品无码| 8x8x拔插拔插海外永久免费视频| 2023国产精品自拍视频| 色综亚洲国产VV在线观看| 国产成人精品999视频|