日本护士毛茸茸高潮,亚洲精品自偷自拍无码,久久精品国产一区二区三区,日韩人妻无码免费视频一二区

澎湃Logo
下載客戶端

登錄

  • +1

國產大模型互評高考作文,真“學霸”是誰?

2024-06-11 15:16
來源:澎湃新聞·澎湃號·湃客
字號

撰文 | 李信馬

題圖 | 圖蟲創(chuàng)意

人工智能又一次重量級的“破圈”,是成為了高考作文的題目。

2024年新課標 I 卷的作文題目是:

隨著互聯網的普及、人工智能的應用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?

以上材料引發(fā)了你怎樣的聯想和思考?請寫一篇文章。

要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。

 作為高考中最重要、分值最高的主觀題,每年的高考作文都會引起全社會的廣泛關注。對大模型來說,這也是它們最擅長的領域,不過,寫作文容易評分難,所以DoNews決定,讓目前國內五家主流的大模型分別寫一篇高考作文,然后讓它們作為考官,對5篇文章的合集進行評分,通過自評和互評的方式,來看看哪家大模型的綜合評分最高。

以下是打分的Prompt——

假如你是一名高考閱卷老師,針對剛剛的作文題,對于下面5篇文章,滿分60分的情況下,你會分別打多少分?并給出理由:

 閑話少說,我們直接來看結果。令人有些意外的是,五家大模型都將最高分(綠色)給到了通義大模型,通義也獲得了53.8分的最高平均分,與其他大模型明顯拉開差距;文心大模型和混元大模型都在51分的檔位,幾乎沒有差距;而豆包大模型和星火大模型的平均分不到50分,豆包更是收獲了3個最低分(黃色)。

從結果上來說,五家大模型的打分都比較“公正”,雖然可能多少有點“主觀意識”,沒有哪家大模型自評最低分,像是星火給了豆包最低分,而豆包也把最低分給了星火,但整體還是比較令人信服。

不過,為什么會出現這樣的差別?我們摘取了五家大模型分別對五篇作文的評價進行對比。

百度文心是“老好人”,對五篇作文的打分很接近,不過對通義作文的評價是“整篇文章論據充分,論述有力”,對混元作文的評價則是“在論證過程中,部分觀點略顯重復,稍顯遺憾”,對最低分的星火作文的評價則有“部分觀點闡述不夠深入,部分內容略顯表面化,因此在分數上稍遜一籌”。

阿里通義對五篇作文的點評就犀利的多,文心的作文“略顯保守”,混元的作文“深度和廣度上略顯不足,且創(chuàng)新點不夠突出”,星火的作文缺少“論述的深度和語言的藝術性”,豆包的作文則是論述常規(guī)缺乏亮點。

通義大模型對作文的自評 圖片來源:通義

騰訊混元認為除了通義,自己和文心、星火的作文都有些文采不足,而豆包的作文則是“在邏輯性和條理性方面略顯不足,部分觀點未能充分展開”,得分最低。 

訊飛星火則最“挑剔”,打分都偏低而且更摳細節(jié),得分最高的通義,也有“少量語法錯誤需要修正”,而得分最低的豆包“論證上缺乏深度,并且有些句子表述不夠清晰”。

最后,字節(jié)豆包對通義、文心和混元都是正面的評價,但認為星火的作文“結尾部分的措施略顯單薄”,自己的作文“在文采方面還有提升的空間”。

豆包大模型對作文的自評 圖片來源:豆包

不難發(fā)現,五家大模型對不同文章的看法,頗有類似之處,比如都“diss”了豆包的文采,還有認為星火的論述缺乏深度等。值得一提的是,最“年輕”的豆包拿到了最低分可以理解,而通義的脫穎而出,側面印證了其實力日益強大。 

在6月7日,通義千問正式發(fā)布了 Qwen2 大模型,在十幾項國際權威測評中,Qwen2-72B 得分都超過了開源標桿 Llama3-70B,發(fā)布兩小時就沖上了 HggingFace 開源大模型榜單第一??梢灶A見,未來一小段時間里,通義在各個榜單的名次還會有所進步。

最后,比完了分數也看過了點評,我們也按照分數由高到低,將五篇作文都附在結尾。大家可以看下,大模型寫作文究竟寫的如何?它們打出的分數,又是否靠譜呢?

阿里通義大模型的高考作文:

騰訊混元大模型的高考作文:

百度文心大模型的高考作文:

訊飛星火大模型的高考作文:

字節(jié)豆包大模型的高考作文:

    本文為澎湃號作者或機構在澎湃新聞上傳并發(fā)布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業(yè)務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            中文字幕日韩AV强奸乱伦| 性爱xxxxx视频| 精品国产乱码AAA一区二区| 国产成人午夜在线视频极速观看| 五月婷婷七月丁香| 99人妻无码一区二区三区| 亚州老熟女乱轮| 欧洲熟妇色xxxxx欧美| 无码人妻精品一区二区三区-免费小说 | 国自产拍亚洲免费视频| 久久久久无码精品亚洲| 国产手机乱子伦在线观看视频福利| 亚洲熟女精品| 99久久99久久免费精品蜜臀| 久久人人爽人人爽人人片dvd| 亚洲AV狠狠入| 日韩精品成人亚洲专区在线电影| 午夜免费国产体验区免费的| 久久午夜福利无码1000合集 | 高清无码少妇毛多水多| AV无码男人的天堂| 日本熟妇五十六十七十| 国产精品国产懂色国产美女热舞| 欧美女美女操啊啊啊| 国产精品老熟女久久久AV| 啪啪免费视频| 国产国产伦女伦一区二区三区| 色欲国产精品一区成人精品| 国产内射XXXXX在线| 国产av大秀| 欧美日韩免费大片| 久久国产成人精品av| 成人区人妻精品一区二区不卡视频| 校园人妻激情另类视频| 精品无码午夜福利理论片| 色婷婷狠狠干| 国产精品爽爽爽免费视频| 亚洲动漫成人一区二区| 欧美高清熟妇啪啪内射不卡自拍| 欧美性受xxxxzooz乱毛| 人人摸人人澡人人|