又到一年高考查分時。大模型在經(jīng)歷高考之后,也要查分了。
隨著AI快速發(fā)展,高考已經(jīng)成為各家AI企業(yè)檢驗模型能力的又一重要場景。
6月初,字節(jié)跳動旗下豆包大模型1.6正式發(fā)布,該模型由2023年成立的字節(jié)跳動Seed團隊推出。面世不久,這位“考生”就和其他大模型一起接受了2025年山東卷的高考測試洗禮。
在字節(jié)跳動Seed團隊的測評中,豆包取得不錯成績:綜合成績排名靠前。不管是文科還是理科,按照賦分制調(diào)整后的高考分數(shù)近700分,相較去年成績大幅提升。而且去年偏文科嚴重的它,今年實現(xiàn)文理的均衡發(fā)展。
豆包的成績可用突飛猛進來形容。優(yōu)異成績背后,豆包在模型能力和技術上下了苦功。
高考不僅是高三考生的戰(zhàn)場,也是各家大模型同場競技的舞臺。這對于AI來說是一次綜合練兵。
高考考查內(nèi)容十分全面,涉及文科、理科,文字、圖像,不同難度的知識點等,意味著AI需要具備豐富的知識儲備能力。
高考的題目全新。相關題目在市面上找不到,有助于模型泛化能力的測試。泛化能力是衡量AI模型優(yōu)劣的關鍵指標之一,考察的是模型在日常訓練之外的數(shù)據(jù)、場景或者任務中,是否能夠表現(xiàn)出有效的預測和推理能力。
此次測評,豆包大模型1.6和其他大模型如Gemini(谷歌研發(fā)的開源模型)、DeepSeek(國內(nèi)深度求索研發(fā))、Claude(美國AI獨角獸公司Anthropic研發(fā))、O3(美國OpenAI研發(fā)),共同測試了2025年山東高考試題。
考試開始,先要讓大模型理解試卷。字節(jié)Seed團隊在各個大模型內(nèi),分別輸入題目的文本和截圖,讓它們通過文字和圖像的方式看見試卷、理解試卷,參與考試。
山東高考試卷滿分750分。測評發(fā)現(xiàn),5個推理模型,理科分數(shù)最低為579分,文科分數(shù)最低為625分,基本都達到優(yōu)秀考生水平。
具體來看,豆包成績排名靠前,理科648分,排名第二;文科683分,排名第一。國產(chǎn)大模型的數(shù)學成績十分亮眼。DeepSeek成績145分,排名第一;豆包大模型1.6成績141分,排名第二。
山東高考為賦分制,3門副科的賦分相比原始分會有一定程度的提高,尤其是在化學、物理等難度較大的科目上。
據(jù)山東當?shù)孛襟w采訪的一線教師估算,豆包大模型1.6的理科賦分約680分,意味著它能考上985高校理工科專業(yè);文科賦分成績在700分左右,也就是說,“山東考生豆包”有望考上清華或者北大。
這并不是豆包第一次參考高考。2024年,有媒體對包含豆包在內(nèi)的國內(nèi)外大模型進行高考評測。結果讓人有些意外:高考分數(shù)一般,而且相較國外大模型,國內(nèi)大模型普遍偏科。文科較好,但是理科成績,尤其是數(shù)學成績不理想。
AI偏科背后,原因多樣。大語言模型可理解為文字接龍游戲,本質(zhì)為概率問題,推理和計算能力較弱。同時,國內(nèi)外模型在訓練數(shù)據(jù)上存在差異。此外,數(shù)學、物理等帶有圖像信息,大模型在圖像識別上存在挑戰(zhàn)。
但當下,情況發(fā)生變化。以豆包為例,成績有了很大跨越:理科在2024年466.5分的基礎上提高了181.5分;文科在2024年542.5分的基礎上提高了140.5分。具體學科來看,豆包的數(shù)學成績提升幅度最大,從去年的61.5分提升至141分。
2025年高考成績飛速提升,原因在于豆包大模型1.6的多模態(tài)能力持續(xù)提升,其擁有豐富的教育相關數(shù)據(jù),具備深度思考能力。
所謂多模態(tài),是指AI要同時處理多種數(shù)據(jù)類型以便更全面地了解和分析事物。也就是說,大模型不僅要讀懂文字,還要用“眼睛看、耳朵聽、嘴巴說”。
數(shù)據(jù)方面,據(jù)字節(jié)跳動Seed團隊官方介紹,在多模態(tài)混合持續(xù)訓練階段,團隊增加了學科、代碼、推理類數(shù)據(jù)的占比,提升了文本數(shù)據(jù)的知識和推理密度,同時加入了視覺模態(tài)的數(shù)據(jù),與高質(zhì)量文本數(shù)據(jù)混合訓練。這意味著豆包模型得到專業(yè)數(shù)據(jù)訓練,有助于垂直領域問題的解決。
“就像考生通過刷題掌握各類解答技巧、在草稿上列出計算過程一樣,通過學習專業(yè)數(shù)據(jù)和持續(xù)優(yōu)化模型架構,大模型具備了深度思考能力,也能通過描述思維過程,實現(xiàn)對特定問題的推理、驗證和反思?!睒I(yè)內(nèi)人士分析稱。
就像大部分參與者希望通過考試了解自身不足、提高能力水平一樣,豆包大模型參與高考,或許還是希望通過不斷總結實戰(zhàn)經(jīng)驗,以便在未來的AGI競爭中保持優(yōu)勢。
責編:楊琳""yanglin@ceweekly.cn
美編:孫珍蘭