人類秒懂，AI崩潰：一個(gè)簡(jiǎn)單測(cè)試，就讓頂級(jí)大模型集體“翻車”

2025-09-13 23:03:18分類：衡陽(yáng)閱讀(91690)

VYU團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI

人類一眼就能看懂的文字，AI居然全軍覆沒(méi)。

來(lái)自A*STAR、NUS、NTU、清華、南開等機(jī)構(gòu)的研究團(tuán)隊(duì)，最近有個(gè)新發(fā)現(xiàn)：

不管是OpenAI的GPT-5、GPT-4o，還是谷歌Gemini、Anthropic Claude，甚至國(guó)內(nèi)的Qwen、LLaVA，在面對(duì)一些“看得見(jiàn)但讀不懂”的文字時(shí)，全都表現(xiàn)極差，直接“翻車”。

先切再疊，AI束手無(wú)策

VYU團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)小實(shí)驗(yàn)：

1、選取了100條四字成語(yǔ)，把每個(gè)漢字橫切、豎切、斜切，再把碎片重新拼接。

人類讀起來(lái)毫無(wú)壓力，AI卻幾乎全錯(cuò)。

2、挑選了100個(gè)八字母英文單詞，把前后兩半分別用紅色和綠色渲染，再疊加在一起。

對(duì)人類來(lái)說(shuō)，這幾乎不構(gòu)成挑戰(zhàn)——因?yàn)槲覀兊囊曈X(jué)系統(tǒng)對(duì)紅/綠通道異常敏感，大腦能自動(dòng)分離顏色，然后拼出完整的單詞。

但對(duì)AI模型來(lái)說(shuō)，結(jié)果卻完全不同：

即使是最新發(fā)布的大模型，在這些問(wèn)題上也屢屢碰壁。

無(wú)論是Gemini 2.5 Pro:

還是Kimi 2（Switch to 1.5 for visual understanding）：

（PS：Kimi 2最終推測(cè)的答案是hardline）

又或者Qwen3-Max-Preview：

全都得不到正確的結(jié)果。

AI不懂符號(hào)分割與組合

對(duì)該現(xiàn)象進(jìn)行分析，VYU團(tuán)隊(duì)認(rèn)為，根本原因在于AI靠模式匹配，不懂文字結(jié)構(gòu)。

人類之所以能“讀懂”，是因?yàn)槲覀円蕾嚱Y(jié)構(gòu)先驗(yàn)——知道漢字由偏旁部首組成，知道英文是按字母組合的。

而大模型只是把文字當(dāng)作“圖片模式”來(lái)識(shí)別，沒(méi)有符號(hào)分割與組合的機(jī)制。

于是，只要文字稍作擾動(dòng)（但人類依舊能看懂），AI就會(huì)徹底崩潰。

這個(gè)問(wèn)題之所以值得研究，是因?yàn)樗P(guān)系到AI落地的核心挑戰(zhàn)：

在教育和無(wú)障礙應(yīng)用里，AI可能無(wú)法正確識(shí)別“非標(biāo)準(zhǔn)文本”。在歷史文獻(xiàn)與科學(xué)筆記整理中，AI無(wú)法像人類一樣從殘缺文字中恢復(fù)含義。在安全場(chǎng)景里，攻擊者甚至可以利用這種“盲點(diǎn)”繞過(guò)AI審查。

VYU團(tuán)隊(duì)認(rèn)為，要想讓AI擁有類似人類的韌性，必須重新思考VLMs如何整合視覺(jué)與文本——

也許需要新的訓(xùn)練數(shù)據(jù)、更注重分割的結(jié)構(gòu)先驗(yàn)，或者全新的多模態(tài)融合方式。

更重要的是，這一結(jié)果也提醒我們：人類的閱讀理解從來(lái)不是單一模態(tài)的過(guò)程，而是依賴多重感知與推理的綜合能力。

論文鏈接：https://zjzac.github.io/publications/pdf/Visible_Yet_Unreadable__A_Systematic_Blind_Spot_of_Vision_Language_Models_Across_Writing_Systems__ArXiv.pdf

贊(4014)

未經(jīng)允許不得轉(zhuǎn)載：>隔靴搔癢網(wǎng)»人類秒懂，AI崩潰：一個(gè)簡(jiǎn)單測(cè)試，就讓頂級(jí)大模型集體“翻車”