亚洲性猛交xxxx乱大交 I 婷婷亚洲五月色综合 I 国产视频观看 I 国产在线拍揄自揄拍 I 色婷婷免费观看 I 天堂成人久久 I 九九在线视频 I 91香蕉一二三区在线观看 I 黄网av在线 I 中国丰满熟妇xxxx性 I 久久欧美一区二区三区性生奴 I 素人天堂 I 日韩丰满女教师av I 中文字幕一区二区人妻性色 I 亚洲整片sss久久久 I 丝袜美腿小色网 I 无码人妻丰满熟妇区毛片 I 国产免费大片 I 亚洲一区二区三区高清av I 免费人成视频 I 国产成年妇视频 I 黄色片视频免费 I 天天插综合 I 野外做受又硬又粗又大视频 I 国产视频影院 I 精品久久二区 I 变态美女紧缚一区二区三区 I 永久免费的网站入口 I 久久国产免费福利永久 I 少妇无码一区二区二三区 I 四虎免费大片aⅴ入口 I gogogo高清在线观看一区二区 I 黄网站色成年免费观看 I 老女人性生活视频 I 午夜免费av电影

  • 隔靴搔癢網(wǎng)隔靴搔癢網(wǎng)

    人類秒懂,AI崩潰:一個(gè)簡(jiǎn)單測(cè)試,就讓頂級(jí)大模型集體“翻車”

    VYU團(tuán)隊(duì) 投稿量子位 | 公眾號(hào) QbitAI

    人類一眼就能看懂的文字,AI居然全軍覆沒(méi)。

    來(lái)自A*STAR、NUS、NTU、清華、南開等機(jī)構(gòu)的研究團(tuán)隊(duì),最近有個(gè)新發(fā)現(xiàn):

    不管是OpenAI的GPT-5、GPT-4o,還是谷歌Gemini、Anthropic Claude,甚至國(guó)內(nèi)的Qwen、LLaVA,在面對(duì)一些“看得見(jiàn)但讀不懂”的文字時(shí),全都表現(xiàn)極差,直接“翻車”。

    先切再疊,AI束手無(wú)策

    VYU團(tuán)隊(duì)設(shè)計(jì)了兩個(gè)小實(shí)驗(yàn):

    1、選取了100條四字成語(yǔ),把每個(gè)漢字橫切、豎切、斜切,再把碎片重新拼接。

    人類讀起來(lái)毫無(wú)壓力,AI卻幾乎全錯(cuò)。

    2、挑選了100個(gè)八字母英文單詞,把前后兩半分別用紅色和綠色渲染,再疊加在一起。

    對(duì)人類來(lái)說(shuō),這幾乎不構(gòu)成挑戰(zhàn)——因?yàn)槲覀兊囊曈X(jué)系統(tǒng)對(duì)紅/綠通道異常敏感,大腦能自動(dòng)分離顏色,然后拼出完整的單詞。

    但對(duì)AI模型來(lái)說(shuō),結(jié)果卻完全不同:

    即使是最新發(fā)布的大模型,在這些問(wèn)題上也屢屢碰壁。

    無(wú)論是Gemini 2.5 Pro:

    還是Kimi 2(Switch to 1.5 for visual understanding) :

    (PS:Kimi 2最終推測(cè)的答案是hardline)

    又或者Qwen3-Max-Preview:

    全都得不到正確的結(jié)果。

    AI不懂符號(hào)分割與組合

    對(duì)該現(xiàn)象進(jìn)行分析,VYU團(tuán)隊(duì)認(rèn)為,根本原因在于AI靠模式匹配,不懂文字結(jié)構(gòu)。

    人類之所以能“讀懂”,是因?yàn)槲覀円蕾嚱Y(jié)構(gòu)先驗(yàn)——知道漢字由偏旁部首組成,知道英文是按字母組合的。

    而大模型只是把文字當(dāng)作“圖片模式”來(lái)識(shí)別,沒(méi)有符號(hào)分割與組合的機(jī)制。

    于是,只要文字稍作擾動(dòng)(但人類依舊能看懂),AI就會(huì)徹底崩潰。

    這個(gè)問(wèn)題之所以值得研究,是因?yàn)樗P(guān)系到AI落地的核心挑戰(zhàn):

    在教育和無(wú)障礙應(yīng)用里,AI可能無(wú)法正確識(shí)別“非標(biāo)準(zhǔn)文本”。在歷史文獻(xiàn)與科學(xué)筆記整理中,AI無(wú)法像人類一樣從殘缺文字中恢復(fù)含義。在安全場(chǎng)景里,攻擊者甚至可以利用這種“盲點(diǎn)”繞過(guò)AI審查。

    VYU團(tuán)隊(duì)認(rèn)為,要想讓AI擁有類似人類的韌性,必須重新思考VLMs如何整合視覺(jué)與文本——

    也許需要新的訓(xùn)練數(shù)據(jù)、更注重分割的結(jié)構(gòu)先驗(yàn),或者全新的多模態(tài)融合方式。

    更重要的是,這一結(jié)果也提醒我們:人類的閱讀理解從來(lái)不是單一模態(tài)的過(guò)程,而是依賴多重感知與推理的綜合能力。

    論文鏈接:https://zjzac.github.io/publications/pdf/Visible_Yet_Unreadable__A_Systematic_Blind_Spot_of_Vision_Language_Models_Across_Writing_Systems__ArXiv.pdf

    贊(4014)
    未經(jīng)允許不得轉(zhuǎn)載:>隔靴搔癢網(wǎng)»人類秒懂,AI崩潰:一個(gè)簡(jiǎn)單測(cè)試,就讓頂級(jí)大模型集體“翻車”