Copyright 2018-2025 報紙迷 版權所有 京ICP備2018136890號
你有沒有遇到過這種情況,想在網上找一件"白色福特F250皮卡,帶有色車窗和超大輪胎",結果搜出來一堆普通白色轎車?這可不是你描述得不夠清楚,而是AI在處理長文本描述時犯了難。
現在的圖像檢索模型,比如大家熟悉的CLIP,處理簡單描述還行,一旦遇到這種帶多個特征的復雜描述,反而容易"抓不住重點"。
有時候描述得越詳細,匹配準確率反而越低,就像考試時答太多無關內容反而扣分一樣。
這時候,HiMo-CLIP就登場了。
這款由中國聯通數據科學與人工智能研究院團隊研發的新模型,在AAAI會議上做了口頭報告,一下子就解決了這個"說越多錯越多"的老大難問題。
讓AI學會"抓重點"的黑科技
HiMo-CLIP最聰明的地方,就是它能像人一樣自動識別描述中的關鍵信息。
團隊給這個能力起了個專業名字叫HiDe模塊,說白了就是動態語義指紋提取技術。
具體怎么做呢?它會通過統計學方法,在一堆相似的描述中找出最有區分度的特征。
比如提到福特皮卡,它會自動發現"超大輪胎"比"有色車窗"更能幫它準確找到目標。
這種方法比以前固定模板分詞或者人工標注層級要高效得多,準確率能達到89.3%。
更厲害的是,這個模塊在保證性能的同時,對硬件要求并不高。
在A100顯卡上推理速度只增加了7%,普通服務器也能跑得動。
本來想這技術肯定很復雜,沒想到工程實現上還挺接地氣。
雙重保障讓匹配更靠譜
光會抓重點還不夠,HiMo-CLIP還解決了另一個關鍵問題,怎么保證描述越詳細,匹配得分越高。
團隊設計了一個叫MoLo損失的機制,簡單說就是雙重對齊保障。
它一方面讓模型匹配整個文本的語義,另一方面特別強化核心特征的匹配。