主題: 多模態(tài)大模型Monkey發(fā)布升級版
2024-03-25 07:42:48          
功能: [發(fā)表文章] [回復] [快速回復] [進入實時在線交流平臺 #1
 
 
頭銜:金融島總管理員
昵稱:花臉
發(fā)帖數(shù):64914
回帖數(shù):2132
可用積分數(shù):15883241
注冊日期:2011-01-06
最后登陸:2024-10-24
主題:多模態(tài)大模型Monkey發(fā)布升級版

科技日報
3月23日,記者從華中科技大學獲悉,由該校聯(lián)合武漢金山辦公軟件有限公司研究人員開發(fā)的Monkey多模態(tài)大模型已被人工智能領域國際頂級會議CVPR 2024接收,且該大模型曾在大模型開源開放評測體系——“司南”多模態(tài)大模型排行榜中名列開源模型榜首。Monkey在文檔領域的“升級版”——文字多模態(tài)大模型TextMonkey也于近日發(fā)布。

據(jù)悉,Monkey突破了通用文檔理解能力邊界。它在場景文字識別、辦公文檔摘要生成、數(shù)學問題問答、文檔版式分析、表格理解、圖表問答、電子文檔關鍵信息抽取等12項文檔權威數(shù)據(jù)集,以及國際上規(guī)模最大的文檔圖像智能數(shù)據(jù)集OCRBench上取得顯著突破,通用文檔理解性能大幅超越現(xiàn)有模型。

據(jù)介紹,多模態(tài)大模型是一類可以同時處理和整合多種感知數(shù)據(jù)的AI架構,在眾多場景有廣闊的應用潛力。憑借豐富的世界知識和出色的對話能力,多模態(tài)大模型能如同人類一樣深入理解和感知世界。

TextMonkey能幫助人們理解結(jié)構化圖表、表格以及文檔數(shù)據(jù)。它可將圖像內(nèi)容轉(zhuǎn)化為輕量級的數(shù)據(jù)交換格式,方便使用者記錄和提取。它也能幫助或代替人類在智能手機上執(zhí)行各種任務,自主操控智能手機應用程序,無需接觸后端。

研發(fā)團隊表示,TextMonkey可以模擬人類視覺認知。這使它能識別高清文檔圖像中各部分的關聯(lián),并可靈敏地鑒別出圖像內(nèi)關鍵要素。同時,基于對用戶多樣化需求的深入理解,TextMonkey通過文本定位技術強化了答案準確性,提升了模型的解釋性,減少了模型的幻覺,提高了在處理各類文檔任務時的表現(xiàn)。

當前,隨著各大企業(yè)加速數(shù)字化轉(zhuǎn)型,對文檔與圖像進行多模態(tài)結(jié)構化分析及內(nèi)容提取變得尤為重要。無論是處理隨意拍攝的圖片、電子文檔,還是圖表分析報告,快速、自動化、精確的數(shù)據(jù)處理對提升企業(yè)生產(chǎn)效率意義重大。研發(fā)團隊表示,模型有望全面提升通用文檔理解能力,推動自動化辦公、智慧教育、智慧金融等領域發(fā)展。

【免責聲明】上海大牛網(wǎng)絡科技有限公司僅合法經(jīng)營金融島網(wǎng)絡平臺,從未開展任何咨詢、委托理財業(yè)務。任何人的文章、言論僅代表其本人觀點,與金融島無關。金融島對任何陳述、觀點、判斷保持中立,不對其準確性、可靠性或完整性提供任何明確或暗示的保證。股市有風險,請讀者僅作參考,并請自行承擔相應責任。
 

結(jié)構注釋

 
 提示:可按 Ctrl + 回車鍵(ENTER) 快速提交
當前 1/1 頁: 1 上一頁 下一頁 [最后一頁]