春節(jié)期間火力全開,永信至誠AI「數(shù)字風(fēng)洞」團(tuán)隊(duì)深度測評(píng)DeepSeek大模型
來源:證券時(shí)報(bào)網(wǎng)作者:燕云2025-02-05 14:11

杭州深度求索公司發(fā)布的DeepSeek-r1模型無疑成為春節(jié)科技圈頂流。春節(jié)期間,永信至誠(688244)根據(jù)多家企業(yè)用戶咨詢,圍繞大模型時(shí)代下如何搭上DeepSeek大模型快車道?如何在自身傳統(tǒng)行業(yè)中借力大模型提升企業(yè)各方面能力?等方面進(jìn)行了深度測評(píng)。

依托春秋AI測評(píng),找到10萬預(yù)算以內(nèi)模型

為了認(rèn)真回答這些問題,及時(shí)解答用戶的疑問,永信至誠依托生成式人工智能(AIGC)加持的春秋AI測評(píng)「數(shù)字風(fēng)洞」平臺(tái),以“魔法”測“魔法”,從企業(yè)的應(yīng)用實(shí)際出發(fā)搭建測試環(huán)境和橫向比較對(duì)象,加載40萬余條兼容歐盟《人工智能法》、美國NIST《人工智能風(fēng)險(xiǎn)管理框架》、WDTA AI-STR-02《大語言模型安全測試方法》等國際測評(píng)標(biāo)準(zhǔn)的測試數(shù)據(jù),基于「數(shù)字風(fēng)洞」ISAC24測評(píng)標(biāo)準(zhǔn),試圖找到10萬預(yù)算以內(nèi)“最適合企業(yè)用戶的基座模型”。

測試期間,永信至誠面向DeepSeek在內(nèi)的國內(nèi)外主流AI大模型的智能度(Intelligibility)、安全度(Safety)、匹配度(Applicability)、一致度(Consistency)等方面設(shè)計(jì)了“數(shù)字風(fēng)洞ISAC24”測試標(biāo)準(zhǔn),并挑選了客戶可能會(huì)“選擇困難”的國內(nèi)外AI模型作為橫向測評(píng)對(duì)象??纯碊eepSeek和這些模型相比是否能展現(xiàn)出足夠優(yōu)勢。

最終測評(píng)數(shù)據(jù)顯示,DeepSeek-r1在綜合測評(píng)成績、智能度和匹配度上均領(lǐng)先于Llama3.1、GPT-4o-Mini以及其余被測模型。回答的一致度上位于前列。但安全度方面有待加強(qiáng),需要在后期的應(yīng)用框架方面加安全防護(hù)和內(nèi)容過濾。

在測評(píng)之外,公司也做了一個(gè)初步測算:部署DeepSeek-r1-Distill-Qwen-14B的整體解決方案市場價(jià)不超過10萬元人民幣,基本符合大多數(shù)企業(yè)客戶的初期預(yù)算和日常需求,并且它充分開源和完全商業(yè)授權(quán)的開源策略,讓更多研究人員和企業(yè)都可以基于DeepSeek-r1的訓(xùn)練過程進(jìn)行復(fù)現(xiàn)和深度開發(fā)。

500余萬測評(píng)數(shù)據(jù)為數(shù)字風(fēng)洞提供科學(xué)依據(jù)

永信至誠依托在網(wǎng)絡(luò)靶場和數(shù)字安全測評(píng)領(lǐng)域的深厚技術(shù)積累與業(yè)務(wù)實(shí)踐成果,構(gòu)建春秋AI測評(píng)「數(shù)字風(fēng)洞」平臺(tái),以春秋AI大模型為核心,基于標(biāo)準(zhǔn)化測評(píng)數(shù)據(jù)和海量業(yè)務(wù)場景模版,實(shí)現(xiàn)對(duì)AI智能產(chǎn)品智能度、安全度和匹配度的綜合測評(píng),通過以模測模、以模強(qiáng)模,簡化測評(píng)流程,提高測評(píng)效率。

當(dāng)前平臺(tái)已接入百度千帆、通義千問、月之暗面、虎博、商湯日日新、訊飛星火、360智腦、抖音豆包、紫東太初、孟子、智譜、百川等40余個(gè)AI大模型API,以及20余個(gè)本地搭建的開源AI大模型。平臺(tái)擁有基礎(chǔ)數(shù)據(jù)集100余個(gè),總測評(píng)用例超過500萬條,模擬紅隊(duì)的AI越獄和變異性檢測載荷2萬余個(gè)。

已發(fā)布Llama2-7b、OpenAI GPT-4o、通義千問Qwen-72B(開源版)等大模型的測評(píng)報(bào)告,為大模型廠商提供專業(yè)的評(píng)估結(jié)果和具體整改和調(diào)試建議,以提升其內(nèi)容安全性和整體性能。已開始為眾多高新技術(shù)企業(yè)、國央企、院校、特區(qū)政府提供科研及服務(wù)類AI健康及安全測評(píng)服務(wù)。

永信至誠作為AI大模型測試評(píng)估賽道領(lǐng)軍企業(yè),也將與DeepSeek等一眾AI大模型廠商和用戶攜手共進(jìn),用安全賦能AI,用AI反哺安全。歡迎廣大AI大模型領(lǐng)域廠商和用戶合作共生,共同維護(hù)新質(zhì)生產(chǎn)力時(shí)代技術(shù)的進(jìn)步,為經(jīng)濟(jì)繁榮、社會(huì)發(fā)展點(diǎn)亮的希望之光。(燕云)

校對(duì):劉星瑩

責(zé)任編輯: 楊國強(qiáng)
聲明:證券時(shí)報(bào)力求信息真實(shí)、準(zhǔn)確,文章提及內(nèi)容僅供參考,不構(gòu)成實(shí)質(zhì)性投資建議,據(jù)此操作風(fēng)險(xiǎn)自擔(dān)
下載“證券時(shí)報(bào)”官方APP,或關(guān)注官方微信公眾號(hào),即可隨時(shí)了解股市動(dòng)態(tài),洞察政策信息,把握財(cái)富機(jī)會(huì)。
網(wǎng)友評(píng)論
登錄后可以發(fā)言
發(fā)送
網(wǎng)友評(píng)論僅供其表達(dá)個(gè)人看法,并不表明證券時(shí)報(bào)立場
暫無評(píng)論
為你推薦
時(shí)報(bào)熱榜
換一換
    熱點(diǎn)視頻
    換一換