掀起通用大模型價(jià)格戰(zhàn)后,字節(jié)跳動(dòng)又要把多模態(tài)大模型的價(jià)格打下來。
12月18日,在火山引擎Force大會(huì)上,字節(jié)跳動(dòng)正式發(fā)布豆包視覺理解模型,同時(shí)公布其售價(jià)為千tokens輸入0.003元,比行業(yè)平均價(jià)格便宜85%,相當(dāng)于一元錢就可處理284張720P的圖片。
這意味著,字節(jié)跳動(dòng)在多模態(tài)大模型領(lǐng)域再次復(fù)制其在通用大模型領(lǐng)域大幅降價(jià)的打法。今年5月,該公司正式對(duì)外發(fā)布豆包大模型,并把價(jià)格降低了一個(gè)數(shù)量級(jí),引發(fā)了阿里、百度等多家廠商大模型的降價(jià)潮。
火山引擎總裁譚待此前表示,降低成本是推動(dòng)大模型快進(jìn)到“價(jià)值創(chuàng)造階段”的一個(gè)關(guān)鍵因素。
半年過去,豆包通用大模型在市場上的表現(xiàn)一定程度上驗(yàn)證了譚待的判斷。字節(jié)跳動(dòng)對(duì)外公布的數(shù)據(jù)顯示,截至12月中旬,豆包通用模型的日均tokens使用量已超過4萬億,較七個(gè)月前首次發(fā)布時(shí)增長了33倍。
大模型應(yīng)用正在向各行各業(yè)加速滲透。據(jù)界面新聞了解,豆包大模型已經(jīng)與八成主流汽車品牌合作,并接入到多家手機(jī)、PC等智能終端,覆蓋終端設(shè)備約3億臺(tái),來自智能終端的豆包大模型調(diào)用量在半年時(shí)間內(nèi)增長100倍。最近3個(gè)月,豆包大模型在信息處理場景的調(diào)用量增長了39倍,客服與銷售場景增長16倍,硬件終端場景增長13倍,AI工具場景增長9倍,學(xué)習(xí)教育等場景也有大幅增長。
在此次發(fā)布會(huì)上,譚待再次強(qiáng)調(diào)豆包大模型市場份額的爆發(fā),得益于火山引擎“更強(qiáng)模型、更低成本、更易落地”的發(fā)展理念。
最新發(fā)布的豆包視覺理解模型大幅降價(jià)也基于同樣的邏輯,而字節(jié)跳動(dòng)在多模態(tài)大模型上的野心還不止于此。
爭奪更多有AIGC需求的客戶
字節(jié)跳動(dòng)方面稱,豆包視覺理解模型不僅能精準(zhǔn)識(shí)別視覺內(nèi)容,還具備出色的理解和推理能力,可根據(jù)圖像信息進(jìn)行復(fù)雜的邏輯計(jì)算,完成分析圖表、處理代碼、解答學(xué)科問題等任務(wù)。此外,該模型有著細(xì)膩的視覺描述和創(chuàng)作能力。
例如,其可以一眼識(shí)別動(dòng)物的影子,并推斷出這是什么動(dòng)物,也可識(shí)別地標(biāo)建筑、生活中不太熟悉的物品,并給出科普信息,同時(shí)還可識(shí)別出圖片中被全選位置的物體。
豆包戰(zhàn)略研究負(fù)責(zé)人周昊表示,豆包一直試圖讓用戶的輸入更快更方便,非常注重多模態(tài)的輸入和打磨,包括語音、視覺等能力,這些模型都已通過火山引擎開放給企業(yè)客戶。
根據(jù)譚待的判斷,豆包視覺理解模型在判卷指導(dǎo)、作文批改、兒童陪伴等教育場景,目的地推薦、外文菜單識(shí)別、著名建筑識(shí)別及講解等旅游場景,以及拍照找同款、商品搭配建議、廣告種草文案等電商營銷場景有較大的空間。目前,火山引擎已邀請(qǐng)數(shù)百家企業(yè)測試該模型。
和豆包視覺理解模型一同發(fā)布的,還有豆包3D生成模型。該模型與火山引擎數(shù)字孿生平臺(tái)veOmniverse結(jié)合使用,據(jù)稱可高效完成智能訓(xùn)練、數(shù)據(jù)合成和數(shù)字資產(chǎn)制作,成為一套支持AIGC創(chuàng)作的物理世界仿真模擬器。
界面新聞?dòng)浾咴诂F(xiàn)場體驗(yàn)了用豆包3D生成模型生成一張桌子,輸入相關(guān)參數(shù),模型就可以生成相應(yīng)的3D圖像,還可以根據(jù)需求變換桌子的材質(zhì)。在裝修設(shè)計(jì)、游戲、元宇宙等領(lǐng)域,該模型都可以很好地輔助設(shè)計(jì)人員進(jìn)行創(chuàng)作。
這也是字節(jié)跳動(dòng)在多模態(tài)大模型領(lǐng)域更大的野心所在。當(dāng)多模態(tài)模型的技術(shù)能力更強(qiáng)、價(jià)格更便宜,其將會(huì)在更多場景以及更多對(duì)AIGC有需求的企業(yè)中使用。
同時(shí),火山引擎升級(jí)了火山方舟、扣子和HiAgent三款平臺(tái)產(chǎn)品,幫助企業(yè)構(gòu)建自身的AI能力中心,提升開發(fā)AI應(yīng)用的效率。其中,火山方舟發(fā)布了大模型記憶方案,并推出prefix cache和session cache API,以降低延遲和成本。火山方舟還帶來全域AI搜索,具備場景化搜索推薦一體化、企業(yè)私域信息整合等服務(wù)。
批量更新大模型
新模型發(fā)布的同時(shí),豆包此前發(fā)布的多款大模型也迎來更新。
其中,豆包通用模型pro已全面對(duì)齊GPT-4o,使用價(jià)格僅為后者的1/8;音樂模型從生成60秒的簡單結(jié)構(gòu),升級(jí)到生成3分鐘的完整作品;文生圖模型2.1版本,首次實(shí)現(xiàn)精準(zhǔn)生成漢字和一句話P圖的產(chǎn)品化能力。
明年春季,字節(jié)跳動(dòng)還將發(fā)布具備更長視頻生成能力的豆包視頻生成模型1.5版,豆包端到端實(shí)時(shí)語音模型也將很快上線,從而解鎖多角色演繹、方言轉(zhuǎn)換等新能力。
相比于市場同類產(chǎn)品,豆包系列大模型發(fā)布的時(shí)間并不算早,但一直保持較快速度的更新。豆包系列大模型最新的能力也通過即夢AI和豆包App開放給了普通用戶使用。
本月初,豆包網(wǎng)頁版和豆包App上線了圖片理解功能。測試顯示,該功能可識(shí)別圖片中包含的元素和基本特征。同時(shí),用戶還可通過該功能詢問某景點(diǎn)所處的位置或某個(gè)角色出自哪部影視作品。
基于字節(jié)自研的豆包文生圖模型、豆包視頻生成模型,即夢AI近期上線了3款視頻生成模型,并接入了最新的豆包文生圖模型。測試顯示,用戶可輸入一句話一鍵生成海報(bào),海報(bào)中文字生成的準(zhǔn)確率也大幅提升,讓圖片創(chuàng)作編輯更加靈活。
即夢AI隸屬于字節(jié)跳動(dòng)旗下剪映業(yè)務(wù),于2024年5月上線,定位是AI內(nèi)容平臺(tái),支持通過自然語言及圖片輸入,生成高質(zhì)量的圖像及視頻。
此前,界面新聞曾獨(dú)家報(bào)道,字節(jié)跳動(dòng)旗下創(chuàng)作工具剪映和CapCut,在2024年實(shí)現(xiàn)了超過三位數(shù)收入增長,總收入正接近百億元人民幣。同時(shí),剪映和CapCut的全球月活用戶,也已經(jīng)超過8億。
目前,字節(jié)跳動(dòng)計(jì)劃提升即夢的產(chǎn)品優(yōu)先級(jí),嘗試用新的路徑打造AI時(shí)代的“抖音”。這也意味著,字節(jié)跳動(dòng)對(duì)大模型在消費(fèi)端產(chǎn)品落地還有更高的預(yù)期。