国产6699视频在线观看_女人爽到喷水的视频大全_亚洲欧美日韩国产视频亚洲欧美综合日韩久久_中文字幕无码久久东京热_av电影中文一区

 
首頁 > 熱點 >
 
 

環(huán)球微資訊!專訪華傲數(shù)據(jù)董事長賈西貝:數(shù)據(jù)是大模型的勝負手|AI地理圖鑒

2023-06-30 18:05:40  來源:科創(chuàng)板日報

財聯(lián)社6月30日訊(記者 付靜)近日深圳市重磅發(fā)布的《深圳市加快推動人工智能高質量發(fā)展高水平應用行動方案(2023—2024年)》(以下簡稱《行動方案》)強調,支持本地龍頭企業(yè)加大人工智能投入。

深圳AI產(chǎn)業(yè)鏈企業(yè)研發(fā)/應用進展如何?各企業(yè)對于深圳AI產(chǎn)業(yè)發(fā)展有哪些看法及建議?帶著這些問題,財聯(lián)社記者與深圳市人大代表、國內(nèi)頭部公共數(shù)據(jù)加工治理企業(yè)華傲數(shù)據(jù)董事長賈西貝進行了深度對話,以下為采訪實錄。


(資料圖)

深圳數(shù)據(jù)和人工智能產(chǎn)業(yè)有哪些優(yōu)勢?

財聯(lián)社:您認為深圳數(shù)據(jù)和人工智能領域的發(fā)展水平在一線城市中排在怎樣的位置?

賈西貝:目前一線城市對人工智能都比較重視,北京、上海、深圳、廣州各有千秋。北京有百度、頭條等一些大型科技企業(yè)總部和曠視、第四范式等專業(yè)人工智能頭部公司,也是很多央企總部、國家級科研機構和大學的所在地,對人工智能比較重視,多年前就成立了智源人工智能研究院等新型研發(fā)機構,今年快速出臺了相應政策,有很大優(yōu)勢。上海在芯片企業(yè)和頭部專業(yè)AI公司方面也有優(yōu)勢。

但深圳的優(yōu)勢非常明顯,第一,有全國最好的營商環(huán)境和創(chuàng)業(yè)氛圍,非常多的數(shù)字科技公司、硬科技創(chuàng)新企業(yè)在深圳發(fā)展,產(chǎn)業(yè)鏈完備,創(chuàng)新活躍、后勁大;第二,有全國最豐富的大模型應用場景,很多專家認為每一個行業(yè)都值得用大模型重新做一遍,深圳在這些行業(yè)的大量應用場景中在全球占有重要影響力,從互聯(lián)網(wǎng)與通信、消費電子、新能源車到黃金珠寶加工等;第三,通過鵬城實驗室建立了國際上數(shù)一數(shù)二的智能算力基礎設施;第四,在整個數(shù)據(jù)要素市場化方面,深圳是國內(nèi)做得最好的城市之一,深圳數(shù)據(jù)交易所現(xiàn)在是全國交易額最大的數(shù)據(jù)交易所;第五,深圳是全國最早開展跨層級、跨部門、跨系統(tǒng)、跨業(yè)務大規(guī)模數(shù)據(jù)治理工作的城市,2013年以來獲得過國家政務信息共享示范市和信息惠民示范城市等很多相關榮譽,十年來積累了大量城市公共數(shù)據(jù),在秒批、數(shù)字營商環(huán)境、政策AI計算器、以及政府便民熱線、基層治理、法院工作、一網(wǎng)統(tǒng)管等領域的AI寫報告等方面發(fā)揮了重要價值,已經(jīng)實踐證實可以為大模型提供非常好的養(yǎng)料;第六,深圳在數(shù)據(jù)和人工智能的立法與政策方面是全國的領頭羊,無論是全國第一部綜合性數(shù)據(jù)立法的出臺,還是人工智能、自動駕駛的立法以及針對數(shù)據(jù)交易、大模型等的相關政策都走在全國前列;第七,在大型科技企業(yè)、央企總部和專業(yè)AI及數(shù)據(jù)公司方面,深圳有華為、騰訊、中興、平安、中電子、奧比中光、云天勵飛、優(yōu)必選、華傲等。

財聯(lián)社:整體而言,您怎么看《行動方案》對深圳AI產(chǎn)業(yè)發(fā)展的意義?對本土相關企業(yè)、產(chǎn)業(yè)將帶來哪些機會?

賈西貝:第一,從使用者的角度來講,現(xiàn)在有toC、toB、toG的大模型,《行動方案》肯定會促進在深個人、企業(yè)包括政府更廣泛地應用大模型,享受大模型帶來的紅利。第二,大模型剛出現(xiàn)時訓練成本非常高,現(xiàn)在則走入一個分段創(chuàng)新、開放參數(shù)、開源算法、分工協(xié)作的時代,分工協(xié)作的生態(tài)化體系代替了單一公司的全棧開發(fā),每個公司有自己的資源基礎和優(yōu)勢,通過生態(tài)的開源開放復用了高代價的無監(jiān)督學習、有監(jiān)督學習的訓練成本,就大大降低了門檻,形成了百花齊放、百家爭鳴的百模大戰(zhàn)、千模大戰(zhàn)的市場現(xiàn)狀。我認為大模型是非常講生態(tài)的,深圳就有非常好的大模型生態(tài)。

“舊時王謝堂前燕,飛入尋常百姓家?!边@句詩可以很好地概括這一年大模型的發(fā)展趨勢。

“數(shù)據(jù)是大模型的勝負手”

財聯(lián)社:“數(shù)據(jù)”是此次《行動方案》中的高頻詞,比如《行動方案》指出,強化數(shù)據(jù)和人才要素供給方面,建立多模態(tài)公共數(shù)據(jù)集,打造高質量中文語料數(shù)據(jù);進一步做大深圳數(shù)據(jù)交易所交易規(guī)模,鼓勵行業(yè)龍頭企業(yè)、平臺型企業(yè)提供高質量數(shù)據(jù)產(chǎn)品和專業(yè)化數(shù)據(jù)服務;重點培育數(shù)源商、數(shù)據(jù)開發(fā)商、數(shù)據(jù)服務商、平臺服務商等多元主體等等。您怎么看《行動方案》里數(shù)據(jù)相關的指示?

賈西貝:整個《行動方案》出臺的過程其實比較快,后續(xù)可能還會有一些新政策出來。深圳一直以來在算法和數(shù)據(jù)監(jiān)管方面做了很多工作,比如出臺了全國第一部數(shù)據(jù)領域綜合性立法,但此次《行動方案》更側重技術、人才和算力,在數(shù)據(jù)和人工智能監(jiān)管方面講的比較少。

大模型需要很好的監(jiān)管,其一在于大模型生成內(nèi)容的濫用可能會污染整個互聯(lián)網(wǎng),也會污染大模型本身,模型濫用最近幾周也發(fā)生了好多案例;其二是人工智能生成的內(nèi)容和非人工智能自然產(chǎn)生的內(nèi)容二者如何區(qū)分的問題;其三是人工智能的知識產(chǎn)權問題,比如AI繪畫的訓練集里可能有上千萬藝術作品,將上千萬藝術作品做融合是否算抄襲?是否允許人工智能作品和非人類創(chuàng)作主體申請知識產(chǎn)權?

再回到數(shù)據(jù)的問題,大模型訓練實際是語元(token)化的訓練數(shù)據(jù)變換(transform)成模型及參數(shù)的過程,通常不具有去隱私和脫敏能力,這樣就導致對模型的監(jiān)管和對數(shù)據(jù)的監(jiān)管密不可分,其實對人工智能的監(jiān)管很大程度上是要穿透算法和模型去監(jiān)管用于訓練的底層數(shù)據(jù),包括底層數(shù)據(jù)的授權與盜版的問題,個人信息保護的問題,數(shù)據(jù)安全保障的問題,粗俗內(nèi)容與臟話的問題等。

從自上而下的角度看,AI監(jiān)管要穿透模型監(jiān)管數(shù)據(jù);從自下而上的角度看,底層數(shù)據(jù)會約束、污染上層模型和應用。種瓜得瓜、種豆得豆,底層訓練數(shù)據(jù)隱含了什么樣的知識、什么樣的文化、什么樣的思維、什么樣的意識,上層的模型和應用就會有什么樣的能力和風格。因此說,訓練數(shù)據(jù)的邊界約束了模型與應用的邊界,訓練數(shù)據(jù)的問題會污染模型與應用。在數(shù)據(jù)治理領域,有個GIGO(Garbage In,Garbage Out)金法則叫垃圾進、垃圾出。不可能期待在臟話滿篇、謬誤百出、思維偏執(zhí)的數(shù)據(jù)中訓練出優(yōu)雅而正能量滿滿的大模型。

現(xiàn)在對于人工智能大家的關注點可能更集中于算力、模型、算法、技術、人才,但我強烈呼吁一定要關注數(shù)據(jù)及監(jiān)管。

財聯(lián)社:您認為大模型數(shù)據(jù)目前面臨哪些難題?

賈西貝:一些專家都在強調說,數(shù)據(jù)比算力更稀缺,數(shù)據(jù)是大模型的勝負手。為什么數(shù)據(jù)比算力更稀缺?因為算力可以通過花錢買顯卡或者租云上的算力,數(shù)據(jù)不一定可以花錢買,數(shù)據(jù)天然包括了知識產(chǎn)權、個人隱私、數(shù)據(jù)安全等問題。

同時,人工智能大模型對數(shù)據(jù)的消耗至少要比最終模型的參數(shù)數(shù)量大1到2個數(shù)量級,模型訓練得越來越大,對數(shù)據(jù)的消耗也越來越大。其實數(shù)據(jù)某種程度上是不可再生資源,有統(tǒng)計指出到2026年人類能投喂給人工智能的自然數(shù)據(jù)會被用光,數(shù)據(jù)荒可能很快會伴隨著大模型的時代很快到來。

數(shù)據(jù)這塊的缺口我覺得非常大,而這只是全球整體的情況,具體到中國,中國互聯(lián)網(wǎng)巨頭即使在大模型上投入很多,其訓練的相當大的訓練集還是英文,中文訓練集比英文訓練集還要荒得厲害,所以有的專家講,現(xiàn)在高質量中文訓練集的豐富程度可能不及英文訓練集的十分之一甚至不及百分之一。所以從這些意義上來講,數(shù)據(jù)比算力更有挑戰(zhàn)性。

數(shù)據(jù)荒如何解決?

財聯(lián)社:公司對于深圳的人工智能產(chǎn)業(yè)發(fā)展做出了哪些貢獻?后續(xù)在助力深圳AI產(chǎn)業(yè)發(fā)展方面有何計劃或目標?

賈西貝:華傲數(shù)據(jù)一直以來專注數(shù)據(jù)治理。第一,華傲數(shù)據(jù)能做的就是通過公共數(shù)據(jù)治理,使更多數(shù)據(jù)成為喂養(yǎng)大模型的養(yǎng)料、成為高質量的訓練數(shù)據(jù);第二,大模型將來可能分成公有大模型和私有大模型。大模型的使用是有邊界的,不是所有大模型都能開放給所有的工作來使用,將來私有的大模型會很多。華傲數(shù)據(jù)會促進私有的訓練數(shù)據(jù)在政府的決策、管理、服務場景中訓練更多的模型。

此外,我們正在籌備組建深圳首席數(shù)據(jù)官(CDO)聯(lián)合會,聯(lián)合深圳人工智能學會、深圳大數(shù)據(jù)研究與應用協(xié)會、深標協(xié)、深咨協(xié)、深圳數(shù)據(jù)交易所、DAMA中國等單位發(fā)起一個算料聯(lián)盟,收集全國政策、法律、標準、論文、程序代碼、基因和蛋白質組等數(shù)據(jù),創(chuàng)造更高質量、更大的訓練集,在多模態(tài)時代、大模型時代解決數(shù)據(jù)領域難題。

過去十余年我們看到了深圳大數(shù)據(jù)和人工智能發(fā)展的良好營商環(huán)境和非常適時的政策推進。后續(xù)我們會進一步和在深甲方單位、深圳數(shù)據(jù)交易所促進公共數(shù)據(jù)在公有大模型和私有大模型里的價值發(fā)揮。我覺得將來的大模型競爭恐怕是得場景者得天下、得數(shù)據(jù)者得天下,私有大模型會成為AI浪潮長期的星辰大海。

財聯(lián)社:您所說的算料聯(lián)盟是否有具體的時間規(guī)劃?

賈西貝:我們計劃通過籌建中的首席數(shù)據(jù)官聯(lián)合會逐步把深圳、大灣區(qū)、全國的首席數(shù)據(jù)官聚集起來,共同解決數(shù)據(jù)荒問題,計劃今年年內(nèi)成立起來。

財聯(lián)社:當前生成式人工智能引發(fā)的新一輪智能化浪潮中,公司面臨著哪些機會?您感受到的數(shù)據(jù)需求怎么樣,是否有明顯的提升?

賈西貝:數(shù)據(jù)方面,我們是國內(nèi)數(shù)據(jù)質量方面的標準領跑者,為全國26個省、58個城市提供了數(shù)據(jù)支撐服務。場景方面,華傲數(shù)據(jù)有著決策、管理、服務三大場景的多年深耕所積累的服務經(jīng)驗,以及數(shù)據(jù)授權運營、定標定質、標測質測、訓練數(shù)據(jù)質量提升與篩選、眾包標注和算法標注等方面的創(chuàng)新實踐。模型和算法方面,華傲數(shù)據(jù)的人工智能團隊聚焦文本智能中的自然語言理解與生成(NLP)、代碼智能中的數(shù)據(jù)低代碼及SQL腳本翻譯與生成,目前在智慧城市相關的AI寫報告、AI理政策、AI助審判、AI遷SQL腳本等垂直場景已落地應用。

數(shù)據(jù)的需求肯定是提升的,但目前需求不主要來自大模型,整個社會的數(shù)據(jù)需求呈現(xiàn)平穩(wěn)增長的態(tài)勢。數(shù)據(jù)要素市場化也好,數(shù)據(jù)基礎制度也好,并不是專門針對大模型的,整個數(shù)據(jù)產(chǎn)業(yè)不僅在大模型這個方向上迎來一個重要發(fā)展期,在其他方向上也不像早期有很多泡沫,數(shù)據(jù)的價值在逐漸釋放、逐漸發(fā)揮。

(編輯 曹婧晨)

關鍵詞:

  
相關新聞
每日推薦
  • 滾動
  • 綜合
  • 房產(chǎn)