小米大模型,不搞“ChatGPT” 今日最新
編者按:本文來自微信公眾號深燃,作者:金玙璠 賀樹龍,編輯:賀樹龍 ,創(chuàng)業(yè)邦經(jīng)授權發(fā)布。
【資料圖】
不加入“百模大戰(zhàn)”。
ChatGPT上線半年后,一場大模型追逐戰(zhàn)繼續(xù)在太平洋兩岸上演。
由OpenAI、微軟和英偉達組成的聯(lián)盟,正在太平洋東岸玩命狂奔。今年3月以來,中國科技公司緊急跟進,百度、阿里、商湯、科大訊飛相繼推出“類ChatGPT”產(chǎn)品,騰訊、華為、京東公開表示正在跟進大模型,都想抓住這個比互聯(lián)網(wǎng)時代還“大十倍”的機會。
“百模大戰(zhàn)”當前,作為國內(nèi)大型科技企業(yè)的小米,卻顯得格外冷靜。
小米掌門人雷軍說,小米正在研發(fā)一些技術和產(chǎn)品,等打磨好了再給大家演示。小米集團總裁盧偉冰稱,小米目前擁有超過1200人的AI團隊,會積極擁抱大模型,與業(yè)務深度結合,但不會像OpenAI一樣去做通用大模型。
這些信息都加深了外界的疑問:小米會加入“百模大戰(zhàn)”嗎?
小米集團AI實驗室主任王斌博士告訴深燃,小米自己會去自研通用大模型,但不會單獨發(fā)布一款類ChatGPT產(chǎn)品,“也不會發(fā)布一個PPT,或者演示幾個例子,就說我們有大模型了”,而是自研大模型最終會由產(chǎn)品帶出來。
這是繼小米官宣大模型團隊后,首度對外披露大模型的路線和進展。今年4月14日,小米宣布大模型團隊由欒劍帶隊,向王斌匯報。王斌曾在中科院從事了20多年NLP(自然語言處理)相關的研究和開發(fā)工作,2018年加入小米,2019年起負責AI實驗室。AI實驗室是小米AI戰(zhàn)略的核心部門。
曾經(jīng)做過對話大模型的小米,在通用預訓練語言大模型上,是少有的理智派。王斌透露,目前專職大模型團隊30多人,不會馬上極速擴張;這個團隊的目標還是通用語言大模型,第一步的目標基座模型參數(shù)在幾百億,然后會視前期爬坡結果,再決定下一步投入。
“從研發(fā)出大模型到落地還有很長的一段距離,是否能找到合適的重要場景是很多大模型公司的痛點?!痹谕醣罂磥恚∶椎膬?yōu)勢是有足夠多的現(xiàn)成的大模型落地場景,包括小愛同學、loT、自動駕駛、機器人等等,豐富的應用場景也能夠反哺大模型的能力。
小米不缺場景,但要訓練出大模型,數(shù)據(jù)、算力、人才的積累缺一不可。王斌說,小米在人才上有一定儲備,算力和數(shù)據(jù)量方面的挑戰(zhàn)較大。一方面,算力需要克服系統(tǒng)級的挑戰(zhàn),且要做到訓練成本可控;另一方面,高質量數(shù)據(jù)的獲得、清洗,都要花費不少時間和成本。
在新一輪AI大模型浪潮中,小米AI團隊為什么不發(fā)布“類ChatGPT產(chǎn)品”?小米是怎么判斷大模型的技術路線、技術難度的?日前,深燃總編輯賀樹龍和小米技術委員會AI實驗室主任王斌進行了一場對話。以下是核心內(nèi)容:
01 小米大模型: 團隊30人,不發(fā)“類ChatGPT”深燃:4月14日,小米任命欒劍為大模型團隊負責人,向你匯報。能否介紹下小米大模型團隊是怎么誕生的?
王斌:大模型團隊是4月份宣布的,但在這之前已經(jīng)開始運作。
去年11月30日,OpenAI發(fā)布ChatGPT后,我們一堆人快速注冊賬號,在上面開始玩。ChatGPT確實很顛覆,我們做了這么多年AI,它的很多能力超出了我們研發(fā)人員的預期。
很快,我們就組織了多個內(nèi)部大模型交流群,討論大模型的技術,以及它對機器翻譯、人機對話、智能問答、客服會產(chǎn)生哪些顛覆性的影響。早期參加研討的很多人,后來都成了專職大模型團隊的重要成員。
深燃:小米大模型團隊會不會來得有點晚?
王斌:對于大模型,我們屬于理智派。
在ChatGPT誕生之前,小米內(nèi)部做過大模型相關的研發(fā)和應用,主要是預訓練+下游任務監(jiān)督微調(diào)的方式來做人機對話,模型的參數(shù)在幾十億級別。當然,這類模型并非現(xiàn)在所說的通用大模型。
我們非常清楚,通用大模型的研發(fā)和應用是一個長期的工作,不是早晚的問題。我們是按照自己的時間規(guī)劃和步驟在走,當時覺得時間點到了,就做了團隊發(fā)布。
深燃:大模型團隊有多少人?有繼續(xù)擴張的計劃嗎?
王斌:主力團隊目前有30多人。我們目前是先按照人才、數(shù)據(jù)、模型、算力、評測、產(chǎn)品這幾個方面去籌備,等到了一定階段再逐步調(diào)整或擴張。
我們目前不會馬上擴大人數(shù),比如一下招到100人。因為在積累能力爬坡階段,可能招這么多人都不知道怎么安排,反而是一種浪費。
隨著大模型相關信息的不斷公開,資本和人才的不斷涌入,大模型領域的發(fā)展非???,大家的看法變化也很大。前不久ChatGPT剛出來時,大家覺得,實現(xiàn)類似的大模型基本不可能,但是慢慢地,很多人覺得可能性很大,還有一些人認為,不需要那么大規(guī)模的模型就可以滿足很多產(chǎn)品的需求。大家的投資力度,差異也特別大。有些人可能覺得團隊至少要幾百人,有些人認為不需要。
深燃:接下來有沒有一些階段性的規(guī)劃,什么時候對內(nèi)測試和對外發(fā)布?
王斌:跟其他公司不太一樣,小米天生帶著產(chǎn)品的屬性,我相信小米大模型出來的時候,是由產(chǎn)品帶著出來。
我們內(nèi)部有可能會在Q3之前測試。不過,這也不是一個必然的節(jié)點。
深燃:也就是說,小米不會發(fā)布一個類ChatGPT產(chǎn)品?
王斌:對,我們不會發(fā)布一個PPT,或者演示一下我們有大模型了。應用場景豐富是我們最大的優(yōu)勢。小米大模型會跟場景結合得更緊密,肯定是圍繞產(chǎn)品的節(jié)奏去做相應的發(fā)布規(guī)劃。
深燃:除了人力之外,小米做大模型在算力方面的成本大概是多少?
王斌:我們屬于中等規(guī)模的投入,會視前期爬坡的結果,再決定下一步投入。
我們的基本判斷是,適用于小米產(chǎn)品和業(yè)務的模型,參數(shù)可能在幾百億,會比千億規(guī)模低,用于訓練的機器的投入大概是幾千萬人民幣級別。
深燃:之前小米做的幾十億參數(shù)級別的模型,現(xiàn)在怎么樣了?
王斌:去年發(fā)布的ChatGPT是大模型的一種,叫通用預訓練語言大模型。但大模型本身很早就出現(xiàn)了,大家有不同的路線、做法。
我們較早就開始跟進大模型,當時做的是一個對話專用模型,大概是28億到30億的參數(shù)。它是在預訓練基座模型的基礎上,通過對話數(shù)據(jù)的微調(diào)來實現(xiàn)的,并不是現(xiàn)在的通用大模型,而是專用于人機對話,比如,可以提高小愛同學對話的流暢度、多樣性,讓它可以聊下去。后來這個模型上線到小愛,進行了小規(guī)模上線測試。
所以,小愛同學里已經(jīng)用到了AIGC,只不過,我們在產(chǎn)品層面,沒有全部使用這個大模型,而是利用傳統(tǒng)模型和對話大模型的互補性,將兩個混合使用。
小米的通用大模型在落地產(chǎn)品時,很可能也是這種混合模式。傳統(tǒng)模型處理得非常好的問題,就交給傳統(tǒng)模型。大模型就解決它擅長的問題,例如一些小概率事件或是長尾對話。
現(xiàn)在出來的通用大模型,在對話水平上,明顯高于之前的對話專用大模型,所以這部分團隊也全都轉到通用大模型上了。這個團隊跑通過整個對話大模型的訓練過程,爬過一些坑,加上數(shù)據(jù)的積累,有一定優(yōu)勢。
02小米大模型: 場景占優(yōu)勢,數(shù)據(jù)是難題深燃:這段時間以來的技術進展非常迅猛,國內(nèi)大模型在密集發(fā)布,會因為進展慢而焦慮嗎?
王斌:我曾經(jīng)有一段時間比較焦慮,因為老不下場做就會有點慌,你就會想,“別人怎么進展這么快,一下子就做出來了?”現(xiàn)在我們下場去做了,也就不焦慮了。
據(jù)說,中國現(xiàn)在是“百模大戰(zhàn)”,已經(jīng)發(fā)布了80多個大模型,有些提供了內(nèi)測,有些只是PPT發(fā)布。有些模型的效果還是不錯的,光從發(fā)布的水平看,我們現(xiàn)有的自研大模型的水平,看上去也不比很多模型差。但我們不急于做對外發(fā)布。第一,對于小米這樣的公司來說,沒有太大意義。第二,我們還是希望圍繞產(chǎn)品,把自研模型做得更好一些,再一同發(fā)布。
深燃:你認為國內(nèi)公司的大模型有機會趕上OpenAI嗎?差距有多大?他們喜歡用三個月、六個月來形容。
王斌:目前來看,OpenAI肯定是走得非常靠前的,它投入時間早,在人才、數(shù)據(jù)、算力、工程、產(chǎn)品等方面都有非常強的積累。從國內(nèi)的情況看,我感覺目前和OpenAI還是有一定差距,有人說是三個月、六個月,也有人說是一年、兩年。時間上,真不好說。
因為怎么評價大模型,本身就是個挺難的問題。現(xiàn)在出現(xiàn)了各種大模型的排行榜,但目前都沒有得到大家的一致認可。沒有真正的評價標準,那么談三個月、六個月趕上,也就是個拍腦袋的說法。
至于國內(nèi)有沒有可能追上OpenAI,我早期比較悲觀,覺得幾乎不可能,但隨著各種開源方案、各種團隊和資本的涌入,我的判斷更樂觀一些。我認為,國內(nèi)有機會跟OpenAI縮小距離,去接近甚至在很多場景超過它。
大模型看上去不像芯片有那么高的門檻,通過人才、數(shù)據(jù)、算力等的不斷積累和優(yōu)化,是有可能不斷縮小差距的。
深燃:國內(nèi)哪些類型的公司搞大模型更有優(yōu)勢?小米的機會在哪里?
王斌:不管大公司還是中小的創(chuàng)業(yè)公司,都有各自的生存空間。大模型是一個生態(tài),并非一家獨大就能通吃,生態(tài)上的所有公司,包括做算力的、做數(shù)據(jù)的、做應用的,還有真正做大模型的公司,都有各自的機會。
像小米做大模型,有應用場景的優(yōu)勢。我們認為,大模型跟場景的結合會是一個巨大的機會。
因為如果只是發(fā)布大模型,沒人用,那不一定能通過滾動快速發(fā)展起來。而我們可以馬上落地到場景,通過不斷迭代,在這些場景充分發(fā)揮出大模型的威力。
雖然我們目前只整合了一支30多人的主力團隊,但實際上外圍還有非常多的人。整個AI實驗室,有NLP背景且在做具體應用的,就有一百多人,包括知識圖譜、機器翻譯、人機對話、智能客服、智能問答。他們都是具有大模型基礎思維以及相關技術的人員,正在從各自應用的角度推動對大模型的探索。
王斌
深燃:小米在NLP研究上的積累,對大模型的價值有多大?
王斌:這在業(yè)界存在兩種說法。一種說法是,我們這些人可能沒活干了,AI革了自己的命,特別是做NLP的人可能就沒飯碗了。還有一種說法是,畢竟大模型是從NLP干出來的,做NLP的人有先天優(yōu)勢。
這兩種說法都有一定道理,但畢竟涉及到我的飯碗,我更傾向于后一種說法。
大模型原本在各個領域都有探索,包括視覺、語音、NLP。但為什么是在NLP這個領域首先突破,我相信這里面有本質的原因。我理解至少有兩點:第一是語言數(shù)據(jù)的豐富性和易獲得性,第二,語言數(shù)據(jù)背后隱含著非常豐富的反應人類思考過程的知識。
所以我相信,在NLP領域有多年積累的人,對大模型的理解和改造能力有一定的先天優(yōu)勢。小米大模型團隊的成員,很多原來是做NLP方向的。國內(nèi)做大模型非常不錯的幾家創(chuàng)業(yè)公司,也是從NLP領域出來的。
深燃:小米攻克大模型目前的難點有哪些?怎么克服?
王斌:首先我還是想說,大模型本身有非常巨大的挑戰(zhàn)。
一項巨大的挑戰(zhàn)是技術的不確定性。我們看過一些報道,甚至OpenAI團隊自己也不十分清楚大模型背后的真正原理,如果再做一次,對是否能夠出現(xiàn)同樣的“涌現(xiàn)”結果也沒有把握。我相信這一點上OpenAI講的是實話,由于技術上有非常大的不確定性,所以有投入不能保證一定能訓練出滿足預期的大模型。
高質量數(shù)據(jù)的積累也是一項挑戰(zhàn)。大家一般認為,大模型需要極大規(guī)模高質量的訓練數(shù)據(jù)。網(wǎng)絡上公開得到的數(shù)據(jù),質量總體比較差,所以數(shù)據(jù)的獲取、清洗,都是比較大的挑戰(zhàn)。
另外的挑戰(zhàn)當然是算力。首先,并不是說有這么多卡就能夠訓出來,怎么能夠用好這些卡本身就是一個系統(tǒng)級的挑戰(zhàn)。其次,因為在訓練過程中可能會犯錯,可能錢燒沒了,什么都燒不出來,所以要看你有沒有能力用可控的成本把大模型訓練出來。
實事求是地說,目前數(shù)據(jù)和算力的挑戰(zhàn)還是比較大的,尤其是大規(guī)模的高質量數(shù)據(jù)。經(jīng)過前面一段時間的爬坡,我們現(xiàn)在基本有把握,只要數(shù)據(jù)到位,利用現(xiàn)有的算力,我們大概能知道多少天能夠訓出一個還可以的基座模型。
深燃:現(xiàn)在大模型訓練的成本降低了嗎?
王斌:一方面,試錯的成本比以前低了。因為大模型訓練是可能走彎路、會失敗的,但是隨著各種信息的公開,現(xiàn)在可能能很快找到訓練的正確方向。另一方面,很多云計算、芯片等公司,還有很多創(chuàng)業(yè)公司,都在提供更低成本的大模型訓練和推理服務。隨著整個生態(tài)進一步發(fā)展,我相信訓練的成本會不斷降低。
03大模型怎么影響小米業(yè)務?深燃:能否詳細介紹下你負責的小米AI實驗室?
王斌:在2016年“阿爾法狗(AlphaGo)”橫空出世后,雷總第一時間推動了AI團隊的建設。AI實驗室于2016年正式成立,我從2019年開始負責。
原來AI實驗室隸屬于人工智能部。后來人工智能部合并到集團技術委員會,現(xiàn)在AI實驗室是技術委員會的直屬部門。
AI實驗室現(xiàn)在的團隊規(guī)模在350人左右,下屬六個方向,分別是機器學習、自然語言處理(NLP)、計算機視覺、聲學、語音和知識圖譜。
大模型出來后,AI實驗室設立了專職大模型團隊,我們現(xiàn)在的重點是語言大模型,但也在關注跨模態(tài)大模型。
深燃:盧總(小米集團總裁盧偉冰)說小米AI團隊目前超過1200人。除了AI實驗室,小米內(nèi)部還有哪些部門跟AI強關聯(lián)?
王斌:AI實驗室之外,還有小愛同學團隊,這兩個團隊都在技術委員會下面。
技術委員會之外,還有很多部門都有比較大的AI團隊,包括汽車部的自動駕駛部,手機的相機部、軟件部,此外,在互聯(lián)網(wǎng)業(yè)務部做的用戶增長、廣告推薦,都跟AI相關。
總之,AI相關的團隊有些在業(yè)務部門,有些在技術委員會,總數(shù)大概1200人,如果再考慮一些小團隊,這個數(shù)字我個人覺得還更大一些。
深燃:小米AI實驗室在小米AI戰(zhàn)略里是什么角色?
王斌:AI實驗室是集團層面的AI技術研發(fā)和輸出部門。通俗地說,我們是面向全公司輸出AI技術。
我們曾經(jīng)把AI實驗室比喻成集團層面AI技術的“試驗田”和“彈藥庫”。因為AI發(fā)展迅速,AI實驗室會研發(fā)一些中長期的前沿技術,圍繞小米業(yè)務做儲備,在集團需要的時候輸出“彈藥”。
在AI技術層面,我們在公司里肯定是儲備最齊全的,在行業(yè)里也是非常有實力的。
深燃:小米AI實驗室有哪些重要的研究成果?
王斌:我們AI實驗室的理念更強調(diào)技術和場景的結合,目前還沒有把發(fā)表論文當作OKR。所以,我從中科院(中國科學院)來到小米后,自己感覺最大的成就不是某個單點的技術的進展,而是技術和產(chǎn)品的巧妙融合。
小米是一家To C的公司,我們的AI能力輸出暫時不直接對外輸出,而是通過公司的產(chǎn)品輸出。我們的成果非常多,包括小米手機中的很多拍照和相冊處理算法,小愛同學中涉及的語音、NLP等算法,小米商城的推薦、搜索、客服系統(tǒng)中的AI算法。
我舉個例子,我們在手機上開發(fā)了離線翻譯功能,比如出國后,很多情況下網(wǎng)絡沒有那么好,這時候打開小米手機的翻譯功能,不用走云端,離線狀態(tài)下,實時性、隱私性和翻譯效果都比較好。這個功能的實現(xiàn)和應用都不算容易,我們做了很多很多翻譯效果和性能的優(yōu)化工作。
在小米內(nèi)部,并不是我們自己的技術,就會優(yōu)先用,內(nèi)部技術也要和外部技術去公平去PK,只有勝出才能活下來,應用到產(chǎn)品。
深燃:以ChatGPT為代表的大模型技術,會對小米的哪些業(yè)務帶來影響?
王斌:大模型最強的能力,簡單來說就是它更理解人,它顯然能優(yōu)化人機交互的方式。小米的小愛同學、手機操作系統(tǒng)MIUI、汽車的座艙、IoT、機器人,都是應用大模型的典型場景。
深燃:能不能以小愛同學舉例說說。
王斌:應用到小愛同學上,能同時做到兩件事。一類是讓不可能變成可能,相當于有了新的功能。比如,我讓小愛制定一個出行計劃或者訂餐等等。原來的技術能力沒有達到,用戶稍微換一種說法,它就亂套了。但有了大模型的支持,它對人的話語的理解更深了,這樣就可以完成復雜任務,這類應用就有可行性了。
還有一類是對原來功能的增強,相當于錦上添花。因為人類表達的跳躍性、多樣性,原來在小愛同學人機交互的過程中,最大的問題就是遇到小概率事件,我們叫Corner Case,通常會采用保守策略,讓小愛說,“我回答不了”,“我還在學習”。這種托底回答也能把對話進行下去,但體驗不好。但大模型技術能把對話進行得更長,而且大幅度提高用戶滿意度。
深燃:大模型對智能家居的影響大嗎?
王斌:按照我的個人理解,大模型至少能在交互能力上,提高智能家居的使用體驗。
現(xiàn)在雖然有很多設備號稱“智能”,但表現(xiàn)上經(jīng)常像“智障”導致使用率不高。比如說,打開空調(diào)或者調(diào)控空調(diào)溫度,如果說法跟標準指令不一樣,就可能就無法控制IoT設備。
但大模型來了以后,對人類語言的理解更深了,很多情況下表達方式各種各樣,大模型能把用戶的表達翻譯成機器能聽得懂的指令。這會帶動更多人使用智能設備,讓整個生態(tài)能更快成長起來。
深燃:除了現(xiàn)有業(yè)務的提升,還有哪些事情是以前小米做不到,但有了大模型以后有可能去做的?
王斌:我們會讓大模型和這些業(yè)務做深度的協(xié)同,當然,除此之外,我們也在尋找更多可能性。
我們團隊寫了很多文章在公司內(nèi)部推廣大模型,包括大模型的概念和技術發(fā)展,教大家怎么用ChatGPT來解決業(yè)務問題。雷總已經(jīng)要求每個部門都要學習大模型,要求大家具有基本的大模型思維,思考怎么跟業(yè)務結合。
本文(含圖片)為合作媒體授權創(chuàng)業(yè)邦轉載,不代表創(chuàng)業(yè)邦立場,轉載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。
關鍵詞:
責任編輯:hnmd004
- IPHONE14PRO到貨已排到10月了嗎?蘋果官方2023-06-15
- 紅磚什么樣的比較好_紅磚的選購和使用攻略2023-06-15
- 貓咪臨死前的六個特殊征兆是什么? 貓咪壽2023-06-15
- 環(huán)球要聞:房產(chǎn)稅入什么科目?中華人民共和2023-06-15
- 今日精選:日利率0.05%是多少?日利率0.05%2023-06-15
- 借唄逾期有什么影響?借唄逾期多久上征信記2023-06-15
- 巴西果什么時候結果(巴西果營養(yǎng)成分介紹)2023-06-15
- 小龍蝦一年繁殖幾次?小龍蝦的季節(jié)是幾月份2023-06-15
- 明星為什么要走戛納紅毯?迪麗熱巴走過戛納2023-06-15
- 青丘帝姬和天族公主誰更尊貴?天族為什么怕2023-06-15
- 交強險查詢是否到期?在哪看交強險什么時候2023-06-15
- 債務危機是什么 美國借錢的方法是什么? 2023-06-15
- 債務危機是什么意思 美元成為世界貨幣的2023-06-15
- win10禁用觸摸板怎么啟用?win10觸控板手勢2023-06-15
- 車貸晚上11點存進去會逾期嗎?車貸逾期一天2023-06-15
- 社會融資增加對投資有什么影響嗎?投資和融2023-06-15
- 利亞德是一家什么公司?利亞德最新股票行情2023-06-15
- 你知道比熊犬能長多大嗎?比熊犬的缺點有哪2023-06-15
- 康為世紀:6月14日融券賣出金額13.96萬元,2023-06-15
- 三周年對聯(lián)大全來了!母親三周年紀念對聯(lián)看2023-06-15
- 機動車駕駛證申領和使用規(guī)定第七十五條內(nèi)容2023-06-15
- 社保斷交有什么影響?社保斷交幾年后可以續(xù)2023-06-15
- 世界觀天下!我的文檔在哪 電腦我的文檔可2023-06-15
- 持倉金額就是錢的凈值嗎?持股一年多第二次2023-06-15
- 每日動態(tài)!360安全衛(wèi)士極速版和普通版的區(qū)別2023-06-15
- 比亞迪屬于什么板塊的股票?比亞迪股票怎么2023-06-15
- 環(huán)球微頭條丨公辦二本和民辦二本的區(qū)別是什2023-06-15
- e31231v3配什么主板可以超頻?至強E3-1231V2023-06-15
- 熊市期間股市是什么狀態(tài)?熊市買哪個行業(yè)的2023-06-15
- 銀行貸款怎么貸最劃算?100萬的房子二次抵2023-06-15
精彩推薦
閱讀排行
-
mvbox怎么捕獲屏幕?mvbox如何捕獲屏幕? 熱點聚焦
下一篇2023-06-12 13:25:57
-
一夜之間,字節(jié)跳動海外失控
上一篇2023-06-12 12:29:19