免费影院,欧美黄色高清,日本卡一卡二卡三乱码免费网站 ,亚洲天堂综合在线

2023年后,AI 還有什么研究方向有前景?

讓我們先了解一下數(shù)據(jù)中心的人工智能(Data-centric AI),然后再討論其重要性。


什么是Data-centric AI?


Data-centric AI是一種全新的AI系統(tǒng)構(gòu)建理念,由著名AI專(zhuān)家吳恩達(dá)大力推崇。吳恩達(dá)提出了Data-centric AI的定義,傳統(tǒng)的構(gòu)建AI模型方法是通過(guò)迭代模型來(lái)提高預(yù)測(cè)準(zhǔn)確率,數(shù)據(jù)相對(duì)固定。通常會(huì)關(guān)注幾個(gè)基準(zhǔn)數(shù)據(jù)集,然后設(shè)計(jì)各種模型來(lái)提高預(yù)測(cè)準(zhǔn)確率,這種方法稱(chēng)為以模型為中心(model-centric)。但是,model-centric方法沒(méi)有考慮到實(shí)際應(yīng)用中數(shù)據(jù)可能出現(xiàn)的各種問(wèn)題,例如不準(zhǔn)確的標(biāo)簽、數(shù)據(jù)重復(fù)和異常數(shù)據(jù)等。高準(zhǔn)確率的模型只能確保很好地“擬合”數(shù)據(jù),但并不能保證在實(shí)際應(yīng)用中表現(xiàn)良好。與model-centric不同,Data-centric更側(cè)重于提高數(shù)據(jù)的質(zhì)量和數(shù)量。也就是說(shuō),Data-centric AI關(guān)注的是數(shù)據(jù)本身,而模型相對(duì)穩(wěn)定。采用Data-centric AI的方法在實(shí)際場(chǎng)景中有更大的潛力,因?yàn)閿?shù)據(jù)很大程度上決定了模型能力的上限。需要注意的是,“Data-centric”與“Data-driven”(數(shù)據(jù)驅(qū)動(dòng))是兩個(gè)根本上不同的概念。后者僅強(qiáng)調(diào)使用數(shù)據(jù)指導(dǎo)AI系統(tǒng)的構(gòu)建,仍然聚焦于模型開(kāi)發(fā)而不是改變數(shù)據(jù)。


為什么Data-centric AI是未來(lái)?


過(guò)去,研究人員的重點(diǎn)通常放在模型的設(shè)計(jì)上。然而,如今經(jīng)過(guò)多年的研究,模型設(shè)計(jì)已經(jīng)相對(duì)成熟,尤其是在Transformer模型的出現(xiàn)之后,我們似乎還沒(méi)有看到這種模型的極限。從最初的GPT-1到現(xiàn)在的ChatGPT/GPT-4,所使用的訓(xùn)練數(shù)據(jù)經(jīng)歷了以下變化:從小型數(shù)據(jù)(對(duì)于OpenAI來(lái)說(shuō))到更高質(zhì)量的大型數(shù)據(jù),再到由高質(zhì)量人類(lèi)標(biāo)注的數(shù)據(jù)。模型設(shè)計(jì)并沒(méi)有發(fā)生很大的變化,除了為了適應(yīng)更多的數(shù)據(jù)而增加了更多的參數(shù),這與Data-centric AI的理念是一致的。從ChatGPT/GPT-4的成功可以看出,高質(zhì)量的標(biāo)注數(shù)據(jù)至關(guān)重要,而OpenAI對(duì)數(shù)據(jù)和標(biāo)簽質(zhì)量的重視程度令人震驚。從另一個(gè)角度來(lái)看,現(xiàn)在的ChatGPT/GPT-4模型已經(jīng)足夠強(qiáng)大,我們只需要調(diào)整提示(推理數(shù)據(jù))來(lái)達(dá)到各種目的,而模型則保持不變。例如,我們可以提供一段長(zhǎng)文本,再加上特定的指令,比如“summarize it”或者“TL;DR”,模型就能自動(dòng)生成摘要。在這種新興模式下,Data-centric AI變得更為重要。未來(lái),許多AI從業(yè)者可能不再需要訓(xùn)練模型,而只需要進(jìn)行提示工程(prompt engineering)。因此,在大模型時(shí)代,Data-centric AI的理念將變得越來(lái)越重要。