捧起她娇臀猛烈冲刺h,久久亚洲精品无码网站,公与媳系列100小说,欧美大片18禁aaa片免费,国产成人无码a区视频,xxxx欧美丰满大屁股 free,韩国在线无码中文字幕,2021年精品国产福利在线,日本成年片黄网站色品善网

版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

計算機也有視覺?讓計算機“看見”世界

科普中國創(chuàng)作培育計劃
原創(chuàng)
科普中國創(chuàng)作培育計劃運營團隊賬號:創(chuàng)作者培育計劃作品發(fā)布等
收藏

一、視覺的誕生

地球上的生命在誕生后的幾十億年里,都沒有發(fā)生什么巨大的變化。它們一直“平躺”在原始海洋的底部,既不能自主移動,也不能捕獵和覓食。

直到大約5億年前,進化突然開始大爆發(fā),在接下來的短短幾千萬年中,生命探索出了各種不同的身體結(jié)構(gòu),幾乎覆蓋了今天的所有生物類型,它們也擁有了復雜的行為,可以捕食、趨光和避害。

雖然寒武紀生命大爆發(fā)的原因有很多,但其中重要的原因之一,就是視覺的出現(xiàn)。視覺讓生物適應環(huán)境的能力產(chǎn)生飛躍,也因此成為了最重要的感知功能。

乍一聽起來,視覺是眼睛的功能,因為我們總是用眼睛看東西。但事實上,眼睛只是感知器官,只能被動接收外界的光線信息。這些信息要經(jīng)過復雜的解碼后,才能在大腦里產(chǎn)生理解,讓我們知道周圍發(fā)生了什么,應該作出什么樣的反應。因此,大腦其實才是最重要的視覺器官。

對計算機來說,模擬“眼睛”的功能不難,一個攝像頭就能輕松做到。但要像大腦視覺區(qū)域一樣真正理解視覺信息卻非常困難。

圖片來源:pixabay

我們?nèi)祟愒谀暧椎臅r候,只需要在生活中看到幾只貓,就能非常清晰地理解貓的視覺特征,下次再看到一只陌生的貓,也能一眼就認出來。但我們卻很難把這樣的特征轉(zhuǎn)變成計算機能理解的形式。例如,圖片中的貓雖然都是貓,但對計算機來說,卻毫無相似性。

所以,雖然傳統(tǒng)的視覺算法設(shè)定了大量的規(guī)則,試圖提取出各種各樣的圖片特征,但卻一直無法理解圖片的內(nèi)容,以至于連識別圖片中的物體是貓還是狗這樣對人類輕而易舉的事情都做不好。

二、神經(jīng)網(wǎng)絡(luò)算法的助力

為了驗證算法對圖片分類的準確性。當時在普林斯頓大學任教的計算機科學家李飛飛在2010年發(fā)布了一個巨大的圖片數(shù)據(jù)集 ImageNet,包含了一千多個類別。2010年,當時最先進的算法只能正確識別72%左右的圖片。

但深度學習的出現(xiàn)改變了一切。2012年,多倫多大學的杰弗里·辛頓和他的兩個學生發(fā)表了神經(jīng)網(wǎng)絡(luò) AlexNet。這個網(wǎng)絡(luò)立刻在 ImageNet 上產(chǎn)生了巨大的突破,將準確率提升到了84%多。

又過了幾年,辛頓獲得了圖靈獎,而論文的另一個作者伊利亞·蘇特斯威夫( Ilya Sutskever)則成為了 OpenAI 的創(chuàng)始團隊成員,但這都是后話了。

神經(jīng)網(wǎng)絡(luò)是如何識別圖片的?我們可以看一個簡單的例子。假如我們要識別一個28*28圖片上的手寫數(shù)字。我們可以把圖片中的像素拉長,變成一列由784個數(shù)字組成的數(shù)列。然后,我們可以把這個數(shù)列作為輸入傳送到神經(jīng)網(wǎng)絡(luò)里。神經(jīng)網(wǎng)絡(luò)的輸出包括10個神經(jīng)元,每個神經(jīng)元的輸出值代表一個數(shù)字。

一開始,輸入圖片數(shù)據(jù)后,輸出的結(jié)果是隨機的。但如果我們用大量訓練數(shù)據(jù)訓練這個神經(jīng)網(wǎng)絡(luò),讓網(wǎng)絡(luò)根據(jù)正確結(jié)果修改自己的參數(shù),不斷反饋,神經(jīng)網(wǎng)絡(luò)逐漸就能學會如何正確識別數(shù)字了。

但這種簡單的神經(jīng)網(wǎng)絡(luò)也存在問題。

三、新問題的出現(xiàn)

第一個問題是它的參數(shù)非常多。假如我們在輸入和輸出之外,只使用100個神經(jīng)元作為中間層,就會產(chǎn)生784*100+100*10 = 79400個連接。而我們要處理的圖片,往往遠遠大于28*28像素,所以會導致模型里帶有太多參數(shù),變得難以訓練。第二個問題是,這種方法打亂了像素在原始圖片中的分布,不符合人類觀看圖片的模式。

如何解決這兩個問題呢?研究人員觀察到兩個特性。

首先,辨別圖片中的物體不一定需要掃描圖片中的每個像素,而只要找到圖片的重點區(qū)域是否出現(xiàn)了某個重要的特征。例如,我們?nèi)绻吹揭粔K黑白相間的皮膚,也許就能直接判斷出圖片里的動物是斑馬。

其次,這種特征在圖片的位置并不關(guān)鍵。無論一只貓出現(xiàn)在照片的什么位置,它都是一只貓。

因此,研究人員不再打亂像素,而是用一個類似小窗口一樣的工具在圖片上滑動,捕捉圖片不同位置上的局部特征。這些小窗可以通過一組參數(shù)滑遍全圖,所以減少了參數(shù)量,而且也捕捉到了圖片不同的區(qū)域。使用了這樣“小窗”的神經(jīng)網(wǎng)絡(luò)又叫卷積神經(jīng)網(wǎng)絡(luò)。AlexNet 其實就是一種簡單的卷積神經(jīng)網(wǎng)絡(luò)。

隨后,神經(jīng)網(wǎng)絡(luò)技術(shù)不斷得到優(yōu)化,神經(jīng)元數(shù)量和網(wǎng)絡(luò)層數(shù)都在不斷增加,性能也不斷提升,幾年后在 ImageNet 上的準確率就已經(jīng)超過了97%,至少在這個數(shù)據(jù)集上接近了人類的水平。

不過,除了圖片分類外,計算機視覺還有很多別的任務(wù)。比圖片分類更難一些的是物體識別。物體識別任務(wù)不僅需要識別圖片中的物體,還需要標出物體所在的位置。有的時候,圖片中還包括不止一類物體。

物體識別被廣泛應用于自動駕駛中,因為自動駕駛系統(tǒng)要能識別不同類型的物體,比如其他汽車、行人、信號燈和指示標識等等。

另外,我們還需要模型理解不同“模態(tài)”的數(shù)據(jù),并把它們結(jié)合在一起。例如,結(jié)合了文本和圖片的模型可以根據(jù)文字生成圖片。

除了處理已經(jīng)存在的圖片,我們還想讓機器生成新的圖片和視頻?,F(xiàn)在,OpenAI、谷歌和百度等機構(gòu)都已經(jīng)有了較為成熟的圖片生成工具,但視頻生成技術(shù)還相對原始,有很大的改進空間。

計算機視覺領(lǐng)域還有一個開放的問題,就是是否可以開發(fā)一個類似 GPT-4或 chatGPT 這樣的通用視覺模型。畢竟,視覺理解是智能不可或缺的一部分,缺少視覺能力的語言大模型不能讓所有人都相信體現(xiàn)了全部智能。

文章由科普中國-星空計劃(創(chuàng)作培育)出品,轉(zhuǎn)載請注明來源。

作者:管心宇 科普作者

審核:于旸 騰訊玄武實驗室負責人

內(nèi)容資源由項目單位提供

評論
科技助力我們的生活
少師級
對計算機來說,模擬“眼睛”的功能不難,一個攝像頭就能輕松做到。但要像大腦視覺區(qū)域一樣真正理解視覺信息卻非常困難。但隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的不斷優(yōu)化,賦予了計算機神奇的視覺功能,如現(xiàn)在的汽車無人駕駛技術(shù)就是典型的物體識別技術(shù),相信未來,計算機視覺領(lǐng)域還會開發(fā)出更多的應用技術(shù)。
2023-10-12
坦 蕩 蕩
太傅級
對計算機來說,模擬“眼睛”的功能不難,一個攝像頭就能輕松做到。但要像大腦視覺區(qū)域一樣真正理解視覺信息卻非常困難。
2023-10-12
演繹無限精彩
大學士級
計算機視覺正在重新定義我們與數(shù)字和物理世界的互動方式。未來我們可以期待,計算機視覺系統(tǒng)將繼續(xù)成為改善生活質(zhì)量和推動科技進步的強大工具。
2023-10-12