訂閱
糾錯
加入自媒體

周海宏:不能用AlphaGo的思路,去做音樂的人工智能

2017-11-26 00:10
AI森林
關注

持續(xù)七日的2017全球創(chuàng)業(yè)周中國站(Global Entrepreneurship Week China,簡稱GEW),11月19日在上海長陽創(chuàng)谷1會場迎來壓軸之作——人工智能產(chǎn)業(yè)投資論壇的開幕。

論壇由初創(chuàng)投資主辦。于2012年成立的初創(chuàng)投資,是中國第一家人工智能產(chǎn)業(yè)投資機構,是國內數(shù)十家人工智能企業(yè)最早的投資機構。

此次論壇成功匯聚全球范圍內超過60家明星企業(yè)、近二百位產(chǎn)業(yè)界投資界學術界的專業(yè)人士,并吸引數(shù)千人次的專業(yè)觀眾到場參會。其中,八位身處人工智能“產(chǎn)學研創(chuàng)投”前線、腦洞驚人的實力派嘉賓,先后發(fā)表主題演講。

中央音樂學院副院長、教授、博士生導師周海宏率先登臺演講。他以“如何讓機器聽懂音樂——音樂理解的人工智能路線圖”為題,向現(xiàn)場觀眾展示了人工智能與音樂深度關聯(lián)的可能性。

周教授首先對“聽懂”進行了限定,采用日常人們所說的聽“懂”即是指從音樂中感受到視覺性的形象、情態(tài)性的情感,甚至思想性的哲理。要實現(xiàn)機器“聽懂”——理解音樂的目的,就必須從聯(lián)覺理論出發(fā),找出人類由音樂的聽覺體驗引發(fā)其它感覺之間的聯(lián)覺對應關系。

周海宏:不能用AlphaGo的思路,去做音樂的人工智能〡2017GEW

核心觀點:“聯(lián)覺是人的本能,是音樂引發(fā)其它感覺體驗的中間環(huán)節(jié)。未來,我們做音樂理解人工智能,采用阿爾法狗的路線,通過分析個人音樂審美經(jīng)驗去獲得規(guī)則,是行不通的;而應該象阿爾法元那樣,把人類理解音樂的規(guī)則直接告訴機器。即,不是通過經(jīng)驗學習獲得規(guī)則,而是通過規(guī)則獲得策略,這樣,才有望在音樂理解與感受的領域上出現(xiàn)人工智能應用場景!

————————————————————————

以下內容來自周海宏的演講全文,文字由AI森林整理:

真沒想到會站在今天這個講臺上。我既不懂人工智能,也不懂各種復雜計算,更不懂市場。我的專業(yè)是音樂心理學,是研究審美規(guī)律的。

我先給大家唱一個旋律,你們來告訴我,哪個是表現(xiàn)高山,哪個表示流水的。

大家肯定會一致覺得第一個是流水,第二個是高山。為什么所有人的立刻一致地產(chǎn)生了這樣的“聽懂”音樂的判斷?這其中一定是有規(guī)則的。我之所以能夠舉出讓大家產(chǎn)生一致反應的音樂例子,一定是通過研究掌握了這個規(guī)則。

讓機器擁有理解音樂的人工智能,也需要由人來告訴機器一些規(guī)則,在這個規(guī)則的基礎上,機器才能進行后續(xù)的復雜計算。

如何讓機器“聽懂”音樂?大家可能在想,連人都不一定能“聽懂”音樂,機器怎么能夠“聽懂”音樂呢?

音樂有兩個最重要的屬性,一是沒有視覺造型性,二是沒有語意符號,因此音樂不能傳達視覺形象,也不能直接傳達思想概念,這是造成大家聽不懂音樂的核心原因。

我們先來分析一下,人是如何“聽懂”音樂的。

下面我放一個例子。這一段音樂,大家覺得它表現(xiàn)的是什么?

我做過調查,很多人會選擇“險峻的高山”和“洶涌的大海”。

再放一段曲子,所有人會選擇“清澈的小溪”和“秀麗的田園”。

人的主觀感受為什么會有如此高的一致性?一定是這段音樂和那個場景形成了對應的關系——聯(lián)覺對應關系。

所謂聯(lián)覺就是一個感覺器官受到刺激,其它的感覺器官發(fā)生了反應的心理現(xiàn)象。

巧克力與薄荷糖,高音與低音,大家一定認為低音像巧克力,高音像薄荷糖;紅燒肉和酸泡菜,大家會覺得泡菜像高音;悶熱和涼爽,大家會覺得涼爽像高音;亮色和暗色,大家會覺得高音亮, 低音暗;羊絨和真絲,真絲像高音……味覺、溫度、視覺、觸覺,都和聽覺聲音的高低發(fā)生了對應關系。這些現(xiàn)象就是聯(lián)覺的表現(xiàn)。

由此大家可以想到,如果把人對聲音的感覺與其它感覺的聯(lián)覺對應關系找到了,就邁向了機器理解音樂最重要的一步。

我放兩段音樂,大家覺得哪段適合給空調機廣告配樂。,對,是第二段音樂,因為高音會讓人感覺涼快;如果是給《法治進行時》來選片頭,就會選擇第一段音樂,因為低音給人感覺“深沉”!吧睢笔强臻g高度,“沉”是物體重量,我們拿這兩個字形容聽覺的聲音,這個詞本身就是聯(lián)覺現(xiàn)象。

我的論文《音樂與其表現(xiàn)的世界》,獲得過2001年教育部全國優(yōu)秀博士學位論文獎。這是音樂理論界第一個獲得百篇優(yōu)博獎的,因為這篇論文發(fā)現(xiàn)了音樂和表現(xiàn)東西之間的中間環(huán)節(jié),揭開了音樂藝術表現(xiàn)之謎。

聲音的高低是頻率決定的,它與顏色有聯(lián)覺關系。三百前就有人研究色-聽的聯(lián)覺關系了,但一直沒有找到穩(wěn)定的、普遍的規(guī)律,色-聽聯(lián)覺一直不能排除主觀臆想。

大家知道,我們感受到的顏色不是單純的元素,是由色調、明度、飽和度構成的。當我把顏色和聲音都做了具體的元素的細分后,使得聯(lián)覺的問題迎刃而解。研究發(fā)現(xiàn),聲音和顏色的色調無關,而只是和明度有關——聲音的高低,和顏色的明暗形成了聯(lián)覺對應關系。

聲音的強弱是一個能量的現(xiàn)象:強音使人感覺大,弱音使人感覺小。強音使人感覺動,弱音使人感覺靜。

聲音的長短和空間的延展形成對應關系。因此,對物體大小、人的個性特征也有表現(xiàn)力。比如,偉人,就要用慢速的聲音來表現(xiàn)。對應地,小人出場,那就用快速。

聲音的包絡特征與硬、軟,柔和、威脅有對應關系。

緊張度由聲音的音色和聲音的組合特征產(chǎn)生。聲音的緊張對應了情緒的緊張,聲音與顏色的混雜、利益的競爭、主體的需要和期待等等,都有對應關系。

根據(jù)上面的原理,我來舉些例子,比如中國民歌《小白菜》,[唱《小白菜》]“小白菜呀地里黃呀,兩三歲上,沒了娘呀……”一個七個月的小孩,聽著聽著就哭了。

復雜一些的例子,《國際歌》,為什么給人感覺是悲壯的?要拆解為“壯”和“悲”,“壯”是向上的,和諧的,音樂的旋律用了向上的四度音程;緊接著后面的下行產(chǎn)生“悲”感,再壯、再悲,這就是為什么《國際歌》經(jīng)常在革命失敗的時候才唱。實際上,它之所以給人悲壯的感覺,就是因為音樂形態(tài)有這樣的特征。

音樂理解的人工智能,要求必須把一個聲音帶來的感受細分到具體的元素中,才能被機器理解。音樂理解的人工智能有一個非常重要的預處理工作:對音樂描述詞所指的感覺現(xiàn)象的進行精細切分。

總結一下:作曲家就是靠聯(lián)覺來選擇和組織聲音進行表現(xiàn),聽眾也是依據(jù)聯(lián)覺反應規(guī)律感受音樂的“弦外”之“意”。

在此,特別想和從事人工智能的朋友們講一下:我們現(xiàn)在的人工智能思路,基本上是給它一大堆的音樂案例,讓聽者為音樂打上標簽,然后讓計算機進行深度學習,從中分析出來帶這個標簽的音樂所具有的特征。這其實就是AlphaGo的思路。

但如果我們做音樂的人工智能研究,也這樣搞,就會出現(xiàn)問題。因為一個人可能在音樂感受的過程中有太多個人主觀性因素。

同樣是柴可夫斯基的作品,如果這個人的注意力放在低音部,就會感覺這個曲子悲哀,如果注意力放在高音部,就會覺得是明快的。最不明智的是根據(jù)歌詞給音樂的情感打標簽,這時候遇到一個問題,詞所暗示的情感和音樂形態(tài)特征不能對應,比如“傷心總是難免的”這個旋律[唱],你一點不覺得傷心。

另外,從音樂創(chuàng)作的人工智能角度看,絕大多數(shù)音樂作品不是好作品。即便是一個好作品,還有很多部分不是好的,只有其中一部分非常閃光的東西,才讓它成為一個偉大的作品。如果把完整的作品交給計算機,它一定把臭棋和好棋都學下來。關鍵是,下圍棋是有對錯的,計算機可以判斷這步走的是對、是錯,但是,音樂的欣賞沒有好壞對錯的絕對標準,這對計算機而言,就更麻煩,它不知道哪個結果是對的。我們要認識到:莫扎特和肖邦,絕不是象機器那樣學了所有前人的作品才成為偉大作曲家的,他們一定是根據(jù)自己頭腦中的規(guī)則進行創(chuàng)作。

我們需要換一種思路,整個藝術的人工智能要換一個思路,不再是分析以往的作品,而是把這個直接決定音樂藝術最本質的價值判斷規(guī)則告訴機器,這就是AlphaZero的思路。

當然,具體的工作非常非常復雜。我們首先要對音樂的音頻進行一系列分析,分析出來人的聽覺判斷對象,還要把人的聽覺注意分配規(guī)則告訴計算機。計算機才能象人一樣聽音樂,然后才能根據(jù)前面分析的聯(lián)覺對應關系規(guī)則進行機器的理解工作。

我最近看了一個人工智能的研究,為了標識音樂作品每段的情緒特征,它們的方案是按每5秒鐘切分一段進行分析。大家知道,音樂不是按照每5秒一換情緒的,其實應該按照音樂句法切分。但是,這項研究沒有按音樂句法劃分規(guī)則切分,采取了每5秒鐘截一個段。以這樣分段去分析,計算機算出的結果一定是亂的。

下一步是要做一個大的音樂描述詞的詞庫,標出音樂描述詞的感性特征,然后讓計算機去學習。需要排除沒有感性特征、音樂表現(xiàn)不了的詞,留下音樂能表現(xiàn)的,然后我們再把這些描述詞的應用情景進行分類。

接下來就需要依據(jù)聯(lián)覺對應關系,對這些描述詞的感性特征進行前面說的聲音五大表現(xiàn)元素賦值;之后,還要標定這個描述詞的備選情景。比如“郁悶”這個詞,我們需要列出這個詞的使用情境。這是因為雖然聯(lián)覺有共同性,但每個人的聯(lián)想不相同,需要依照個人的經(jīng)驗來由聽者自己選擇適宜的情境。

最后實現(xiàn)這樣的應用場景:

把一段音樂輸入計算機,計算機就會自然反饋出來一些描述這段音樂帶給人感受的詞——這就是機器聽懂了音樂的表現(xiàn)!

進一步的應用可以讓聽眾選擇自己偏好的聯(lián)覺激發(fā)情景。

或者如果給計算機一個沒有聲音的場景片或廣告,它能根據(jù)這個場景或廣告的感性特征(當然這需要那個領域人工智能的配合)選出適合的配樂。

當我們也可以把自己的心情以各種各樣的途徑告訴計算機,然后計算機自動推給我們所需要的音樂。

音樂的機器理解的具體應用場景會非常多,到那時就是一個需要對應用場景的想象力了。

謝謝大家!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內容
文章糾錯
x
*文字標題:
*糾錯內容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號