国产精品免费视频播放,无限动漫日本在线观看免费

周海宏：不能用AlphaGo的思路，去做音樂的人工智能

2017-11-26 00:10

持續(xù)七日的2017全球創(chuàng)業(yè)周中國站(Global Entrepreneurship Week China，簡稱GEW)，11月19日在上海長陽創(chuàng)谷1會場迎來壓軸之作——人工智能產(chǎn)業(yè)投資論壇的開幕。

論壇由初創(chuàng)投資主辦。于2012年成立的初創(chuàng)投資，是中國第一家人工智能產(chǎn)業(yè)投資機構，是國內數(shù)十家人工智能企業(yè)最早的投資機構。

此次論壇成功匯聚全球范圍內超過60家明星企業(yè)、近二百位產(chǎn)業(yè)界投資界學術界的專業(yè)人士，并吸引數(shù)千人次的專業(yè)觀眾到場參會。其中，八位身處人工智能“產(chǎn)學研創(chuàng)投”前線、腦洞驚人的實力派嘉賓，先后發(fā)表主題演講。

中央音樂學院副院長、教授、博士生導師周海宏率先登臺演講。他以“如何讓機器聽懂音樂——音樂理解的人工智能路線圖”為題，向現(xiàn)場觀眾展示了人工智能與音樂深度關聯(lián)的可能性。

周教授首先對“聽懂”進行了限定，采用日常人們所說的聽“懂”即是指從音樂中感受到視覺性的形象、情態(tài)性的情感，甚至思想性的哲理。要實現(xiàn)機器“聽懂”——理解音樂的目的，就必須從聯(lián)覺理論出發(fā)，找出人類由音樂的聽覺體驗引發(fā)其它感覺之間的聯(lián)覺對應關系。

周海宏：不能用AlphaGo的思路，去做音樂的人工智能〡2017GEW

核心觀點：“聯(lián)覺是人的本能，是音樂引發(fā)其它感覺體驗的中間環(huán)節(jié)。未來，我們做音樂理解人工智能，采用阿爾法狗的路線，通過分析個人音樂審美經(jīng)驗去獲得規(guī)則，是行不通的；而應該象阿爾法元那樣，把人類理解音樂的規(guī)則直接告訴機器。即，不是通過經(jīng)驗學習獲得規(guī)則，而是通過規(guī)則獲得策略，這樣，才有望在音樂理解與感受的領域上出現(xiàn)人工智能應用場景�！�

————————————————————————

以下內容來自周海宏的演講全文，文字由AI森林整理：

真沒想到會站在今天這個講臺上。我既不懂人工智能，也不懂各種復雜計算，更不懂市場。我的專業(yè)是音樂心理學，是研究審美規(guī)律的。

我先給大家唱一個旋律，你們來告訴我，哪個是表現(xiàn)高山，哪個表示流水的。

大家肯定會一致覺得第一個是流水，第二個是高山。為什么所有人的立刻一致地產(chǎn)生了這樣的“聽懂”音樂的判斷？這其中一定是有規(guī)則的。我之所以能夠舉出讓大家產(chǎn)生一致反應的音樂例子，一定是通過研究掌握了這個規(guī)則。

讓機器擁有理解音樂的人工智能，也需要由人來告訴機器一些規(guī)則，在這個規(guī)則的基礎上，機器才能進行后續(xù)的復雜計算。

如何讓機器“聽懂”音樂？大家可能在想，連人都不一定能“聽懂”音樂，機器怎么能夠“聽懂”音樂呢？

音樂有兩個最重要的屬性，一是沒有視覺造型性，二是沒有語意符號，因此音樂不能傳達視覺形象，也不能直接傳達思想概念，這是造成大家聽不懂音樂的核心原因。

我們先來分析一下，人是如何“聽懂”音樂的。

下面我放一個例子。這一段音樂，大家覺得它表現(xiàn)的是什么？

我做過調查，很多人會選擇“險峻的高山”和“洶涌的大海”。

再放一段曲子，所有人會選擇“清澈的小溪”和“秀麗的田園”。

人的主觀感受為什么會有如此高的一致性？一定是這段音樂和那個場景形成了對應的關系——聯(lián)覺對應關系。

所謂聯(lián)覺就是一個感覺器官受到刺激，其它的感覺器官發(fā)生了反應的心理現(xiàn)象。

巧克力與薄荷糖，高音與低音，大家一定認為低音像巧克力，高音像薄荷糖；紅燒肉和酸泡菜，大家會覺得泡菜像高音；悶熱和涼爽，大家會覺得涼爽像高音；亮色和暗色，大家會覺得高音亮，低音暗；羊絨和真絲，真絲像高音……味覺、溫度、視覺、觸覺，都和聽覺聲音的高低發(fā)生了對應關系。這些現(xiàn)象就是聯(lián)覺的表現(xiàn)。

由此大家可以想到，如果把人對聲音的感覺與其它感覺的聯(lián)覺對應關系找到了，就邁向了機器理解音樂最重要的一步。

我放兩段音樂，大家覺得哪段適合給空調機廣告配樂。，對，是第二段音樂，因為高音會讓人感覺涼快；如果是給《法治進行時》來選片頭，就會選擇第一段音樂，因為低音給人感覺“深沉”�！吧睢笔强臻g高度，“沉”是物體重量，我們拿這兩個字形容聽覺的聲音，這個詞本身就是聯(lián)覺現(xiàn)象。

我的論文《音樂與其表現(xiàn)的世界》，獲得過2001年教育部全國優(yōu)秀博士學位論文獎。這是音樂理論界第一個獲得百篇優(yōu)博獎的，因為這篇論文發(fā)現(xiàn)了音樂和表現(xiàn)東西之間的中間環(huán)節(jié)，揭開了音樂藝術表現(xiàn)之謎。

聲音的高低是頻率決定的，它與顏色有聯(lián)覺關系。三百前就有人研究色-聽的聯(lián)覺關系了，但一直沒有找到穩(wěn)定的、普遍的規(guī)律，色-聽聯(lián)覺一直不能排除主觀臆想。

大家知道，我們感受到的顏色不是單純的元素，是由色調、明度、飽和度構成的。當我把顏色和聲音都做了具體的元素的細分后，使得聯(lián)覺的問題迎刃而解。研究發(fā)現(xiàn)，聲音和顏色的色調無關，而只是和明度有關——聲音的高低，和顏色的明暗形成了聯(lián)覺對應關系。

聲音的強弱是一個能量的現(xiàn)象：強音使人感覺大，弱音使人感覺小。強音使人感覺動，弱音使人感覺靜。

聲音的長短和空間的延展形成對應關系。因此，對物體大小、人的個性特征也有表現(xiàn)力。比如，偉人，就要用慢速的聲音來表現(xiàn)。對應地，小人出場，那就用快速。

聲音的包絡特征與硬、軟，柔和、威脅有對應關系。

緊張度由聲音的音色和聲音的組合特征產(chǎn)生。聲音的緊張對應了情緒的緊張，聲音與顏色的混雜、利益的競爭、主體的需要和期待等等，都有對應關系。

根據(jù)上面的原理，我來舉些例子，比如中國民歌《小白菜》，[唱《小白菜》]“小白菜呀地里黃呀，兩三歲上，沒了娘呀……”一個七個月的小孩，聽著聽著就哭了。

復雜一些的例子，《國際歌》，為什么給人感覺是悲壯的？要拆解為“壯”和“悲”，“壯”是向上的，和諧的，音樂的旋律用了向上的四度音程；緊接著后面的下行產(chǎn)生“悲”感，再壯、再悲，這就是為什么《國際歌》經(jīng)常在革命失敗的時候才唱。實際上，它之所以給人悲壯的感覺，就是因為音樂形態(tài)有這樣的特征。

音樂理解的人工智能，要求必須把一個聲音帶來的感受細分到具體的元素中，才能被機器理解。音樂理解的人工智能有一個非常重要的預處理工作：對音樂描述詞所指的感覺現(xiàn)象的進行精細切分。

總結一下：作曲家就是靠聯(lián)覺來選擇和組織聲音進行表現(xiàn)，聽眾也是依據(jù)聯(lián)覺反應規(guī)律感受音樂的“弦外”之“意”。

在此，特別想和從事人工智能的朋友們講一下：我們現(xiàn)在的人工智能思路，基本上是給它一大堆的音樂案例，讓聽者為音樂打上標簽，然后讓計算機進行深度學習，從中分析出來帶這個標簽的音樂所具有的特征。這其實就是AlphaGo的思路。

但如果我們做音樂的人工智能研究，也這樣搞，就會出現(xiàn)問題。因為一個人可能在音樂感受的過程中有太多個人主觀性因素。

同樣是柴可夫斯基的作品，如果這個人的注意力放在低音部，就會感覺這個曲子悲哀，如果注意力放在高音部，就會覺得是明快的。最不明智的是根據(jù)歌詞給音樂的情感打標簽，這時候遇到一個問題，詞所暗示的情感和音樂形態(tài)特征不能對應，比如“傷心總是難免的”這個旋律[唱]，你一點不覺得傷心。

另外，從音樂創(chuàng)作的人工智能角度看，絕大多數(shù)音樂作品不是好作品。即便是一個好作品，還有很多部分不是好的，只有其中一部分非常閃光的東西，才讓它成為一個偉大的作品。如果把完整的作品交給計算機，它一定把臭棋和好棋都學下來。關鍵是，下圍棋是有對錯的，計算機可以判斷這步走的是對、是錯，但是，音樂的欣賞沒有好壞對錯的絕對標準，這對計算機而言，就更麻煩，它不知道哪個結果是對的。我們要認識到：莫扎特和肖邦，絕不是象機器那樣學了所有前人的作品才成為偉大作曲家的，他們一定是根據(jù)自己頭腦中的規(guī)則進行創(chuàng)作。

我們需要換一種思路，整個藝術的人工智能要換一個思路，不再是分析以往的作品，而是把這個直接決定音樂藝術最本質的價值判斷規(guī)則告訴機器，這就是AlphaZero的思路。

當然，具體的工作非常非常復雜。我們首先要對音樂的音頻進行一系列分析，分析出來人的聽覺判斷對象，還要把人的聽覺注意分配規(guī)則告訴計算機。計算機才能象人一樣聽音樂，然后才能根據(jù)前面分析的聯(lián)覺對應關系規(guī)則進行機器的理解工作。

我最近看了一個人工智能的研究，為了標識音樂作品每段的情緒特征，它們的方案是按每5秒鐘切分一段進行分析。大家知道，音樂不是按照每5秒一換情緒的，其實應該按照音樂句法切分。但是，這項研究沒有按音樂句法劃分規(guī)則切分，采取了每5秒鐘截一個段。以這樣分段去分析，計算機算出的結果一定是亂的。

下一步是要做一個大的音樂描述詞的詞庫，標出音樂描述詞的感性特征，然后讓計算機去學習。需要排除沒有感性特征、音樂表現(xiàn)不了的詞，留下音樂能表現(xiàn)的，然后我們再把這些描述詞的應用情景進行分類。

接下來就需要依據(jù)聯(lián)覺對應關系，對這些描述詞的感性特征進行前面說的聲音五大表現(xiàn)元素賦值；之后，還要標定這個描述詞的備選情景。比如“郁悶”這個詞，我們需要列出這個詞的使用情境。這是因為雖然聯(lián)覺有共同性，但每個人的聯(lián)想不相同，需要依照個人的經(jīng)驗來由聽者自己選擇適宜的情境。

最后實現(xiàn)這樣的應用場景：

把一段音樂輸入計算機，計算機就會自然反饋出來一些描述這段音樂帶給人感受的詞——這就是機器聽懂了音樂的表現(xiàn)！

進一步的應用可以讓聽眾選擇自己偏好的聯(lián)覺激發(fā)情景。

或者如果給計算機一個沒有聲音的場景片或廣告，它能根據(jù)這個場景或廣告的感性特征（當然這需要那個領域人工智能的配合）選出適合的配樂。

當我們也可以把自己的心情以各種各樣的途徑告訴計算機，然后計算機自動推給我們所需要的音樂。

音樂的機器理解的具體應用場景會非常多，到那時就是一個需要對應用場景的想象力了。

謝謝大家！