中國消費者報報道(記者武曉莉)“聽眾朋友們,你們好。從今兒個起,由我為大家播講懸疑小說《江湖消亡史:北平暗夜》。這個故事發(fā)生在民國十幾年的北京城里……”著名評書表演藝術大師單田芳離開三年后,居然又“說”起了新評書,昔日那位僅憑一張嘴就讓人欲罷不能的說書人,又重新回到了我們身邊。
國慶期間,我國首部黑白轉彩色4K修復故事片《永不消逝的電波》在全國各大電影院線上映,人們紛紛走進影院,欣賞舊日的黑白經典煥發(fā)出的新光彩。
給國慶黑白老照片上個色的“全民拍”,讓以往國慶期間愛發(fā)養(yǎng)生貼的父母們,今年忙著翻箱倒柜地找老照片,在網上給老照片修復上色。
……
AI(人工智能)技術通過修復圖片、影像,合成酷似本人的聲音,撫慰了人們懷舊的心緒,讓時光留駐、讓昨日重現。
回到從前 AI給記憶涂上色彩
每個人家里都可能有些因年份久遠而變得斑駁、泛黃的老照片,這些照片或許珍藏著一份難忘的記憶,定格了一段久遠的家國歷史。在新中國成立72周年這個特殊的日子里,通過新華社客戶端“全民拍”聯合中國移動咪咕開啟的黑白老照片免費上色修復通道,能讓泛黃的記憶再次鮮活。“大家可能還記得,給老照片上色以前都需要通過手動。”咪咕公司相關技術人員向記者介紹道。傳統(tǒng)照相館有一個專門的上色服務,把黑白照片涂上顏色,很多人家里都有這樣的著色照片。但那種上色方式與真實的色彩有不小的差距。
AI老照片修復有何不同?咪咕技術人員通過一張1959年9月13日第一屆全運會開幕式上運動員列隊步入會場的照片的修復,給記者做了一個科普。AI神經網絡修復老照片時,會先通過標準色板進行顏色校正,糾正視頻中色相、飽和度與真實圖像的差異。那么,AI又是如何比對的呢?北京電影學院數字媒體學院院長劉謙教授對記者說,人工智能其實就是一種算法,在大數據的支撐下,通過不斷的學習,普通的算法有了判斷、決策的能力,有點類似于一個人基于歷史經驗會進行判斷。AI的判斷基于大數據的積累,由于算力很強,AI可以快速將圖像內容與真實圖像進行比對。
咪咕技術人員對記者說,校正后AI就開始對照片進行區(qū)域去噪,分為空間域、頻域、小波域、時域、時空域和色彩域去噪等。機器的自動處理完成后,其實還需要進行人工的二次創(chuàng)作,針對照片故事背景、畫面氣氛等上下文,檢索該年代或特點事件的特征,進行針對局部和重點對象的再次渲染。“如果沒有AI而用過去人工著色的方式,很多東西做不了。”咪咕技術人員說。比如圖中場館的看臺上有數千名觀眾,這就必須由機器和AI進行處理,再專業(yè)的人士也無法一一處理這個量級的人物。此外,早期全幅相機受操作水平的影響,拍攝會出現過度曝光,需要再次拉回光線等。
這位技術人員說,AI修復過程中仍需人工介入。比如看臺上觀眾身披紅旗等細節(jié),再厲害的AI算法也無法感知這是一面紅色的旗幟,這就需要編輯人員進行人工二次創(chuàng)作。
書接上回 AI讓“原音”重出江湖
當那個與單田芳本人聲音極其相似的AI合成音自然流暢地“說”起評書時,單田芳已經離開我們整整3年了。3年前,無數人感嘆世上再無“下回分解”,而如今,他的“聲音”在喜馬拉雅平臺再次響起,“書接上回”重現江湖。“聽到TTS聲音,心魂間猛然一震,仿佛父親又回到了這個世界。”單田芳之子單瑞林評價說。喜馬拉雅平臺用語音合成 (TTS:Text-to-speech)技術完美還原了著名評書表演藝術大師單田芳的聲音,并首次將單田芳AI合成音應用于6部風格各異的作品。
資料圖片
作為國家級非物質文化遺產傳承人,單田芳的《隋唐演義》《三俠五義》《亂世梟雄》《白眉大俠》等共計超過1.2萬余集的100余部廣播、電視評書作品,在全國500多家電臺、電視臺都播出過,他的書迷遍布大江南北。“單田芳聲音AI重現系列專輯”中,除了趙晨光的《江湖消亡史:北平暗夜》、陳廷一的《毛氏三兄弟:三兄弟與共和國奠基》和紫金陳的《無證之罪》外,真正實現了“書接上回”的,是單田芳老師生前未完成的評書經典——宮白羽的《十二金錢鏢》。
喜馬拉雅智能語音實驗室的盧恒博士對記者說,完美復現單田芳老師那標志性的“云遮月”嗓音,以及其情感充沛、起伏跌宕的腔調,得益于實驗室語音合成、識別、語音信號處理、編解碼以及智能音效的研究和開發(fā)。盧恒說,用真實自然的TTS音色演繹有聲小說是非常難的,需要學習小說中的抑揚頓挫、情感表達、上下文關系,區(qū)分旁白和對白,并最終將作品完美演繹出來。喜馬拉雅自主研發(fā)的TTS前端文本處理分析模塊已經能夠高精度、全自動地對文本進行多音字識別、韻律預測和風格分類,并已開發(fā)出可以實現多情感、多風格、多語種聲音的TTS技術模型,因此,不僅可以演繹不同情緒的文字,還可以自動區(qū)分旁白、對白,并支持英文,極大地豐富了TTS能表達的情感和韻律。
單田芳的評書不僅韻律起伏變化非常大,而且還有很多口語化發(fā)音。比如,“這”字的普通話發(fā)音為“zhè”,而評書中通常讀為“zhèi”。如果僅靠當前主流的 TTS框架模型做提取和合成,合成的評書整體感情和情緒都會很平淡,沒有單田芳老師評書的韻味。據盧恒介紹,智能語音實驗室設計了單獨的韻律提取模塊,不管韻律多么豐富和多變,都能提取并完全復刻出來。
經典煥新 AI讓“電波”永不消逝
國慶期間,熱鬧的電影市場有一部很特別的老片子——《永不消逝的電波》上映。這部影片是首部院線重映的黑白轉彩色4K修復的電影,由中央廣播電視總臺央視頻5G新媒體平臺與中國電影資料館聯合完成。這部1958年出品的老電影,采用擁有自主知識產權的人機交互式AI上色技術與傳統(tǒng)修復手法相結合的手法,經過長達7個多月、對原片超過16萬幀黑白影像的逐幀修復后,終于煥發(fā)出新的活力。“無論是圖片還是影像,放大到一定的顆粒度,你會發(fā)現它們都是由一個個的光點組成,這個最基本的單位就叫像素,所謂影像,不過就是連續(xù)播放的靜止圖片而已。”劉謙說。像素本身就有一定的亮度、色彩和形狀,數字技術是把這些像素用RGB來表達,即任何一個光點都可以分解為紅、綠、藍三種顏色。AI通過這三個最基本的元素,可以調出所有的色彩和形狀,乃至表達出所有的電影畫面,這背后都是數字支撐。電影的4K修復,就是把以前低清晰度(即像素較少)的影像,通過增加像素的方式,變成像素點更多、圖像信息更豐富的影像。色彩也可以從黑白改變成彩色。
資料圖片
據劉謙介紹,過去的膠片電影是化學感光的,隨著時間的推移,容易出現畫面漏光、衰減、受潮、劃痕等各種損毀。膠片AI修復要先掃描影片,即膠片到數字化的轉換。但即使手工使用Photoshop等技術,也很難對所有影片全面修復,這時就需要AI。尤其是4K修復這種對清晰度的提升,手工根本無法想象,因為不僅增加的像素數量是天文數字級的,而且如何平滑過渡、如何讓增加的像素更符合實際情況,都只有人工智能才能做到。比如插值技術,增加像素點的部分怎么插入過渡色,就需要AI通過大量的學習。“比如說在某種亮度的紅和綠之間插值,AI可以通過對幾百萬張大數據圖片的比對,在成千上萬個高清圖片中找到十有八九都會碰到一起的兩個顏色,從而得出與此種紅、綠兩個像素點在自然界很大概率的情況下都會相鄰的光點,作為可選的近似值之一。而最終插入這兩個光點中間的過渡像素,其光點值可能用的即非紅也非藍、綠,而是一種灰,因為其最貼近自然界的真實色彩。在這兩個光點之間插入一個光點,增加清晰度,是人工智能算法中的一種,而這個可選的光點是自然人沒辦法直接拍腦袋決定的。”
在劉謙看來,修復技術實際上并不復雜,現在很多修復案例只是應景之作。他認為,圖像、影像的AI修復,需要在個案中找到可以持續(xù)發(fā)展的應用場景。“老電影的修復,畢竟是修一部少一部,而且只有真正的經典才值得修。”他感慨道,“一個項目做完,會花很多錢,如果可以重復用于更多場景的話,就更好了。”