國家市場監(jiān)督管理總局主管

中國消費者協(xié)會主辦

維護消費者合法權益,引導消費者合理消費

當前位置:首頁 > 科技
小心打開“AI深度合成”魔法盒
2020-07-15 09:57 本文來源:中國消費者報 作者:武曉莉

  中國消費者報報道(記者武曉莉)童話里有一種神奇的魔法盒,它可以變出你想要的任何一件物品?;谌斯ぶ悄芗夹g(AI)的虛擬深度合成技術,正在將童話里的幻想變?yōu)楝F(xiàn)實:跟你通電話的可能是機器客服;播報新聞的可能是虛擬的數(shù)字人;你的臉可以換到任何一個電影場景中;家里的智能屏可以跟你聊天;數(shù)字人可以出演電影中的危險鏡頭……

  然而,數(shù)字的魔法盒里也藏著危險。玩一下虛擬換臉游戲就有可能被盜刷支付寶,模擬一次你的聲音就可能騙走巨額款項……

  在此前舉行的“深度合成技術應用與治理研討會”上,有專家指出,《民法典》的人格權編為深度合成技術應用提出了公民權益保護的具體要求,擴展了肖像權方面的規(guī)定,提出了對聲音的保護。開放性的人格權可以更好地應對科技催生的新型人格權益保護,但立法不會阻礙技術的發(fā)展應用。與會專家們認為,對AI深度合成,應該持包容的態(tài)度,應審慎地打開新技術的魔法盒子。

  魔法盒子剛剛打開

  “快捷指令隨機生成的無版權虛擬人,居然有亞洲人了。”北京的設計師宋志文在朋友圈發(fā)了一組圖片,這是某網站上隨機生成的非常逼真的人臉。但這些栩栩如生的“人”,在現(xiàn)實中其實是不存在的,只是人臉合成技術的產品而已。“這個魔法盒才剛剛被打開。”騰訊優(yōu)圖實驗室研究員、總監(jiān)李季檁介紹說,深度合成背后的技術包括自動編碼器和生成對抗網絡,典型的深度合成是輸入一個隨機向量,生成器據此合成出一張圖像,與一張真實的圖像一起輸入鑒別器進行差異計算,通過訓練最終達到一個均衡狀態(tài)。此時就能合成足夠逼真的圖像,讓鑒別器難以區(qū)分其和真實圖像之間的差異。

  很多人都能感覺到,基于AI的深度合成技術正被廣泛應用于社交、影視、醫(yī)療、虛擬現(xiàn)實等諸多領域。深度學習、神經網絡等人工智能技術降低了AI深度合成的制作門檻,激發(fā)了新形式的創(chuàng)造。

  “目前,深度合成主要有四種形式。”騰訊研究院秘書長張欽坤指出,一是最為人們熟知的人臉替換,即將圖像或視頻中的人臉替換為另一個人的臉,俗稱AI換臉;二是人臉再現(xiàn),通過對目標人物的臉部特征進行修改,從而改變其面部表情,這種方式可以讓目標人物表達他們在現(xiàn)實當中沒有說過的話或者做沒有做過的事;三是目前應用廣泛的語音合成,通過創(chuàng)建特定的聲音模型,把文字轉化成逼真的人聲,一些語音播報類應用中的名人語音播報,就是這種技術的一種應用;四是人臉合成,通過深度合成技術生成虛擬的、現(xiàn)實中完全不存在的人臉,這也是生成對抗網絡的典型應用。

  以AI換臉為例,消費者還在嘗鮮,深度合成的商業(yè)化應用尚在探索中。“AI換臉APP引發(fā)了一定的行業(yè)熱度,但體驗相對單一,未來還需要跟更多落地的商業(yè)應用結合才能持續(xù)發(fā)展。”艾瑞咨詢泛娛樂研究主任郭成杰說。在文娛和社交領域,基于深度合成技術的換臉APP因其獨特的功能,一度風靡。但由于功能限制,用戶體驗單調,目前還沒有找到能夠盈利的完整商業(yè)模式。在實現(xiàn)商業(yè)落地的探索中,還需要嘗試開發(fā)更多的功能,同時解決目前存在的法律風險問題,形成完整的商業(yè)模式。

  郭成杰認為,深度合成可以與影視行業(yè)更多地結合。一是可以大幅降低合成影像的技術門檻,實現(xiàn)低成本特效;二是利用AI換臉技術,可以解決由于演員身故、生病或丑聞等因素,而使得影視作品不能繼續(xù)拍攝的問題。雖然國內一些影視劇也在嘗試AI換臉,但對影視所要求的高品質而言,換臉的效果還有待提升。

  魔法盒子也有風險

  在國外,有人利用英國某能源公司在德國母公司CEO的聲音,通過電話詐騙騙走了20多萬歐元。

  李季檁說,合成的效果越來越難分辨真假。一幅真實圖像是由光線、距離、姿態(tài)、形狀、材質、觀察者的視角、光學傳感器的特性等大量真實的物理因素共同作用的結果,傳統(tǒng)的數(shù)字合成會不可避免地出現(xiàn)一些瑕疵,一般只能以大塊的區(qū)域為單位進行合成或者編輯,很難對單個像素進行精確的合成和修改。而深度合成是基于深度網絡和大量數(shù)據,在訓練過程中,上述大量物理因素會蘊含在深度網絡的參數(shù)之中,算法可以同時考慮這些因素的影響,精確地進行單個像素的合成。即使局部出現(xiàn)了瑕疵,算法在訓練過程中也可以不斷優(yōu)化和修補,直至達到逼真的程度。

  張欽坤認為,深度合成技術從出現(xiàn)之初就存在法律、道德等方方面面的風險。不法分子會通過深度合成技術,偽造虛假的或是真假難辨的圖片、音視頻等來進行非法活動,包括政治干擾、色情報復、商業(yè)詆毀、假冒身份詐騙、非法獲取個人信息等。

  色情性的深度合成視頻,是深度合成技術濫用的重災區(qū)。騰訊研究院、騰訊優(yōu)圖實驗室發(fā)布的《AI生成內容發(fā)展報告2020——“深度合成”商業(yè)化元年》(以下簡稱《報告》)顯示,2019年12月,全網共有14678個深度合成視頻,其中96%屬于色情性的深度合成視頻,主要存在于色情網站。

  監(jiān)管應當包容審慎

  作為一種極富創(chuàng)造力和突破性的技術,AI深度合成雖然也催生了一系列必須面對的難題,但并不會磨滅其給消費者帶來的全新的視聽享受和給社會帶來的進步。中國人民大學未來法治研究院執(zhí)行院長張吉豫認為,應遵循包容審慎的監(jiān)管基本原則,更好地規(guī)范深度合成技術應用。具體法律和監(jiān)管應設置必要的法律底線,并為深度合成技術發(fā)展留出空間。

  張吉豫指出,現(xiàn)有的立法為深度合成技術設置了一些必要的法律底線,規(guī)定了適當?shù)钠脚_責任,同時推動法律和技術的結合。例如,《民法典》的人格權編為深度合成技術應用提出了公民權益保護的具體要求,擴展了肖像權方面的規(guī)定,并提出了對聲音的保護。這說明新的科技會催生新的權利要求,而人格權編規(guī)定的開放性的人格權可以更好地應對科技催生的新型人格利益保護,但立法不會阻礙技術發(fā)展應用。在平臺責任方面,《民法典》的“通知-必要措施”規(guī)則也蘊含了對網絡服務提供者進行分層、分類的責任分配的基本原則。此外,《網絡信息內容生態(tài)治理規(guī)定》中提到不得利用深度合成等技術從事法律禁止的活動,在強調底線的同時,也表示了允許和鼓勵深度合成等新技術發(fā)展的態(tài)度。該規(guī)定還要求對非真實的音視頻信息進行標識,這表明需要結合技術進行一定的治理,充分發(fā)揮掌握技術的平臺企業(yè)的主觀能動性,實現(xiàn)共建、共治、共享的治理理念。

  張吉豫表示,對深度合成等互聯(lián)網新技術的治理和未來法治建設,首先需要以人為本,這也充分體現(xiàn)在《民法典》人格權編相應的規(guī)則中,尤其是對人格權的法定性和開放性的平衡;智能社會的治理需要法治與技術治理的有機統(tǒng)一、協(xié)調結合;需要建立信用機制。比如深度合成技術可能存在不合理的使用,因此認證溯源機制可能是保證未來發(fā)展的重要路徑。

  騰訊研究院高級研究員曹建峰指出,深度合成和其他人工智能技術的治理需要權衡、兼顧四個目標:數(shù)字技術和數(shù)字市場的發(fā)展與創(chuàng)新;消費者權益保護尤其是個人數(shù)據和隱私保護;商業(yè)利益;公共利益和國家利益。

  積極探索立法實踐

  世界各國都在積極探索AI深度合成技術的立法實踐?!秷蟾妗穼獾囊恍┝⒎ㄅe措進行了梳理,主要有五個方面的措施:一是要求深度合成和人工智能技術的使用不得誤導大眾,例如當AI機器人以商業(yè)或政治目的與人交流或互動時,必須披露其人工智能身份;二是為深度合成的應用劃定紅線,不能將深度合成技術應用于政治干擾、淫穢色情、假冒身份等非法行為和活動;三是要求深度合成的內容制作者承擔披露的義務,采取嵌入數(shù)字水印、文字、語音標識等方式披露、標記合成信息后,才可將深度合成內容放置于網絡上傳播;四是呼吁研究開發(fā)包括深度合成在內的圖像、音視頻操縱技術的檢測識別和反制技術;五是從隱私和個人信息保護的角度規(guī)范深度合成技術,遵守相關要求,例如GDPR將可以適用于那些可能被用于制作深度合成內容的公民圖片和聲音,或是網絡平臺發(fā)布的換臉軟件產品中潛在的個人隱私泄露問題。

  據張欽坤介紹,我國正在積極回應深度合成技術帶來的問題。2019年5月發(fā)布的《數(shù)據安全管理辦法(征求意見稿)》要求對自動合成的新聞、博文、帖子、評論等信息都要標明“合成”字樣;同年11月,由國家網信辦、文旅部、國家廣電總局出臺的《網絡音視頻信息服務管理規(guī)定》也明確要求開展安全評估,對于非真實的音視頻信息進行標識,禁止基于深度學習的虛假新聞信息,同時要求平臺部署鑒別技術,建立辟謠機制;同年12月,國家網信辦發(fā)布的《網絡信息內容生態(tài)治理規(guī)定》也明確,禁止利用深度學習技術從事法律、行政法規(guī)禁止的活動;前不久頒布的《民法典》人格權編的有關規(guī)定,意味著未來在數(shù)字人、語音合成等相關應用上,使用明星的肖像和聲音需要先獲得授權。這些規(guī)定能夠有效防范深度合成技術的濫用風險,并給受害人提供必要的救濟。

  用技術來約束“魔力”

  提起AI深度合成,大部分人首先想到的都是AI換臉。其實,AI換臉只是最早進入公眾視野,目前應用較多而已。除此之外,深度合成技術還包括人臉再現(xiàn)、人臉生成、語音合成等技術,并朝著全身合成、數(shù)字虛擬人等方向發(fā)展。

  根據《報告》梳理,人臉再現(xiàn)涉及對目標人物的臉部表情進行驅動;人臉合成涉及創(chuàng)建媲美真實人臉的全新人臉圖像;語音合成涉及創(chuàng)建特定的聲音模型,可以將文字轉化成接近真人語調和節(jié)奏的聲音。同時,深度合成正從局部合成轉向全身合成,從二維合成轉向3D合成。前者如對目標人物的全身動作進行操控,后者則以數(shù)字虛擬人技術為代表。

  AI深度合成令人不安的原因,還在于不少人認為任何人都可以制作高質量、高仿真的深度合成內容?!秷蟾妗分赋觯@是不可能的。AI深度合成內容的制作門檻雖然已大為降低,普通用戶在智能手機、電腦等終端設備上,借助深度合成應用程序,即可輕易制作、獲取AI換臉、人臉合成、語音合成等娛樂性的深度合成內容,但這類合成內容往往較為容易辨別,且存在來源標記,不至于以假亂真。因此,就目前而言,雖然像FakeApp、ZAO等APP讓更多的人接觸到了深度合成技術,但高質量、高仿真的深度合成內容仍然難以創(chuàng)建,需要掌握專業(yè)技能和專業(yè)工具的專業(yè)人員的大量投入。

  還有一種誤解認為,深度合成內容無法通過技術工具鑒別,只能通過生物特征測試(例如“眨眼測試”)。

  實際上,眨眼測試等根據生物特征進行鑒別的方式,是非常低效、不可靠的,只能階段性地起作用?!秷蟾妗分赋?,隨著深度合成技術的發(fā)展進化,生物特征測試將越來越難以發(fā)揮作用。相反,AI深度合成內容的檢測識別,需要基于AI的鑒別技術來實現(xiàn)對深度合成內容的自動化檢測。目前,業(yè)界已在大量投入和支持鑒別技術的開發(fā)。優(yōu)圖實驗室的人臉合成檢測平臺——FaceIn人臉防偽,就支持對多種換臉方法進行檢測,達到了很高的準確率。

  “要用技術的發(fā)展解決技術的問題。”李季檁認為,既然AI深度合成是深度學習的產物,那么也可以通過深度學習技術進行識別,針對特定場景定制特殊的防御手段。在日常的技術演練中,優(yōu)圖已經有比較切身的體會和豐富的經驗。雖然有些深度合成的視頻可以騙過我們的眼睛,但是在極度精細的像素層面,和相機拍攝的真實圖像還是有所不同。真實世界的光線從鏡頭進入到傳感器,經過光電轉換、模擬信號轉換數(shù)字信號再進行若干圖像處理,才得到最終的照片,這其中包含了光學、電路、溫度等各種真實因素引起的噪音和退化,目前生成對抗網絡還不能精確合成這些信息。因此,可以通過制作大量的深度合成數(shù)據,用深度網絡來學習真實視頻和合成視頻的差異。實驗室的檢測能力也會通過云計算的方式對外輸出,用戶上傳視頻時就可以判斷它是不是合成的。因此,深度合成并不可怕,既然其魔力來自于深度學習,那可以約束這種魔力的也是深度學習。

  此外,互聯(lián)網行業(yè)對深度合成內容也并未呈放任狀態(tài)。《報告》指出,主流網絡平臺已經著手采取自律措施應對深度合成技術的潛在濫用。國外主流科技公司開發(fā)的甄別AI合成內容、對抗深度合成技術濫用的工具,可掃描用戶瀏覽的圖像、視頻或其他數(shù)字媒介,標記并報告可疑的偽造內容,檢測經竄改的人工合成內容;降低合成內容的權重,讓算法不再為用戶推薦被認定為深度合成并可能造成負面影響的內容。

  這些科技公司積極構建深度合成數(shù)據集,并開放給研究人員免費使用,以此來促進檢測技術的研究與開發(fā)。同時,各平臺之間還攜手開展深度合成檢測挑戰(zhàn)賽,為檢測技術的開發(fā)提供資金和深度合成數(shù)據集,以促進更多檢測識別技術的開發(fā)。在國內,騰訊信息安全團隊自主研發(fā)的GFN網絡算法鑒別AI換臉、騰訊優(yōu)圖實驗室研發(fā)的人臉合成檢測技術,對相關深度合成內容的檢測都達到了很高的準確率。

  深度合成造福社會

  大家熟悉的著名科學家霍金,晚年只能用一個發(fā)聲器與外界交流。對于更多失聲的“漸凍人”來說,他們將可以用“自己的聲音”而非機器的聲音“說話”——深度合成技術的發(fā)展,已經能夠做出以自己的聲音發(fā)聲的發(fā)聲器了。

  《報告》指出,AI虛擬主播、數(shù)字試穿、電影后期、社交產品中的人臉融合、合成人臉和合成虛擬形象用于在線營銷、合成聲音用于失聲患者發(fā)聲以及數(shù)字虛擬人等,隨著創(chuàng)新性的應用持續(xù)涌現(xiàn),深度合成技術的社會福祉日益彰顯。

  “就深度合成的發(fā)展趨勢來講,特別是從互聯(lián)網行業(yè)的應用來看,數(shù)字人是一個重要的發(fā)展方向。”張欽坤說,數(shù)字人是多個人工智能技術的集大成者,它需要綜合運用各種AI技術和方法,如計算機視覺、視頻合成、語音合成、自然語言處理等。目前,“數(shù)字人”已經成為 AI領域的新風口,國內外的主流互聯(lián)網公司都在加強布局,未來這個技術會應用在非常廣泛的領域。例如,騰訊AI實驗室已將數(shù)字人列為兩大攻堅方向之一,基于深度神經網絡的3D人臉和人體重建、文本/語音/口型驅動和神經網絡渲染等技術,使所生成的數(shù)字人看起來真實自然。深度合成在多個領域落地應用,同時發(fā)揮出科技向善的潛力。

  據了解,目前,國內外互聯(lián)網公司紛紛試水數(shù)字虛擬人技術,例如,2018年騰訊攜手Epic等企業(yè)啟動“Siren”虛擬人項目,2019年騰訊AILab正式發(fā)布首個電競虛擬人“T.E.G”(天鵝靜),整合3D人臉和人體重建、文本/語音/口型驅動和神經網絡渲染等技術,特別是利用生成對抗網絡完成人體動作的遷移。隨著5G時代的到來,這種捕捉和渲染將會更加靈敏生動,數(shù)字虛擬人在游戲、社交、影視、醫(yī)療等領域將大有可為。

  李季檁認為,從應用上看,深度合成技術將與各種多維信息、視頻信息融合,可以實現(xiàn)合成之后與人類進行互動,這些發(fā)展應用在數(shù)字虛擬人、VR內容等產業(yè)上,可能會取得一些重大的突破。

  郭成杰也認為數(shù)字虛擬人是值得關注的方向,具有非常大的延展性。目前,該技術正在應用到更多領域,如虛擬主持、虛擬主播等。數(shù)字虛擬人在與智能家居、IoT結合,讓用戶與智能家居的交互更加自然真實,提升了智能家居服務的體驗。在教育、旅游、公共場所咨詢等需要較多重復性人力接待、播報或者講解的場合,都是數(shù)字虛擬人大有可為的場景。未來,隨著深度合成技術的發(fā)展,行業(yè)可以更好地結合現(xiàn)有的商業(yè)模式和服務模式,利用深度合成技術提升服務體驗。

責任編輯:27