計算機科學叢書點選檢視第二章點選檢視第三章

多媒體技術教程（原書第2版）

Fundamentals of Multimedia,Second Edition

李澤年（Ze-Nian Li）

［加］馬克·S. 德魯（Mark S.Drew）

劉江川（Jiangchuan Liu）　著

于俊清　胡海苗　韋世奎　等譯

機械工業出版社

China Machine Press

第1章

多媒體導論

1.1　什麼是多媒體

人們在使用“多媒體”這個術語時，往往對這個術語有不盡相同甚至截然相反的了解。娛樂産品的銷售商将多媒體了解為具有上百個數字頻道的互動式有線電視，或者是通過高速網際網路提供的類似有線電視的服務。而硬體銷售商則希望我們将多媒體了解為這樣一台PC：具有音效功能，也許還有能了解附加多媒體指令的高性能微處理器。

計算機科學或工程專業的學生則會從面向應用的角度了解多媒體：多媒體是由使用多模态技術（包括文本、圖像、圖形、動畫、視訊和音頻等，以及互動活動）的應用程式構成的。它與早期隻顯示文本的計算機、印刷或手寫等傳統形式的媒體有很大的差别。

在文化領域非常流行的“融合”觀點，在科學界同樣廣為接受。這一觀點反映在多媒體領域，則是電腦、智能手機、遊戲裝置、數字電視和多媒體檢索等多種技術的融合，也許在不久的将來，這種融合就可以進一步擴充為功能全面的多媒體産品。硬體技術的提高将不斷推進這類技術的發展，而現有的成果已令人激動——在互動活動這個主題下，多媒體已成為計算機科學中最令人感興趣的一部分。很多過去單獨研究的内容，在多媒體這個新領域找到了共同點，進而促進了這種融合。圖像、可視化、HCI、計算機視覺、資料壓縮、圖論、網絡和資料庫系統都3将對目前多媒體的發展産生重大的影響。

1.1.1　多媒體的組成部分

多媒體中的文本、音頻、圖像、圖形、動畫、視訊和互動活動等多模态技術在以下領域中得到廣泛應用：

● 基于地理資訊的實時增強現實、大型多人線上視訊遊戲和具有GPS感覺功能的便攜式遊戲裝置（如智能手機、筆記本電腦、平闆電腦）。比如，在遊戲中玩家加強與“傳送門”的連結，然後攻擊敵方。敵方玩家所用裝置具有GPS功能，為了能跟對方進行互動，需要玩家自身移動到傳送門的位置（傳送門會被一些真實物體遮擋，比如公共藝術品、有趣的建築或者公園）。

● 互動電視，觀衆可以通過編輯手機短信對故事的發展方向進行投票，并實時影響故事的發展。

● 具有建議下一個最佳鏡頭類型功能的錄影機，以更好地遵循故事闆的開發技術指南。

● 一個基于Web的視訊編輯器，使得任何人都可以在雲端通過編輯、注解和合成專業的視訊來生成新的視訊。

● 合作教育環境，通過來回傳遞控制，可以讓國小生們通過兩個滑鼠同時分享一個教育遊戲。

● 在大規模視訊、圖檔資料集内，利用目标的語義資訊對資料集進行檢索。

● 将人工制作的視訊和自然視訊合成為混合場景，将計算機圖形和視訊對象放到同一個場景中，以考慮對象的實體性質和光照（比如陰影等）。

● 視訊會議參與者的視覺線索，比如參與者的凝視方向和注意力。

● 可編輯的多媒體元件，即允許使用者自行決定哪些元件、視訊或圖形是可見的，并允許使用者對元件進行移動或删除，并使元件具有分布式的結構。

● 建立“逆好萊塢”式的應用程式，用以重制視訊産生的過程，并使用故事闆來删除和簡化視訊的内容。

從計算機專業人員的角度來看，多媒體技術之是以有如此大的吸引力，是因為很多傳統計算機科學領域中的研究内容都與它有某種聯系。在當今這個數字化的時代，多媒體内容被記錄、播放、示範或是被諸多的數字資訊處理裝置存取，這些裝置從智能手機、平闆電腦、筆記本電腦、個人電腦、智能電視、遊戲機，到伺服器、資料中心，也包含了一些分散的多媒體，比如錄音帶、硬碟、磁盤，或者一些目前比較流行的有線、無線網絡。這些促進了各種各樣的研究課題的産生：

● 多媒體處理和編碼。其中包括音頻/圖像/視訊處理、壓縮算法、多媒體内容分析、基于内容的多媒體檢索、多媒體安全等。

● 多媒體系統支援和網絡。人們将這類問題了解為網絡協定、Internet和無線網絡、作業系統、4伺服器和客戶機、資料庫。

● 多媒體工具、端系統和應用。其中包括超媒體系統、使用者界面、編著系統、多模态互動和內建。這些應用具備“無所不在性”——可以随時随地上網的裝置、多媒體教育（包括計算機支援的學習和設計）以及虛拟環境中的應用程式。

多媒體領域的研究同樣影響着計算機科學的其他分支。例如，資料挖掘是目前一個重要的研究領域，而包含多媒體資料對象的大型資料庫正是該研究領域的研究課題；遠端醫療應用程式（例如“遠端病人診斷咨詢”系統）是對現有的網絡架構提出嚴峻考驗的多媒體應用程式。同時，多媒體技術還是一個高度跨學科的研究領域，包括電子工程、實體學和心理學；音頻/視訊信号處理是電子工程的基本研究課題；圖像和視訊中的顔色在實體學中有着悠久的研究曆史和堅實的理論基礎；更重要的是，所有的多媒體資料都将被人類所接收，這就與醫學和心理學的研究相關。

1.2　多媒體：曆史和現狀

為了将多媒體放置在一個正确的上下文環境中，本節簡要回顧多媒體的曆史，其中最近比較關注的是多媒體和超媒體之間的聯系。我們也會呈現多媒體在新世紀随着新一代計算和通信平台的發展而産生的迅速演變和革新。

1.2.1　多媒體的早期曆史

使用多媒體作為交流手段的想法可能源于報紙，報紙大量使用文本、圖形和圖檔，是最早的大資訊量交流媒介。在發明可以拍攝靜态圖像的照相機之前，這些圖形、圖檔都是人工繪制而成的。

1826年，Joseph Nicéphore Niépce使用一個可滑動的木盒子照相機拍攝到了第一張自然圖像[1，2]。這個圖像是在塗上瀝青的白蠟上曝光8小時後生成的。之後，Alphonse Giroux創造了第一台雙盒設計的商用照相機。這台照相機有一個裝有取景鏡頭的外盒和一個帶平面玻璃闆的内盒，它可以聚焦螢幕和圖像感光底片。滑動内盒可以對不同距離的物體聚焦。同樣用銀面的銅質濕版進行曝光的類似相機出現在1839年的商業介紹當中。19世紀70年代，濕版攝影被更加便捷的幹版攝影所取代。圖1.1（圖檔來自于作者收藏）展現了19世紀的幹版照相機，利用皮腔進行對焦。19世紀末，産生了使用膠卷的照相機，并很快成為主流，直到被數位照相機取代。

Thomas AlvaEdison于1877年發明的留聲機是第一個能夠記錄并再現聲音的裝置。一開始留聲機将聲音記錄在錫箔片留聲機圓筒上[3]。圖1.2是Edison發明的留聲機的模型（EdisonGEM，1905年；圖檔來自于作者收藏）。

後來Alexander Graham Bell對留聲機進行了很多顯著的改進，包括使用塗有蠟層的紙質圓筒，在記錄聲音的過程中唱針以“Z字形”從一側向另一側移動。Emile Berliner将留聲機的圓筒進一步改進為黑膠唱片。黑膠唱片的兩面都有從邊沿向中心延伸的螺旋槽，這使得用拾音器和唱針播放起來更友善。這些組成部分在20世紀又漸漸得到改善，最終留聲機播放出來的聲音已經很接近原始聲音了。在20世紀很長一段時間内，留聲機都是記錄音頻的主流形式。從20世紀80年代開始，由于卡式錄音帶的出現，留聲機的使用驟然減少。之後又出現了CD和其他一些記錄形式[4]。圖1.3展示了音頻存儲媒體的演變，從Edison的圓筒式記錄開始，到平面唱片，再到錄音帶（雙卷盤式錄音帶和盒式錄音帶），還有現代數字CD。

動畫電影的構想形成于19世紀30年代，基于人眼對運動的快速感覺。1887年，Edison發明了電影錄影機[5]。無聲電影出現于1910年到1927年；1927年，無聲電影時代随着電影《爵士歌王》的上映而結束。

1895年，Guglielmo Marconi在意大利博洛尼亞進行了首次無線電信号通信。幾年之後（1901年），他檢測到了橫跨大西洋的無線電信号[6]。無線電廣播最初是為了電報而發明的，現在卻成為主要的音頻傳播媒介。1909年，Marconi獲得了諾貝爾實體學獎

電視是20世紀新的傳播媒介[7]。1884年，德國一位23歲的大學生Paul Gottlieb Nipkow申請了第一個機電電視系統專利。這種電視使用一個旋轉盤，其中有一系列向中心旋轉的孔。這些孔以相等的角度間隔隔開，在單次旋轉中，旋轉盤允許光通過每個孔并到達産生電脈沖的感光硒傳感器。由于圖像集中在轉盤上，每個孔都捕捉到了整個圖像的水準“切面”。Nipkow的設計并不實用，直到1907年擴音器技術有了新的進展，尤其是陰極射線管（CRT）的産生之後，才具有實用性。20世紀20年代後期電視開始商業化，基于CRT的電視以視訊作為通用媒介，從此改變了大衆傳播的方式。

上文中所有提到的媒介都是采用模拟形式，信号的時變特征（可變）是輸入的連續表示，即對輸入音頻、圖像或視訊信号的模拟。而在計算機和數字媒體（即，使用二進制格式表示的媒體資料表現）之間建立聯系的想法，事實上是不久之前才出現的：

● 1967年，Nicholas Negroponte在MIT組建了Architecture Machine研究組。

● 1969年，布朗大學的Nelson和van Dam實作了名為FRESS的早期超文本編輯器[8]。今天，布朗大學IRIS（Institute for Research in Information and Scholarship）研究院的Intermedia項目正是由這個系統發展而成的。

● 1976年，MIT的Architecture Machine研究組提出了名為“多類媒體”的項目，這導緻1978年第一張超媒體視訊磁盤——Aspen Movie Map的誕生。

● 1982年，飛利浦和索尼公司将CD制作商業化，使得CD很快取代了模拟錄音帶，成為流行的數字音頻資料媒介标準。

● 1985年，Negroponte和Wiesner共同建立了MIT媒體實驗室，該實驗室成為在數字視訊和多媒體領域具有主導地位的研究機構。

● 1990年，Kristina Hooper Woolsey開始上司Apple的多媒體實驗室，該實驗室擁有100多位員工，并以教育方面的應用為主要研究目标。

● 1991年，MPEG-1成為數字視訊的國際标準，之後在此基礎上開發了一系列更新的标準，如MPEG-2、MPEG-4等。

● 1991年，PDA的誕生開啟了計算機應用的新時代，對多媒體而言更是如此。随着1996年無鍵盤PDA的市場化，這一發展趨勢得到了進一步延續。

● 1992年，JPEG成為數字圖像壓縮的國際标準，至今仍被廣泛使用。它的進一步發展導緻了JPEG 2000标準的誕生。

● 1992年，産生第一個網絡上的MBone音頻多點傳播。

● 1995年，Java語言誕生，Java語言可以用來開發與平台無關的應用程式。

● 1996年，DVD技術的産生使得一張磁盤可以收錄一整部高清電影。人們預言DVD格式将改變整個音樂、遊戲和計算機行業。

● 1998年，具有32MB閃存的手持MP3裝置成為市場上深受消費者青睐的産品。

1.2.2　超媒體、網際網路和Internet

早期的研究為各種媒體的擷取、表示、壓縮和存儲奠定了堅實的基礎。然而多媒體不僅僅是簡單地把不同的媒體放在一起，而是注重通過對不同媒體的整合使得各媒體之間、媒體與人之間都形成豐富的互動。

1945年，作為MIT戰後考慮事宜的一部分，針對如何安置戰時雇用的科學家這一問題，Vannevar Bush寫了一篇具有裡程碑意義的文章[9]，描述了一個名為“Memex”的超媒體系統。Memex旨在成為一個普遍适用并且個性化的記憶體裝置，它甚至包含了關聯連結的概念——這就是網際網路（World Wide Web，WWW）的前身。二戰以後，六千名在戰争中努力工作的科學家突然發現自己有時間考慮其他問題，Memex就是實作研究自由後的成果。

20世紀60年代，Ted Nelson開始Xanadu項目，并且創造了“超文本”這個術語。Xanadu是第一次嘗試超文本的系統——Nelson把它稱為“富含文學記憶的神奇之所”。

我們通常把一本書看作線性媒體，需要從頭到尾順序閱讀。與之相反，超文本系統是非線性讀取的，可以利用指向文檔中其他部分或是其他文檔的連結來進行。圖1.4說明了這種關系。

DouglasEngelbart深受Vannevar Bush的《誠如所思》（As We May Think）影響，于1968年提出了另一個早期的超文本線上系統（On-Line System，NLS）。Engelbart的研究團隊在斯坦福研究院以“增強，而非自動化”(augmentation,not automation)為宗旨，希望通過計算機技術增強人類的能力。NLS包括諸如發展創意概要編輯器、超連結、電話會議、文字處理和email等一些重要觀點，同時利用了滑鼠定位裝置、視窗軟體和幫助系統[10]。

Ted Nelson再一次介紹了超媒體，不僅僅包含文本。它包含了各種各樣的媒體，比如圖形、圖像和一些特殊的連續型媒體——聲音和視訊，然後再把它們關聯起來。網際網路(WWW或Web)就是超媒體應用的最好也是規模最大的例子。

令人驚訝的是，這種最主要的網絡多媒體應用程式可以追根溯源到核實體學！1990年，Tim Berners-Lee向歐洲核研究中心(European Center for Nuclear Research,CERN)提出将網際網路作為他們組織和分享其工作和實驗結果的一種方式。CERN準許之後，他開始在一個NeXTStep工作站上開發超文本伺服器、浏覽器和編輯器。同樣基于這個目的，他的團隊發明了超文本标記語言(HTML)和超文本傳輸協定(HTTP)。

1. HTML

人們認識到：文檔不僅要是人類可讀的格式，并且不同文檔的結構和元素應該是一緻的。Charles Goldfarb、Edward Mosher和RaymondLorie為IBM開發了通用标記語言(Generalized Markup Language, GML)。1986年，ISO釋出了标準通用标記語言(Standard Generalized Markup Language,SGML)的最後一個版本。這個版本大部分是基于早期的GML建立的。

HTML是在Web上釋出超媒體資訊的一種語言[11]。它的定義使用了SGML規範，并派生出了一組用來描述通用文檔結構和格式的元素。由于HTML使用ASCII碼，是以可移植到任何（甚至是非二進制相容的）計算機硬體上，這一特性使得全球資訊交換成為可能。撰寫本書時，10HTML的版本為4.01，當時，新版HTML5仍在開發中。

HTML使用标記來描述文檔元素。标記使用類似于的格式來定義文檔元素的起始點，用類似于的格式來定義元素的結束點。某些元素隻有内聯參數，是以不需要結束标記。HTML将文檔分為HEAD和BODY兩個部分，形式如下：

HEAD部分描述文檔的定義，這個部分将在文檔顯示前被解析。這個部分包括頁面标題、資源連結以及作者定義的元資訊。BODY部分描述文檔的結構和内容。常用的結構元素包括段落、表、表單、連結、連結清單和按鈕等。

下面是一個HTML頁面的簡單例子：

HTML還有其他更為複雜的結構而且可以和其他标準混合使用。HTML規範經過不斷發展，現在已經支援和腳本語言內建，可以在用戶端對元素和屬性進行動态操縱（動态HTML），以及可以使用級聯樣式表（Cascading Style Sheets，CSS）這種标記語言來顯示參數并進行子產品化定制。當然HTML具有嚴格的、非描述性的結構元素，也很難實作子產品化。

2. XML

對于Web的标記語言而言，資料、結構和視圖的子產品化特性是很有必要的。我們希望使用者或應用能夠自己定義文檔中的标記（結構）以及它們之間的關系，并在XML檔案中使用這些标記來定義資料，最後在另一個文檔中定義如何顯示這些标記。

假設你希望根據使用者的查詢請求從資料庫中檢索股票資訊。使用XML語言，你需要事先為股票資料建立全局文檔類型定義（DTD）。然後伺服器的腳本程式就可以遵循DTD定義的規則，利用資料庫中的資料來生成滿足查詢條件的XML文檔。最後，根據顯示裝置的不同，使用者将會收到XML樣式表，以便在不同顯示裝置（27英寸的LED顯示屏或手機螢幕）上都能得到最佳的視覺效果。

最初的XML是1998年2月由W3C通過的1.0版本。到2008年為止已進行了十五次修改。最初的版本仍備受推崇。第二種版本的XML 1.1于2004年産生，2006年釋出了第二版。XML的文法和HTML很相似，但XML更為嚴格。所有的标記都必須小寫，如果一個标記隻有内聯資料，那麼它也必須包含結束符，例如。XML還使用名稱空間，以便區分不同DTD中具有相同名字的标記。我們也可以通過URI來導入DTD。下面是一個XHTML文檔的定義，我們可以看一下XML的文檔結構：

所有的XML文檔都以<?xml version="ver"?>開頭。..>是用來導入DTD的特殊标記。由于它實際上是DTD的定義，是以并不遵循XML規則。xmlns為文檔元素定義了唯一的名稱空間。在上面的例子中，名稱空間是XHTML規範的說明網頁。

以下是其他一些和XML相關的規範：

●XML協定。用于在程序間交換XML資訊。它可用來替代HTTP協定，并将進一步擴充以支援網絡上程序間的通信。

●XML Schema。一種結構化且功能更加強大的語言，用來定義XML資料類型（标記）。和DTD不同，XML Schema用XML标記來進行類型定義。

●XSL。XSL相當于XML的CSS。但XSL更為複雜，它由三部分構成：XSL轉換（XSLT)、XML路徑語言（XPath)以及XSL格式對象。

由于Web伺服器提供的資訊量、釋出此類資訊的能力的提升以及Wed浏覽器導航的便利性，網際網路迅速普及，尤其是在1993年Marc Andreessen推出了Mosaic浏覽器（後成為Netscape）之後。

目前，Web技術由網際網路聯盟（World Wide Web Consortium,W3C）和網際網路工程任務組（Internet Engineering Task Force,IETF）一起維護和開發，以規範技術。W3C為網際網路制定了以下三個目标：對網絡資源的普遍通路（任何地方的任何人）、對可用資訊的有效浏覽以及對已釋出内容的可靠使用。

值得一提的是，Internet是網際網路和通過網際網路分享的多媒體内容的基礎媒介。Internet開始于1969年隻有兩個節點的ARPANET(Advanced Research Projects Agency Network)，逐漸發展成為全球主流的網絡，通過标準的網際網路協定(TCP/IP)将無數的計算機和數十億的使用者互聯起來。它是随着數字多媒體一起演變的。一方面，Internet承載了大部分的多媒體内容。它很大程度上代替CD光牒成為電影行業存儲和發行産品的媒體。目前，電視廣播行業也正在以更快的速度重塑。另一方面，Internet最初并不是為多媒體資料而設計的，并且不太适于多媒體傳輸。多媒體資料目前占據了Internet 90%的帶寬，是加強現有Internet和發展下一代Internet的關鍵推動力，正如我們将在第15～16章中看到的那樣。

1.2.3　新世紀的多媒體

新世紀以來，我們目睹了新一代面向多媒體處理和共享的社交、移動和雲計算的快速發展。今天，網際網路本身的作用已經從原來的用途演變為通信工具，可以更輕松、更快速地共享無限供應的資訊，多媒體内容也越來越豐富。高分辨率視訊甚至3D/多視點視訊可以由個人計算裝置輕松捕捉和浏覽，并且能夠很友善地使用遠端雲資源進行存儲和處理。更重要的是，使用者積極參與到社交生态系統中，成為其中的一部分，而不是被動地接受媒體内容。3G/4G無線網絡和智能移動裝置滲透到人們的生活中，進一步推動了這種變化。它們具有高度直覺的界面和非常豐富的多媒體功能，已經與線上社交網絡無縫內建，用于即時媒體内容生成和共享。

下面将列出新世紀以來多媒體發展的重要裡程碑。我們都生活在網際網路時代，都見證了這些翻天覆地的變化，13相信大部分讀者對這些事件都很熟悉。許多讀者，尤其是年輕一代，應該比作者更熟悉YouTube、Facebook和Twitter這些多媒體服務。

●2000年，網際網路規模估計超過10億頁。索尼公司于2000年10月首次公布藍光CD光牒原型。2003年4月在日本釋出了第一款原型機。

●2001年，第一個點對點共享（大部分為MP3音樂）系統——Napster，在法院的責令下關閉服務。但接下來的幾年又有許多新的點對點檔案共享系統推出，比如Gnutella、eMule和BitTorrent。Coolstreaming是第一個部署在網際網路上的大規模點對點流媒體系統，在2004年吸引了超過一百萬使用者。之後的幾年又湧現出了一些商業點對點TV系統，比如PPLive、PPStream和UUSee，尤其是在東亞。日本NTT DoCoMo在10月1日推出首款商用3G無線網絡。然後3G開始在全球部署，展示出了寬帶無線移動資料傳輸多媒體資料的潛力。

●2003年，Skype在網際網路上提供免費的點對點語音通信。

●2004年，Web 2.0被公認為是軟體開發人員和最終使用者使用Web的新方式（不是新的Web技術規範）。其理念是希望能夠促進使用者協作和互動，以便在“虛拟社群”中生成内容，而不是簡單地、被動地檢視内容，比如社交網絡、部落格、維基百科等。Mark Zuckerberg建立的Facebook是目前最流行的線上社交網絡。由Ludicorp公司建立的Flickr是一個流行的照片代管和共享網站，該公司坐落于溫哥華，由Stewart Butterfield和Caterina Fake創立。

●2005年，YouTube被創立，它是一個簡單的視訊分享門戶網站，并于2006年年底被Google收購。Google之後又推出了線上地圖服務，包括衛星影像、實時路況以及街景視訊等服務。

●2006年，Twitter被推出，并迅速在全球獲得知名度，到2012年有5億注冊使用者，每天釋出3.4億推文。2012年，Twitter推出了Vine手機應用程式，使使用者能夠建立和釋出長達6秒的短視訊片段。亞馬遜推出了雲計算平台AWS(Amazon’s Web Services)，這些服務中最為衆所周知的是Amazon EC2和Amazon S3。Nintendo推出了Wii家庭視訊遊戲機，其遙控器可以檢測三維運動。

●2007年，Apple推出了第一代iPhone，采用iOS作業系統。其觸摸屏提供非常直覺的操作，相關的App Store提供了大量移動應用程式。開放手機聯盟（Open Handset Alliance）是一個集硬體、軟體和電信于一身，緻力于推動移動裝置開放标準的聯盟，随着其成立，Google推出了Android手機作業系統。第一款Android手機于2008年10月銷售。之後Google Play和Android主要應用商店也很快推出。之後的幾年，使用iOS、Android和Windows系統的大觸摸屏平闆電腦也相繼問世。

●2009年，LTE(Long Term Evolution，長期演進)網絡首次在挪威奧斯陸和瑞典斯德哥爾摩提供服務，為發展4G無線網絡邁出了重要一步。James Cameron的電影《阿凡達》激發了人們對3D視訊的興趣。

●2010年，曾是DVD租賃服務提供商的Netflix将其基礎架構遷移到亞馬遜AWS雲計算平台，并成為主要的線上流媒體視訊提供商。電影制片廠制作的數字影片的主要副本都存儲在Amazon S3上。根據影片的視訊分辨率和音頻品質，雲端的機器将每部影片編碼為超過50種不同的版本。總的來說，Netflix總共有超過1PB的資料存儲在亞馬遜的雲端。微軟推出應用于其遊戲機Xbox 360的Kinect感應器，這是一款具有全身3D運動捕捉、面部識别和語音識别功能的裝置。

●2012年，HTML5将先前于1997年被标準化的HTML4歸入其中。HTML5是W3C的“候選推薦”。它旨在為最新的多媒體格式提供支援，同時保持目前網絡浏覽器和裝置的一緻性，以及維持其在低功耗裝置（如智能手機和平闆電腦）上運作的能力。

●2013年，索尼釋出了PlayStation 4，它是一款視訊遊戲機，內建了Gaikai，同時是基于雲的遊戲服務，提供流式視訊遊戲内容。4K分辨率電視出現在了消費市場上。

1.3　多媒體軟體工具概述

為了了解多媒體軟體工具目前在多媒體任務進行中的現狀，我們現在簡要介紹一些軟體類别和産品。

了解這些軟體僅僅是一個開始，完成一個功能全面的多媒體項目不但需要非常出色的程式設計技巧，還要使用已有工具發揮網絡和計算機的強大功能。

在課程中，我們使用文字進行教學，但鼓勵學生嘗試用這些工具去制作成熟且具有創造性的多媒體作品。然而，這部分内容的目的不是教會學生如何使用這些工具，而是了解這些工具背後的基本設計原則。通過清楚了解多媒體的關鍵資料結構、算法和協定，學生可以更好地使用這些工具，充分挖掘它們的潛能，甚至改進工具本身或開發新工具。

下面是我們将要介紹的幾類軟體：

●編曲和譜曲。

●數字音頻。

●圖形和圖像編輯。

●視訊編輯。

●動畫。

●多媒體編著。

1.3.1　編曲和譜曲

●Cakewalk Pro Audio是一個非常簡單的為音序打譜的軟體。術語音序器（sequencer）來源于MIDI音樂語言（MIDI中的事件，詳見6.2節）中存儲音符序列的老式裝置。

●Finale和Sibelius是兩個作曲家級别的譜曲系統。這些程式是為追求卓越而設定的，但其學習曲線走勢相當陡峭。

1.3.2　數字音頻

數字音頻工具主要用來通路和編輯構成音頻的真實采樣的聲音。

●Adobe Audition(原名為Cool Edit)是一款非常流行的功能強大的數字音頻工具集，具有可以和專業音頻工作室相媲美的處理能力（對于PC使用者而言），包括多聲道的生成、聲音檔案編輯和數字信号處理。

●Sound Forge也是一款基于PC的進階程式，可以用來編輯WAV檔案。它可以通過聲霸卡從光驅、錄音帶或是麥克風采集聲音，以進一步混音和編輯。它還支援添加特殊音效。

●Pro Tools是一款運作在Macintosh或Windows平台上的高端內建音頻産品和編輯環境。它提供了便捷的MIDI制作和操作功能，以及強大的音頻混合、錄制和編輯功能。完整的效果取決于購買的接收器。

1.3.3　圖形和圖像編輯

●Adobe Illustrator是一款功能強大的用于制作和編輯向量圖的工具，可以友善地導出向量圖以便在Web上使用。

●Adobe Photoshop是圖形圖像處理和制作的标準工具。圖形、圖像和文本可以分别在不同的圖層上進行獨立的操作，非常靈活。此外，它包含一套濾鏡，可以實作非常複雜的光學效果。

●Adobe Fireworks是專門用來制作網頁圖形的軟體。它包括位圖編輯器、向量圖編輯器以及用于制作按鈕和翻轉器的JavaScript生成器。

●Adobe Freehand是一個文本和網頁圖形編輯工具，它支援多種位圖格式，如GIF、PNG和JPEG。這些都是基于像素的格式，這種格式指定了每個像素。它同樣支援基于向量的格式，這種格式隻需指定線段的兩個端點，而不必指定每個像素，例如SWF（Adobe Flash）。它還支援讀入Photoshop格式檔案。

1.3.4　視訊編輯

●Adobe Premiere是一款簡單直覺的非線性視訊編輯工具——可以将視訊片段按任意順序放置。視訊和音頻排列在不同的軌道上，就好像樂譜那樣。它提供了大量的音頻和視訊軌道、疊加和虛拟片段。對于片段，它包含一個内置轉換、過濾和運動的庫，以便更高效地開發多媒體産品。

●CyberLink PowerDirector由CyberLink公司出産，到目前為止是最流行的非線性視訊編輯軟體。它提供了豐富的音頻、視訊特征選擇和特殊的效果，并且易于使用。它支援目前視訊的所有格式，包括AVCHD 2.0、4K Ultra HD和3D視訊。它支援64位的視訊處理器、顯示卡加速和多CPU。它的處理和預覽比Premiere快得多。然而，它并不像Premiere那樣是“可程式設計的”。

●Adobe After Effects是一款功能強大的視訊編輯工具，支援使用者給已有的視訊檔案添加特殊效果，或對已有視訊檔案進行修改，如光照、陰影和運動模糊等。和Photoshop類似，它也是用圖層來進行對象的獨立編輯。

●Final Cut Pro是Apple為Macintosh平台提供的視訊編輯工具。它可以從大量資料源中采集視訊和音頻資料。它提供了一套非常完整的環境，可以實作從視訊的采集到編輯、顔色修正，以及最終将結果輸出到視訊檔案中。

1.3.5　動畫

1.多媒體API

Java3D是Java用來建構和渲染3D圖像的API，和Java Media Framework處理媒體檔案類似。它提供了一套基本的對象基元（立方體、曲線等）來幫助開發人員進行場景的建構。由于它是建立在OpenGL或DirectX（使用者可以從中選擇）之上的抽象層，是以可以支援圖形加速。

DirectX是一個支援視訊、圖像、音頻和3D動畫的Windows API，是目前Windows多媒體應用程式（如計算機遊戲）開發中應用最廣泛的API。

OpenGL誕生于1992年，一直到現在還是最為流行的3D API。OpenGL具有高度的可移植性，可以運作在目前所有流行的作業系統上，如UNIX、Linux、Windows和Macintosh。

2.動畫軟體

Autodesk 3ds Max(原名為3D Studio Max)包括一組高端的專業工具，用于完成人物動畫、遊戲開發和視覺效果的制作。使用這一工具建立的模型在很多遊戲中得到了應用，如Sony Playstation。

Autodesk Softimage（原名為Softimage XSI）是一款功能強大的模組化、動畫和渲染軟體包，用于在遊戲和電影中制作動畫和生成特殊效果。

Autodesk Maya是Softimage的競争對手，它包含了一個完整的模組化軟體包，擁有多種不同的模組化和動畫工具，例如構造逼真的衣物和皮毛的工具。它可以在Windows、Mac OS和Linux作業系統下運作。

3. GIF Animation Packages

為了能在Web應用中對小型動畫進行簡單有效的開發，很多共享軟體和其他程式都支援GIF動畫圖像的制作。GIF包含了多幅圖像，并通過它們之間的循環構成簡單的動畫。

Linux也提供了一些簡單的動畫工具，如animate。

1.3.6　多媒體編著

能夠提供建立完整多媒體示範功能（包括互動式使用者控制）的工具，稱為編著（authoring）程式。

●Adobe Flash通過一種更類似于樂譜的方法來支援互動式電影的創作，因為并行的事件序列排列在時間線上，就好像樂譜中的音符一樣。電影中的元素在Flash中稱為符号（symbol）。符号被添加到一個名為庫的中心存儲庫中，并可以添加到電影的時間線上。在指定的時刻需要顯示這些符号時，它們就會出現在舞台(Stage)上。舞台給出了電影在某一時刻的内容，并可以通過Flash内置的工具進行操作和移動。Flash電影通常用來在Web上顯示電影或遊戲。

●Adobe Director用一種類似于電影的方法進行互動式示範的創作。這個功能強大的程式包括一種内置的腳本語言Lingo，可以進行複雜的互動式電影制作。Director中的角色包括位圖分鏡、腳本、音樂、聲音和調色闆。Director可以讀入多種不同的位圖格式。程式對互動性有良好的支援，Lingo（具有自己的調試器）則允許更多的控制行為，包括對外部裝置的控制。

●Dreamweaver是一個網頁編著工具，允許使用者在不學習任何HTML的情況下制作多媒體示範文稿。

1.4　未來的多媒體

本書強調多媒體的基礎原理，重點關注構成當今多媒體系統的基礎和較為成熟的技術。然而值得注意的是，多媒體研究仍然有很大的發展空間，而且正在茁壯成長。它帶來了很多令人興奮的研究課題，我們一定會在不久的将來看到一些偉大的創新顯著地改變我們的生活[12]。

例如，研究者曾經對基于錄影機的目标跟蹤技術很感興趣。但是，盡管人臉識别技術（相機軟體在圖像和視訊中合理識别人臉）無處不在，人臉檢測和目标跟蹤還不能解決當今遇到的問題（雖然結合多個姿勢的人臉跟蹤是一個很有希望的方向[13]）。實際上，研究者對于這些課題的興趣日漸衰減，需要一些新的突破。相反，目前的重點是事件檢測，比如對于安全應用來說，檢測到某人不小心将包落在了機場。

鏡頭檢測（尋找視訊中發生的場景變化）以及視訊分類方向在一段時間内是比較吸引研究者注意的，但由于網絡上存在着大量未經專業編輯的視訊，這些老的課題又遇到了一些新的挑戰。

如今，3D拍攝技術在傳統的2D視訊的基礎上繼續發展，已經能夠在人說話期間擷取其面部表情的動态特征，可以為低帶寬的應用程式合成高度逼真的人臉動畫。除此之外，來自多個錄影機或單個錄影機的不同光照下的多個視圖可以準确地擷取表示材質的形狀和表面特性的資料，進而自動生成合成圖形的模型。這使得可以為虛拟演員合成更為逼真的照片。針對殘障人士士（尤其是對于弱視或老年人）的多媒體應用也是目前研究的熱點。另一個相關的例子是Google眼鏡，其配有光學頭戴式顯示器，可為使用者提供類似于智能手機的互動式資訊顯示。它還可以無線連接配接Internet，利用自然語言語音指令進行通信。所有的這些都為極具潛力的可穿戴計算裝置的發展做出了貢獻。

像YouTube、Facebook、Twitter這些線上社交媒體，雖然在過去的十年間才出現，但它們迅速地改變了資訊産生和分享的方式，甚至可以說改變了我們的日常生活。社交媒體是較受關注的研究領域之一，每年大約有近十萬篇相關的學術論文産生。這帶來了一系列有趣的新課題。

多媒體衆包（crowdsourcing for multimedia）。多媒體衆包是指将大量的來自參與人員的輸入用于多媒體項目，這一課題得到了廣泛的關注。比如，利用人們提供的一些标簽來幫助了解圖像或視訊的視覺内容，就像亞馬遜的“Mechanical Turk”，它将諸如視訊語義注釋這樣耗時的任務外包給為了少量的報酬或僅僅為了樂趣而工作的人們。對大量人群直接進行“情感”分析，例如，要評估特定品牌的受歡迎程度，通過閱讀關于該主題的幾千條推文就可以證明。另一個例子是“數字時尚”（digital fashion），這個課題旨在開發出能夠進行無線通信的功能增強型智能服裝，以加強人們在社交環境中的人際交往。這類研究希望的是通過技術使得人們可以自動地傳達某些想法和感覺，更友善地與配備類似技術的其他人進行交流。

可執行的學術論文（executable academic papers）。在科學和工程界，傳播研究成果的一種傳統方法是在學術期刊上發表論文。可執行論文則是一種完全利用數字化進行資訊廣播的新方法。這個想法誕生于這樣的一個事實：發表的論文中所讨論的方法的實驗結果往往難以複制，因為論文使用的資料集和實驗代碼通常不會作為出版的一部分公開出來。可執行論文允許“讀者”對資料和代碼進行互動和操作，以進一步了解論文中呈現的成果。此外，這個概念還包括允許讀者重新運作代碼、更改參數或上傳不同的實驗資料。

仿真虛拟人（animated lifelike virtual agents）。比如虛拟教育者，尤其是作為有特殊需要的兒童的社交夥伴；虛拟人還能夠表現出情感和個性，并且能夠扮演各種各樣的角色。虛拟人的目标是靈活的，而不是固定的腳本。

行為科學模型可以模拟人與人之間的互動，進而用于虛拟人物之間的自然互動。這種“增強互動”(augmented interaction)可以用來開發真實的人和虛拟人物之間的使用者界面，應用于諸如增強故事叙述等任務中。

這些應用推動了計算機技術的發展，産生了許多新的應用，并吸引了很多從業者。多媒體研究領域的引領者提出了幾個重要的挑戰，這些問題都是關于多媒體研究中最前沿的技術，目前包含以下内容：

●社交多媒體中的社交事件檢測：發現人們計劃和參與的社交事件，例如由人們拍攝并上傳到社交媒體網站的多媒體内容所表現出的事件。

●電視内容搜尋和超連結：針對特定的主題為相關的視訊片段生成對這些片段的超連結。注意，不是人工地執行搜尋和跟蹤超連結，而是智能地、自動地實作。

●社交多媒體的地理坐标預測：使用包括标簽、音頻和使用者這些所有可用的資料估計圖像和視訊的GPS坐标。

●電影中的暴力鏡頭檢測：自動檢測電影中描寫暴力的部分。同樣，所有可用資料（例如文字和音頻）都可以發揮作用。

●監控視訊中的隐私保護：這種方法可以隐藏私人資訊（如Google Earth上的人臉），使視訊中敏感的、隐私的元素無法被識别出來；但與此同時，視訊仍然可以正常觀看，同時還可以對視訊執行一些計算機視覺任務，如目标跟蹤。

●語音網絡搜尋：通過音頻在音頻内容中搜尋和查詢相關内容。

●語音網絡中的問答：上面問題的一個變體，旨在将語音問題與一個語音答案集合進行比對。

●廣告配樂選擇：從候選音樂中選出最合适的配樂。目的在于使用額外的特征（中繼資料）輔助完成這項任務，比如文本、對音頻和視訊的描述性特征計算、網頁、社交标簽等。

找到這些挑戰的解決方案可能會很困難，但這些挑戰的解決會對IT行業還有我們每一個人都産生巨大影響，因為我們都生活在數字多媒體時代。我們希望這本教科書能帶給你有價值的多媒體知識，同時也希望你喜歡這本書，甚至希望這本書能為你未來的職業生涯（可能是上面列出的這些研究領域或其他方面）做出貢獻。

1.5　練習

1.用自己的話解釋什麼是“多媒體”？多媒體是多種不同媒體的簡單組合嗎？

2.說出三種較有新意的多媒體應用。并給出你認為它們有新意的理由以及它們潛在的影響力。

3.讨論多媒體和超媒體之間的關系。

4.用自己的話簡單解釋Memex以及它在超文本方面的作用。我們今天還應該繼續使用Memex的應用嗎？你如何在自己的實際工作中應用Memex的理念？

5.讨論目前的一種采用模拟信号的媒體輸入、存儲或播放裝置。它有必要轉換為數字信号嗎？模拟信号或數字信号的優缺點是什麼？

6.假設你需要在Internet上傳輸氣味，我們在某處有一台氣味傳感器，并且希望将芳香向量（以此為例）傳輸到一個接收器并複制出相同的氣味。試設計一個這樣的系統。列出需要考慮的三個主要問題和這類傳輸系統的兩個應用。提示：考慮醫學應用。

7.人物或物體的跟蹤可以通過視覺或聲音來完成。視覺系統的準确度較高，但是代價相對較為昂貴；而使用一組麥克風就可以在付出較少費用的情況下對人的方位進行精确度要求不高的定位。是以，視覺和聲音方法的融合是很有意義的。上網查找是否有人應用這一理念開發了用于視訊會議系統的工具。

8.非照片逼真度圖像（non-photorealistic graphics）表示那些并非用來建構使圖像看起來像相機拍攝的圖像的計算機圖形。比如，如果在會議中跟蹤嘴唇的運動，我們可以生成和臉部相應的動畫。如果不希望使用自己的臉部，我們可以使用其他的臉部來代替——臉部特征模型可以将嘴唇動作正确比對到另一個模型上。試查找誰在進行avatar生成的研究（avatar是會議參與者身體動作的模拟表示）。

9.水印技術是在資料中嵌入隐藏資訊的技術。它具有法律内涵：這幅圖像是否被抄襲？這幅圖像是否被篡改？這是由誰、在哪裡完成的？想一想在拍攝圖像時隐藏在圖像中的能夠識别出的資訊，并回答上面這些問題。（類似的問題來源于行動電話的使用，我們可以用什麼來确定是誰、在哪兒、在什麼時候用這部手機？）

帶你讀《多媒體技術教程（原書第2版）》之一：多媒體導論第1章

第1章

1.1　什麼是多媒體

1.1.1　多媒體的組成部分

1.2　多媒體：曆史和現狀

1.2.1　多媒體的早期曆史

1.2.2　超媒體、網際網路和Internet

1.2.3　新世紀的多媒體

1.3　多媒體軟體工具概述

1.3.1　編曲和譜曲

1.3.2　數字音頻

1.3.3　圖形和圖像編輯

1.3.4　視訊編輯

1.3.5　動畫

1.3.6　多媒體編著

1.4　未來的多媒體

1.5　練習

參考文獻

繼續閱讀

dos 指令集2---DOS 常用指令 (edit)

在DOS下運作不了ipconfig指令

《Windows CE大排檔》第一版勘誤表

程式設計高手：VC 6.0下利用消息實作内部程序通訊

為什麼要選擇UniDAC

Compile workrave under windows &ndash; My exprience 在Windows上編譯Workrave

Windows下使用GSL（GNU Scientific Library）

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

SIP Presence SUBSCRIBE-NOTIFY

QName是什麼

windows不能在本地計算機上運作oracleDbConsoleorcl

Windows下VS開發環境環境安裝工程項目設定關于Debug和Release的提示

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

Windows下配置Apache的SSL服務

Mac｜Windows系統本地照片自動上傳到伺服器

帶你讀《多媒體技術教程（原書第2版）》之一：多媒體導論第1章

第1章

1.1 什麼是多媒體

1.1.1 多媒體的組成部分

1.2 多媒體：曆史和現狀

1.2.1 多媒體的早期曆史

1.2.2 超媒體、網際網路和Internet

1.2.3 新世紀的多媒體

1.3 多媒體軟體工具概述

1.3.1 編曲和譜曲

1.3.2 數字音頻

1.3.3 圖形和圖像編輯

1.3.4 視訊編輯

1.3.5 動畫

1.3.6 多媒體編著

1.4 未來的多媒體

1.5 練習

參考文獻

繼續閱讀

1.1　什麼是多媒體

1.1.1　多媒體的組成部分

1.2　多媒體：曆史和現狀

1.2.1　多媒體的早期曆史

1.2.2　超媒體、網際網路和Internet

1.2.3　新世紀的多媒體

1.3　多媒體軟體工具概述

1.3.1　編曲和譜曲

1.3.2　數字音頻

1.3.3　圖形和圖像編輯

1.3.4　視訊編輯

1.3.5　動畫

1.3.6　多媒體編著

1.4　未來的多媒體

1.5　練習