登錄

數(shù)據(jù)壓縮

百科 > 信息管理術(shù)語 > 數(shù)據(jù)壓縮

1.什么是數(shù)據(jù)壓縮[1]

數(shù)據(jù)壓縮是以盡可能少的數(shù)碼來表示信源所發(fā)出的信號,減少容納給定的消息集合或數(shù)據(jù)采樣集合的信號空間。這里講的信號空間,就是被壓縮的對象,是指某信號集合所占的時(shí)域、空域和頻域。信號空間的這幾種形式是相互關(guān)聯(lián)的,存儲(chǔ)空間的減少,意味著信號傳輸效率的提高,所占用帶寬的節(jié)省。只要采取某種方法來減少某個(gè)信號空間,就能夠壓縮數(shù)據(jù)。

數(shù)據(jù)壓縮信息論中一個(gè)很重要的概念。從信息論的角度來看,信源編碼的一個(gè)最主要的目的,就是要解決數(shù)據(jù)的壓縮問題。這一點(diǎn),反映在整個(gè)通信過程中。

2.數(shù)據(jù)壓縮的基本原理[1]

一般來說,數(shù)據(jù)壓縮主要是通過數(shù)據(jù)壓縮編碼來實(shí)現(xiàn)的。要想使編碼有效,必須建立相應(yīng)的系統(tǒng)模型。在給定的模型下,通過數(shù)據(jù)編碼來消除冗余,大致有如下三種情況。

(1)信源符號之間存在相關(guān)性。如果消除了這些相關(guān)性,就意味著數(shù)據(jù)壓縮。譬如,位圖圖像像素與像素之間的相關(guān)性,動(dòng)態(tài)視頻幀與幀之間的相關(guān)性。去掉這些相關(guān)性,通常采用預(yù)測編碼、變換編碼等方法。

(2)信源符號之間存在分布不等概性。根據(jù)不同符號出現(xiàn)的不同概率,分別進(jìn)行編碼,概率大的符號用較短的碼長編碼,概率小的符號用較長的碼長編碼,最終使信源的平均碼長達(dá)到最短。對此,通常采用統(tǒng)計(jì)編碼的方法。

(3)利用信息內(nèi)容本身的特點(diǎn)(如自相似性)。用模型的方法,對需傳輸?shù)男畔⑦M(jìn)行參數(shù)估測,充分利用人類的視覺、聽覺等特性,同時(shí)考慮信息內(nèi)容的特性,確定并遴選出其中的部分內(nèi)容(而不是全部內(nèi)容)進(jìn)行編碼,從而實(shí)現(xiàn)數(shù)據(jù)壓縮。通常采用模型基編碼的方法。

隨著數(shù)字通信和計(jì)算機(jī)技術(shù)的不斷發(fā)展,有關(guān)數(shù)據(jù)壓縮的技術(shù)正不斷成熟和完善,而且適應(yīng)各種應(yīng)用的新的編碼方法也不斷產(chǎn)生。一般說來,可供壓縮的數(shù)據(jù)分為兩大類:一類是與文字和字符有關(guān)的文本數(shù)據(jù);另一類是將模擬信號數(shù)字化后得到的多媒體數(shù)據(jù)。兩類數(shù)據(jù)所采用的數(shù)據(jù)壓縮方法相應(yīng)不同。此外,文本數(shù)據(jù)壓縮和多媒體數(shù)據(jù)壓縮(如視覺類和聽覺類媒體)在算法上存在一定區(qū)別,主要表現(xiàn)在兩個(gè)方面:是否允許有誤差;壓縮算法有沒有高級模型可以利用。

3.數(shù)據(jù)壓縮的基本方法[1]

目前,比較認(rèn)同的常用的數(shù)據(jù)壓縮的編碼方法,大致分為兩大類。

(1)冗余壓縮法或無損壓縮法。

冗余壓縮法或無損壓縮法又稱為無失真壓縮法或熵編碼法。這類壓縮方法只是去掉數(shù)據(jù)中的冗余部分,并沒有損失熵,而這些冗余數(shù)據(jù)是可以重新插入到原數(shù)據(jù)中的。也就是說,去掉冗余不會(huì)減少信息量,而且仍可原樣恢復(fù)數(shù)據(jù)。因此,這類壓縮方法是可逆的。

(2)熵壓縮法或有損壓縮法。

這類壓縮法由于壓縮了熵,也就損失了信息量,而損失的信息是不能恢復(fù)的。因此,在用門限值來采樣量化時(shí),如果只存儲(chǔ)門限內(nèi)的數(shù)據(jù),那么原來超過這個(gè)預(yù)置門限的數(shù)據(jù)就將丟失。這種壓縮方法,雖然可壓縮大量的信號空間,但那些丟失的實(shí)際樣值就不可能恢復(fù)了,是不可逆的。也就是說,在用熵壓縮法時(shí),數(shù)據(jù)壓縮要以一定的信息損失為代價(jià),而數(shù)據(jù)的恢復(fù)只能是近似的,應(yīng)根據(jù)條件和要求,在允許的范圍內(nèi)進(jìn)行壓縮。

4.數(shù)據(jù)壓縮的分類[2]

數(shù)據(jù)壓縮按照映射是否固定可分為靜態(tài)數(shù)據(jù)壓縮動(dòng)態(tài)數(shù)據(jù)壓縮。靜態(tài)數(shù)據(jù)壓縮是指壓縮前源消息集到碼字集之間的映射是固定的,出現(xiàn)在被壓縮數(shù)據(jù)中的源消息每次都被映射為同一碼字。動(dòng)態(tài)數(shù)據(jù)壓縮是指源消息集到碼字集的映射會(huì)隨著壓縮進(jìn)度的變化而變化。靜態(tài)壓縮編碼需要兩步,先計(jì)算出源消息出現(xiàn)的頻率,確定源消息到碼字之間的映射;然后完成映射。動(dòng)態(tài)數(shù)據(jù)壓縮則只需一步就能完成,它在壓縮過程中只對源消息集掃描一次。有些數(shù)據(jù)壓縮算法是混合型的,綜合應(yīng)用了靜態(tài)數(shù)據(jù)壓縮和動(dòng)態(tài)數(shù)據(jù)壓縮技術(shù)。

5.評價(jià)數(shù)據(jù)壓縮的標(biāo)準(zhǔn)[2]

從實(shí)際應(yīng)用來說,數(shù)據(jù)壓縮可從數(shù)據(jù)壓縮速度和數(shù)據(jù)壓縮率兩方面來衡量。當(dāng)數(shù)據(jù)壓縮應(yīng)用于網(wǎng)絡(luò)傳輸時(shí),主要考慮速度快慢;當(dāng)數(shù)據(jù)壓縮應(yīng)用于數(shù)據(jù)存儲(chǔ)時(shí),主要考慮壓縮率,即壓縮后數(shù)據(jù)的大小。當(dāng)然這兩方面是相輔相成的。

常用的評價(jià)標(biāo)準(zhǔn)有冗余度、平均源信息長度、壓縮率等。對于一種編碼方式是否為較好的編碼,主要看該編碼的冗余度是否最小。

6.常見的數(shù)據(jù)壓縮工具[2]

現(xiàn)在操作簡單、使用方便、功能強(qiáng)大的數(shù)據(jù)壓縮工具有很多。最常見的是WinZip和Win-RAR。

7.數(shù)據(jù)壓縮的國際標(biāo)準(zhǔn)[3]

20世紀(jì)80年代.國際標(biāo)準(zhǔn)化組織(ISO)和國際電報(bào)電話咨詢委員會(huì)(CCITT)組成的聯(lián)合圖像專家組制定的靜止圖像壓縮標(biāo)準(zhǔn)JPEG和運(yùn)動(dòng)圖像視頻壓縮標(biāo)準(zhǔn)MPEG已被廣泛采用。

1.JPEG標(biāo)準(zhǔn)

JPEG標(biāo)準(zhǔn)適用于色調(diào)和多級灰度的靜態(tài)圖像,一般對單色和彩色圖像的壓縮比通常分別為10:1和15:1,常用于CD—ROM、彩色圖像傳真和圖文管理。許多Web瀏覽器都將JPEG圖像作為其標(biāo)準(zhǔn)的圖像文件格式。

2.MPEG標(biāo)準(zhǔn)

MPEG標(biāo)準(zhǔn)不僅適用于運(yùn)動(dòng)圖像,也適用于音頻信息,它包括了三部分:MPEG視頻、MPEG音頻、MPEG系統(tǒng)(視頻和音頻的同步)。MPEG視頻是MPEG標(biāo)準(zhǔn)的核心。MPEG標(biāo)準(zhǔn)已指定了MPEG-1、MPEG-2、MPEG-4、MPEG-7和MPEG-21等多種標(biāo)準(zhǔn)。

MPEG-1是為有限帶寬傳輸設(shè)計(jì)的,數(shù)據(jù)傳輸率為l~1.5Mb/s,平均壓縮比為50:1,可達(dá)到一般錄像機(jī)所要求的質(zhì)量。它常用于VCD壓縮,一部120分鐘長的電影可壓縮到1.2GB左右。

MPEG-2是為高帶寬傳輸設(shè)計(jì)的,數(shù)據(jù)傳輸率為4~10Mb/s,壓縮比高達(dá)200:1,可支持播放高質(zhì)量的數(shù)字式電視,常用于DVD壓縮。MPEG-4是“甚低速率視聽編碼”標(biāo)準(zhǔn),數(shù)據(jù)傳輸率小于64Kb/s。多應(yīng)用在移動(dòng)多媒體通信、因特網(wǎng)、實(shí)時(shí)多媒體監(jiān)控以及其他低數(shù)據(jù)傳輸速率的場合。

3.H.261視頻通信編碼標(biāo)準(zhǔn)

國際電報(bào)電話咨詢委員會(huì)于1988年針對可視通信的需要,提出電視電話/會(huì)議的H.261編碼標(biāo)準(zhǔn),即P*64視頻編碼/解碼標(biāo)準(zhǔn)。這是一種關(guān)于視頻和聲音的以64kb/s的整數(shù)倍作為傳輸速率的雙向傳輸標(biāo)準(zhǔn)。其中P是一個(gè)通道可變參數(shù),取值為1~30。當(dāng)P=1或P=2時(shí)支持四分之一中間格式(QCIF)的幀率較低的視頻電話傳輸;當(dāng)P≥6時(shí)支持能用中間格式(CIF)的幀率較高的電視會(huì)議數(shù)據(jù)傳輸。

在H.261標(biāo)準(zhǔn)中,圖像采用公共中間格式CIF和1/4CIF,H.261標(biāo)準(zhǔn)與MPEG標(biāo)準(zhǔn)是相互不兼容的。

評論  |   0條評論