關(guān)于檢索的學(xué)術(shù)論文(2)
關(guān)于檢索的學(xué)術(shù)論文篇二
視頻檢索綜述
【摘要】視頻檢索把圖像檢索、模式識別、圖像數(shù)據(jù)庫技術(shù)等技術(shù)成果結(jié)合了起來,有著廣闊的 發(fā)展 前景,并將在許多領(lǐng)域中道得到 應(yīng)用。本文概述了視頻檢索的發(fā)展 歷史 和研究狀況,給出當(dāng)前視頻檢索領(lǐng)域主要的研究方法和策略, 介紹了基于DCT壓縮域圖像檢索新方案。進(jìn)一步結(jié)合視頻檢索自身的特點(diǎn)和難點(diǎn),提出了今后視頻檢索研究的重點(diǎn)和方向。
【關(guān)鍵詞】視頻檢索;圖像特征;DCT壓縮域圖像
視頻檢索就是要從大量的視頻數(shù)據(jù)中找到所需的視頻片斷。根據(jù)給出例子或是特征描述,系統(tǒng)就能夠自動的找到所需的視頻片斷點(diǎn),即實(shí)現(xiàn)基于內(nèi)容的視頻檢索。
根據(jù)提交視頻內(nèi)容的不同,視頻檢索一般分為鏡頭檢索和片段檢索。一般來說,片段的概念等價(jià)于場景的概念,也是由一連串語義相關(guān)的連續(xù)鏡頭構(gòu)成,不同的是,片段可以是一段完整場景的部分或者全部。目前視頻檢索的多數(shù)研究還集中在鏡頭檢索上。而片段檢索方面的研究則剛剛開始。實(shí)際上,從用戶的角度分析,他們對視頻數(shù)據(jù)庫的查詢通常會是一個視頻片段而很少會是單個的物理鏡頭。從信息量的角度分析,由幾個鏡頭組成的視頻片段有比單個鏡頭更多的語義,它可以表示用戶感興趣的事件,因此,查詢的結(jié)果也比較有意義。例如在新聞中檢索感興趣的事件、電影中檢索喜歡的情節(jié)、 體育 節(jié)目中檢索喜愛的體育運(yùn)動、電視臺檢索某條廣告是否播出等。
由于視頻拍攝的多樣性和后期編輯的復(fù)雜性,片段的相似性有多種可能。把片段檢索分為這樣兩種類型:(1)精確檢索:要檢索的片段與例子片段完全一樣,具有同樣的鏡頭和幀序列;(2)相似性檢索:有這樣兩種情況:一種是對原視頻進(jìn)行了各種編輯,如插入刪除幀(慢鏡頭快鏡頭)、插入刪除鏡頭、交換幀鏡頭順序等;另一種是不同拍攝的同類節(jié)目,如不同的足球比賽等。實(shí)際的視頻節(jié)目一般都是這兩種類型的綜合,其中,相似性檢索更為普遍。因此,一個好的片段檢索算法,應(yīng)該能夠在合理的時(shí)間內(nèi)同時(shí)進(jìn)行這兩種類型片段的檢索。
1 視頻檢索的關(guān)鍵技術(shù)
一個完整的視頻檢索系統(tǒng)的關(guān)鍵技術(shù)主要有:關(guān)鍵幀提取、圖像特征提取、圖像特征的相似性度量、查詢方式、以及視頻片段匹配等方法。
1.1 關(guān)鍵幀提取:關(guān)鍵幀是用于描述一個鏡頭的關(guān)鍵圖像幀, 它反映一個鏡頭的主要內(nèi)容。關(guān)鍵幀的選取一方面必須能夠反映鏡頭中的主要事件, 因而描述應(yīng)盡可能地準(zhǔn)確完全, 另一方面要便于檢索。關(guān)鍵幀的選取方法很多, 比較經(jīng)典的有幀平均法和直方圖平均法。
1.2 圖像特征提取:特征提取可以針對圖像內(nèi)容的底層物理特征進(jìn)行提取,如顏色直方圖、圖像輪廓特征等。特征的表示方式有三種:數(shù)值信息、關(guān)系信息和文字信息。目前,多數(shù)系統(tǒng)采用的都是數(shù)值信息。
1.3 相似性度量:在鏡頭檢索上,早期的 工作主要是從鏡頭中提取關(guān)鍵幀,把鏡頭檢索轉(zhuǎn)化為圖像檢索。例如通常情況下,圖像的特征向量可看作是多維空間中的一點(diǎn),因此很 自然 的想法就是用特征空間中點(diǎn)與點(diǎn)之間的距離來代他們的匹配程度,距離度量是一個比較常用的方法,此外還有相關(guān) 計(jì)算 、關(guān) 聯(lián)系數(shù)計(jì)算等。此外,目前研究的問題還在于怎樣對視頻中的時(shí)間信息充分進(jìn)行利用。
在片段檢索上,研究方法可以分為兩類:(1)把視頻片段分為片段、幀兩層考慮,片段的相似性利用組成它的幀的相似性來直接度量;(2)把視頻片段分為片段、鏡頭、幀3層考慮, 片段的相似性通過組成它的鏡頭的相似性來度量,而鏡頭的相似性通過它的一個關(guān)鍵幀或所有幀的相似性來度量。方法(1)的缺點(diǎn)在于限制相似的片段必須遵守同樣的時(shí)間順序,同時(shí)這種基于每幀的比較,也使得檢索速度比較慢。方法(2)的思想比較合理,但這種方法在已有的研究中并沒有很好解決片段檢索的問題。
1.4 查詢方式:由于圖像特征本身的復(fù)雜性,對查詢條件的表達(dá)也具有多樣性,使用的特征不同,對查詢的表達(dá)方式也不一樣。目前查詢方式基本上可歸納為以下幾種:底層物理特征查詢、自定義特征查詢、局部圖像查詢和語義特征查詢。
1.5 視頻片斷的匹配:由于同一鏡頭連續(xù)圖像幀的相似性,使得經(jīng)常出現(xiàn)同一樣本圖像的多個相似幀的出現(xiàn),因而需要在查詢到的一系列視頻圖像中,找出最佳的匹配圖像序列。已經(jīng)有研究提出了最優(yōu)匹配法、最大匹配法和動態(tài)規(guī)劃算法等。
2 檢索性能的評價(jià)
對于視頻檢索系統(tǒng)的評價(jià)并沒有一個統(tǒng)一的標(biāo)準(zhǔn),我們可以通過計(jì)算一些參數(shù)來衡量。如對于視頻片斷我們可以通過全查率和查準(zhǔn)率來評價(jià);對于使用某一個基準(zhǔn)查出的K幅圖像,又可以用正確檢測數(shù)、錯誤檢測數(shù)、漏檢數(shù)和正確淘汰數(shù)來表示。對于檢索平臺還有一個重要的參數(shù)檢索效率來評價(jià)檢索的響應(yīng)時(shí)間。
3 基于DCT壓縮域圖像檢索新方案
現(xiàn)在我們用到的視頻檢索方案是基于非壓縮域的,必須將壓縮的視頻數(shù)據(jù)解壓后再進(jìn)行比對,這樣消耗了大量的實(shí)際,因而提出一種基于DCT壓縮域圖像檢索方案,作為以后的進(jìn)一步研究和改進(jìn)方向。
基于壓縮域的圖像檢索技術(shù),實(shí)際上是把圖像的壓縮技術(shù)與檢索技術(shù)融合在一起,能夠在不解碼(或不完全解碼)的情況下抽取到圖像可用于比對的信息特征。對于這種信息特征的提取,可以利用DCT域的一些特征,主要包括顏色特征、輪廓特征和輪廓直方圖等。
我們目前采用的視頻圖像壓縮格式是H.264/AVC,它目前采用與MPEG-2主類相同的4:2:0采樣結(jié)構(gòu)。并且視頻圖像幀或場都可以劃分為固定大小的宏塊,宏塊是解碼的基本模塊單元,通常是一個16×16亮度像素和兩個8×8彩色分量像素的長方型區(qū)域。所有宏塊的亮度和色度采樣在空間或時(shí)間上進(jìn)行預(yù)測,對預(yù)測殘余進(jìn)行變換編碼,為了實(shí)現(xiàn)變換編碼,每個顏色分量的預(yù)測殘余要再劃分為更小的4×4塊,每塊進(jìn)行DCT整數(shù)變換,變換系數(shù)被量化,最后是熵編碼。所以經(jīng)過熵解碼后就可以得到DCT系數(shù)。
把圖像中所有16×16幀內(nèi)模式的宏塊中的DCT直流系數(shù)按照塊的空間位置關(guān)系重新 組織在一起,就構(gòu)成了DC 圖。DC圖是一幅圖像的低頻近似,雖然丟掉了圖像的中高頻信息,但仍然反映了圖像的主要內(nèi)容,可以看作是整幅圖像的縮圖,因此可以根據(jù)DC 圖直接進(jìn)行圖像檢索。
4 國內(nèi)外視頻檢索的發(fā)展現(xiàn)狀
目前,國內(nèi)外已研發(fā)出了多個基于內(nèi)容的視頻檢索系統(tǒng),主要有:
(1)QBIC系統(tǒng):QBIC (Query By Image Content)是由IBM Almaden研究中心開發(fā)的,是“基于內(nèi)容”檢索系統(tǒng)的典型代表。QBIC系統(tǒng)允許使用例子圖像、用戶構(gòu)建的草圖和圖畫及其選擇的顏色和紋理模式、以及鏡頭和目標(biāo)運(yùn)動等圖形信息,對大型圖像和視頻數(shù)據(jù)庫進(jìn)行查詢。視頻方面主要利用了顏色、紋理、形狀、攝像機(jī)和對象運(yùn)動來描述內(nèi)容。
(2)VisualSeek系統(tǒng):VisualSeek是美國哥倫比亞大學(xué) 電子 工程系與電信研究中心圖像和高級電視實(shí)驗(yàn)室共同研究的、一種在互聯(lián)網(wǎng)上使用的“基于內(nèi)容”的檢索系統(tǒng)。它實(shí)現(xiàn)了互聯(lián)網(wǎng)上的“基于內(nèi)容”的圖像/視頻檢索系統(tǒng),提供了一套供人們在Web上搜索和檢索圖像及視頻的工具。
(3)VideoQ系統(tǒng):VideoQ是哥倫比亞大學(xué)研究的一個項(xiàng)目,它擴(kuò)充了傳統(tǒng)的關(guān)鍵字和主題導(dǎo)航的查詢方法,允許用戶使用視覺特征和時(shí)空關(guān)系來檢索視頻。它有以下幾個特征:集成文本和視覺搜索方法;自動的視頻對象分割和追蹤;豐富的視覺特征庫,包括顏色、紋理、形狀和運(yùn)動;通過WWW互聯(lián)網(wǎng)交互查詢和瀏覽。
(4)TV-FI系統(tǒng):TV-FI (Tsinghua Video Find It),是清華大學(xué)開發(fā)的視頻節(jié)目管理系統(tǒng)。這個系統(tǒng)可以提供如下幾個功能:視頻數(shù)據(jù)入庫、基于內(nèi)容的瀏覽、檢索等。TV-FI提供多種模式訪問視頻數(shù)據(jù),包括基于關(guān)鍵字的查詢、基于示例的查詢、按視頻結(jié)構(gòu)進(jìn)行瀏覽、以及按用戶自己預(yù)先定義的類別進(jìn)行瀏覽。
5 目前系統(tǒng)的主要問題以及研究趨勢
目前我們應(yīng)用的系統(tǒng)中還存在一些問題,比如一些樣本圖像不容易被檢索到,這主要是由于有 現(xiàn)代 電視在傳播過程中的非線性損失或是強(qiáng)度較大的干擾信號引起的。我們很難對有線電視的損失信號進(jìn)行一個完美的補(bǔ)償,這使得顏色直方圖等一些對噪聲很敏感的方法很難在我們的系統(tǒng)中得以應(yīng)用。由于有線電視信號的這種特點(diǎn),使得查全率和查準(zhǔn)率這對矛盾更加突出。經(jīng)過大量的測試我們發(fā)現(xiàn),視頻圖像本身對于噪聲的魯棒性有所不同,這就要求我們進(jìn)一步分析圖像特點(diǎn),盡量使用易檢索圖像作為檢索樣本,來權(quán)衡查全率和查準(zhǔn)率這對矛盾。
此外,現(xiàn)在對于視頻檢索系統(tǒng)的還有以下一些研究熱點(diǎn):
(1)非壓縮域的圖像檢索:為了提高效率,只對壓縮視頻信息不解壓或只進(jìn)行部分解壓,或取圖像的特征信息進(jìn)行檢索。
(2)基于語義的圖像檢索:為了使圖像檢索系統(tǒng)更加接近人對圖像的理解,研究者們還提出了基于語義的圖像檢索,試圖從語義層次解決圖像檢索問題。例如,太陽、汽車等一些代表性詞語,它包括了人們對圖像的理解,這種技術(shù)的難點(diǎn)在于如何獲取圖像的語義信息。
(3)視頻的動態(tài)特征提取:視頻處理是視頻檢索的基礎(chǔ),而視頻數(shù)據(jù)是動態(tài)的,具有動態(tài)特征。充分利用視頻圖像的動態(tài)特性,可以進(jìn)一步提高視頻片斷檢索的準(zhǔn)確度。
(4)多維索引方法:根據(jù)視頻圖像的空間性,研究基于時(shí)空的多維索引方法將更有助于視頻檢索的速度和精確度的提高。
6 結(jié)束語
綜上所述,視頻檢索把圖像檢索、模式識別、圖像數(shù)據(jù)庫技術(shù)等技術(shù)成果結(jié)合了起來,有著廣闊的 發(fā)展 前景,并將在許多領(lǐng)域中道得到應(yīng)用,比如 網(wǎng)絡(luò) 多媒體搜索引擎、交互電視、數(shù)字圖書館、遠(yuǎn)程 教育 ,遠(yuǎn)程醫(yī)療,遠(yuǎn)程購物、多媒體編輯(個人 電子 新聞業(yè)務(wù)、媒體寫作)等。
參考 文獻(xiàn)
[1] 金紅,周源華.基于內(nèi)容檢索的視頻處理技術(shù). 中國 圖像圖形學(xué)報(bào),2000,5(4):276~283
[2] 王紹棣,張莉等.基于內(nèi)容特征的圖像和視頻檢索系統(tǒng). 計(jì)算 機(jī)工程與應(yīng)用,2001,7:113~117
[3] 彭宇新.Ngo Chong-Wah.基于內(nèi)容的視頻檢索關(guān)鍵技術(shù).計(jì)算機(jī)工程,2004,1(30):14~16
[4] 張繼東,陳都.基于內(nèi)容的視頻檢索技術(shù).數(shù)字電視與數(shù)字視頻,2002,8 17~19
[5] 朱緒娟.一種基于內(nèi)容的壓縮域圖像檢索系統(tǒng)的開發(fā).北京 工業(yè) 大學(xué)碩士 論文 .
看了“關(guān)于檢索的學(xué)術(shù)論文”的人還看: