新聞網(wǎng)訊 近日,電子信息學院蘇洪磊課題組(青島大學智能多媒體信號處理實驗室)在智能多媒體通信領域取得一系列重要研究進展,分別發(fā)表于國際頂級期刊IEEE Transactions on Image Processing (TIP)、IEEE Transactions on Visualization and Computer Graphics(TVCG)和IEEE Transactions on Multimedia (TMM),均為中國科學院一區(qū)期刊(其中TIP和TVCG為CCF A類期刊)。本課題組的四項主要研究成果分別針對點云質(zhì)量評價的模型架構(gòu)、解碼效率和感知機制等方面取得突破:
《3DTA: No-Rference 3D Point Cloud Quality Assessment With Twin Attention》發(fā)表于IEEE Transactions on Multimedia,第一作者是2022級研究生朱琳霞,通訊作者是蘇洪磊。此研究提出了一種基于雙重注意力機制的Transformer模型,用于端到端預測點云感知質(zhì)量。該方法設計了兩階段采樣策略,有效提取代表整幅點云的幾何和紋理信息,并采用雙注意力模塊(空間注意力和通道注意力)增強模型對失真的感知能力,從而直接輸出點云的主觀質(zhì)量評分。實驗結(jié)果表明,與以往方法相比,3DTA模型在大部分情況下顯著提升了無參考質(zhì)量評價的準確性,其性能甚至可與部分全參考指標相媲美。這一模型結(jié)構(gòu)簡單靈活、適用范圍廣,為無參考PCQA提供了高精度的解決方案。提出的模型結(jié)構(gòu)如圖1所示。

圖1:提出的3DTA模型結(jié)構(gòu)圖
《No-Reference Bitstream-Based Perceptual Quality Assessment of Octree-Lifting Encoded 3D Point Clouds》發(fā)表于IEEE Transactions on Visualization and Computer Graphics,第一作者是2021級研究生呂劍雨,通訊作者是蘇洪磊。針對傳統(tǒng)的點云質(zhì)量評價方法需要完整解碼點云的問題,本研究提出了一種無參考比特流層質(zhì)量評價模型streamPCQ-OL,專門用于評價Octree-Lifting編碼的3D點云質(zhì)量。該模型直接從壓縮后的比特流中提取關(guān)鍵特征,通過分析紋理量化參數(shù)、幾何量化尺度等信息,評價點云的幾何和紋理失真。與傳統(tǒng)方法不同,streamPCQ-OL無需解碼完整點云即可實時提供質(zhì)量評價結(jié)果,顯著提升了評價的效率。提出的結(jié)構(gòu)圖如圖2所示。

圖2:提出的streamPCQ-OL模型結(jié)構(gòu)圖
《Energy-Adaptive Bitstream-Layer Model for Perceptual Quality Assessment of V-PCC Encoded 3D Point Clouds》發(fā)表于IEEE Transactions on Image Processing,第一作者是2022級研究生桑伍駟,通訊作者是蘇洪磊。針對傳統(tǒng)質(zhì)量評價需完整解碼點云的問題,該研究提出在V-PCC壓縮碼流層直接評價質(zhì)量的方法。通過分析點云視頻壓縮碼流中的變換能量和量化參數(shù)等信息,EABL模型能夠預測幾何和屬性失真,無需將點云完全解碼即可在解碼過程中實時給出質(zhì)量評價結(jié)果。在WPC2.0、M-PCCD、VSENSE VVDB等四個公開點云數(shù)據(jù)庫上的測試顯示,EABL的預測性能與需要完整解碼的全參考、部分參考方法不相上下,同時大幅提升了評價速度。該方法實現(xiàn)了點云編碼傳輸過程中質(zhì)量評價的高效化,為資源受限環(huán)境下的點云應用提供了實用方案。提出的模型結(jié)構(gòu)如圖3所示。

圖3:提出的EABL模型結(jié)構(gòu)圖
《Progressive Knowledge Transfer Network Based on Human Visual Perception Mechanism for No-Reference Point Cloud Quality Assessment》發(fā)表于IEEE Transactions on Visualization and Computer Graphics,第一作者是蘇洪磊,通訊作者是劉祺和元輝?;谌祟愐曈X感知機制,本課題組課題組提出了一種逐步優(yōu)化質(zhì)量預測的深度學習架構(gòu)。PKT-PCQA首先進行粗粒度的質(zhì)量分類學習,將點云質(zhì)量分級模擬人眼對優(yōu)劣的初步判斷,隨后通過漸進式知識遷移將該粗粒度認知逐步轉(zhuǎn)化為精細的質(zhì)量評分任務。模型融合了點云的局部與全局特征,并引入空間和通道注意力模塊,提升對視覺失真的敏感度。經(jīng)三個大規(guī)模獨立點云質(zhì)量數(shù)據(jù)庫驗證,PKT-PCQA在無參考和部分參考評價中均優(yōu)于現(xiàn)有方法,對比多種全參考指標也表現(xiàn)出相當或更優(yōu)的性能。該方法有效提升了模型對點云主觀質(zhì)量的感知一致性,實現(xiàn)了從粗略感知到精確評價的跨越。提出的結(jié)構(gòu)圖如圖4所示。

圖4:提出的PKT-PCQA模型結(jié)構(gòu)圖
這四篇論文均圍繞智能多媒體通信領域的3D點云質(zhì)量評價這一關(guān)鍵問題展開,在提高評價精度、提升計算效率、增強泛化能力方面均取得重要進展,為自動駕駛、3D視覺通信、虛擬/增強現(xiàn)實、智能制造等領域的高效點云質(zhì)量評價提供了理論和技術(shù)支撐。
本課題的開展和完成得到了國家自然科學基金、山東省自然科學基金等項目的支持。
智能多媒體通信是以人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)為核心,通過高效處理音視頻、圖像、文本等多模態(tài)信息,實現(xiàn)實時交互與智能分析的新型通信模式。其應用涵蓋遠程辦公、在線教育、遠程醫(yī)療、智能安防、智慧城市、工業(yè)質(zhì)檢、虛擬試衣、自動駕駛、AR/VR等領域,同時推動數(shù)字孿生、元宇宙社交等新興場景發(fā)展,通過5G、邊緣計算等技術(shù)提升實時性與沉浸感,助力各行業(yè)數(shù)字化轉(zhuǎn)型與智能化升級。