1500字范文 > 数字媒体--基于语音识别全息投影及虚拟现实技术的建筑体验与展示系统（记录较简陋）

数字媒体--基于语音识别全息投影及虚拟现实技术的建筑体验与展示系统（记录较简陋）

时间：2022-12-23 23:21:44

一、设计目标

（1）设计的背景知识以及场地：

背景知识：一家建筑公司用于介绍其成功建筑案例。

场地：5m*6m会议室，拥有椅子和桌子。

场地设计图：

（2）面向的用户：相关企业、政府部门、慈善机构等。

（3）想达到的效果：全面全方位的展现以往成功建筑案例的特点以及特性，让用户可以直观的全方位的了解到到成功案例的成功之处，让用户可以亲身体验到成功案例的具体效果。

（4）面临的主要困难：对于所利用到的科技的具体实现的困难。

（6）软硬件系统设计

（7）用户使用场景建立

A.解说员通过全息投影系统展示成功案例

B.客户通过虚拟现实系统体验成功案例

此处仅展示解说员通过控制台展示模型的流程图

二、硬件系统设计

整体架构图

(1)语音识别硬件系统

采用语音识别芯片。对于嵌入式系统而言，语音识别硬件组成要考虑很多其它因素，首先由于成本的限制，一般使用定点DSP，这意味着算法的复杂度受到限制；其次，对产品化有各种严格的限制，这就需要一个高度集成的硬件DSP，因此最理想的硬件组成是系统级的芯片。

一般采用的是一个16位结构的微控制器，将MCU、A/D、D/A、RAM、ROM集成在一块芯片上，具有很高的集成度。同时具有较高运算速度的16×16位的乘法语音和内积运算指令，CPU最高可达时钟49MHz，因此在复杂的数字信号处理方面既非常便利又比专用的DSP芯片便宜得多。并具有12位ADC，和14位DAC保证音频精度，配置带自动增益控制（AGC）的麦克风输入方式，为语音处理带来了极大的方便。既具有体积小、集成度高、可靠性好的特点，又具有较强的中断处理能力、高性能的价格比和功能强、效率高的指令系统及低功耗、低电压的特点，所以非常适合用于嵌入式语音识别系统。

以SR160X为核心的嵌入式语音识别系统硬件的电路系统，主要包括麦克风输入电路、ADC、DAC、功放输出电路、键盘电路和各种通信电路等，语音保存到SPI Flash存储器中。

流图

(2)虚拟现实硬件系统

硬件配置主要有跟踪器，三维声卡，加上语音识别和力反馈。跟踪器是用于三维空间定位和方向跟踪。头部佩戴的跟踪器是用于真实感左右眼立体视图生成。三维声卡是为了三维双耳声音生成。语音识别是为了基于自然语言的人机交互。手部佩戴的跟踪器是基于手势的人机交互。力反馈是用于力觉建模和反馈。还要有一台有着高性能图像计算能力的计算机。

效果图

对应于人的感官：

视觉是要感受各种可见光，接口设备一般为显示器或投影仪（显示屏标准是4倍抗锯齿，1512*1680分辨率，机子性能越好，分辨率可以调节的更高）；

对于听觉，是感受声音波的，接口设备主要是耳机和喇叭；

对于嗅觉，是感知空气中的化学成分，接口设备是气味放大传感装置；

对于味觉，是感知液体中的化学成分，接口设备暂时还没有完整的装置；

对于触觉，是皮肤感知温度、压力和纹理等，接口设备为触觉传感器；

对于力觉，是肌肉等感知力的力度，接口设备为力觉传感器；

对于身体感觉，是感知肌体或身躯的位置和角度，接口设备为数据仪；

对于前庭感觉，是平衡感知，接口设备为动平台。

参数图

在视觉感知设备里，由于人类的视觉生理结构是由角膜、晶状体、玻璃体及奢望莫等组成一套光学系统。大脑皮层通过每只眼睛背部的神经细胞的多层膜，吧光信号转成电信号，并通过视神经传给大脑。视觉因素有：立体视觉、屈光度、瞳孔、分辨率、明暗适应、周围视觉和中央视觉、视觉暂留、视场。现有的VR技术，已经考虑的因素包括立体视觉，分辨率，视觉暂留以及视场，能够提供理想的立体视觉效果，实现较强的视觉沉浸。头盔显示器的显示屏是采用两个LCD或者CRT显示器分别向两只眼睛显示图像，坐这两个图像由计算机分别驱动，两个图像存在着微小的差别，类似于“双眼视差”。大脑将融合这两个图像获得深度感知，得到一个立体的图像。

虚拟现实系统中考虑到人耳因素包括：声音方向，声音舞台，以及头部有关的传递函数。

听觉感知设备的特性：全向三维定位特性、三维实时跟踪特性。

主要采用的听觉感知设备有耳机和扬声器两种。

力反馈设备是运用先进的技术手段跟踪用户身体的运动，将其在虚拟物体的空间运动转换成周边物理设备的机械运动，并施加力给用户，使用户能够体验到真实的力度感和方向感，从而提供一个立即的、高逼真、可信的真实交互、常见的设备包括：力反馈鼠标、力反馈操作杆、力反馈手臂以及力反馈手套。

本次系统使用的虚拟现实设备是HTC Vive。

(3)全息投影硬件系统

(1)360全息专用投影设备：柜体、分光镜、射灯、视频播放设备组成，基于分光镜成像原理。

(2)360全息影像用高背投幕：全息深灰膜40%

(3)图像反射系统及显示系统：系统不仅要能接收VGA、RGB、网络计算机信息，还要能接收宽带语音、视频信号，并能根据需要进行适当的信息转换。

(4)高性能图形计算机工作：当进行大部件、多部件的装配和动画中复杂场景的渲染时，普通的Pentium4系统根本无法满足要求，必须使用Xeon甚至是多CPU的SMP系统。

拓扑图

三、媒体素材/节目创作

(1)语音识别所需素材

需要进行信号预处理与特征提取，声学特征包括LPC、CEP、MEL、MFCC。然后将相关信息保存入SPI Flash中以用于后期的模式匹配与语言处理。这需要进行人工训练。

(2)虚拟现实所需素材

媒体素材主要是建筑设计的一些动画三维视频加上辅助的现实视频，是之前建模好了的建筑设计视频。

播放虚拟现实视频需要专用的软件，本数字媒体系统采用的是GizmoVR Video Player(VR媒体播放工具)，它是一款非常优秀且界面简洁的VR虚拟现实媒体播放器。它支持添加配套设备，可以实时观看设备拍摄的视频，而且当用户摘下耳机（或头盔）的时候，软件可以自动暂停播放。

支持的视频格式:2D/360/180 .avi, .mkv and .mov 4K, 8K (是否能够回放取决于安装的多媒体数字信号编解码器）

视频分镜

(3)全息投影所需素材

全息幻影成像系统是用一种将三维画面悬浮在柜体实景中的半空中成像系统。360全息幻影成像系统由柜体、分光镜，视频播放设备组成，基于分光镜成像原理，通过对产品实拍构建三维模型的特殊处理，然后将拍摄的的产品影像或产品三维模型影像叠加进场景中，构成了动静结合的产品展示系统。

即在媒体要素需要的步骤有：

1.建立三维模型：在3dmax中利用实物绘制命令、面域拉伸、面域旋转等命令生产已有的建筑立体实物，并利用布尔运算建立复杂组合体模型。

2.生成三投影图：在完成正侧轴测图后建立三投影的轮廓图、刨面图。启动soklraw命令，悬着水平投影将三维投影图转化为二维投影图，建立三维实物的轮廓图调整比例。

3. 通过对实物进行平面图制作,构建三维动画,将三维画面悬浮在实景的半空中成像

4.使用一台投影仪，视频为1024*768，图像360度旋转并且分为四个部分，用3dmax软件将现有模型数据进行四个方向渲染，输出四个动画，之后用视频剪辑软件premiere进行视频合成

四、软件系统设计

整体架构图

(1)语音识别软件系统设计

一个完整的基于统计的语音识别系统可大致分为三部分：

(1)语音信号预处理与特征提取

(2)声学模型与模式匹配

(3)语言模型与语言处理

(a)语音信号预处理与特征提取

选择识别单元是语音识别研究的第一步。语音识别单元有单词（句）、音节和音素三种，具体选择哪一种，由具体的研究任务决定。

单词（句）单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统，原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。

音节单元多见于汉语语音识别，主要因为汉语是单音节结构的语言，而英语是多音节，并且汉语虽然有大约1300个音节，但若不考虑声调，约有408个无调音节，数量相对较少。因此，对于中、大词汇量汉语语音识别系统来说，以音节为识别单元基本是可行的。

音素单元以前多见于英语语音识别的研究中，但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母（包括零声母有22个）和韵母（共有28个）构成，且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母，这样虽然增加了模型数目，但提高了易混淆音节的区分能力。由于协同发音的影响，音素单元不稳定，所以如何获得稳定的音素单元，还有待研究。

语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息，同时对语音信号进行压缩。在实际应用中，语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息，提取哪些信息，用哪种方式提取，需要综合考虑各方面的因素，如成本，性能，响应时间，计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数，尽量去除说话人的个人信息；而特定人语音识别系统则希望在提取反映语义的特征参数的同时，尽量也包含说话人的个人信息。

线性预测（LP）分析技术是目前应用广泛的特征参数提取技术，许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型，没有考虑人类听觉系统对语音的处理特点。

Mel参数和基于感知线性预测（PLP）分析提取的感知线性预测倒谱，在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的一些研究成果。实验证明，采用这种技术，语音识别系统的性能有一定提高。从目前使用的情况来看，梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数，原因是它考虑了人类发声与接收声音的特性，具有更好的鲁棒性（Robustness）。

(b)声学模型与模式匹配

声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果。

声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。

目前常用的声学模型基元为声韵母、音节或词，根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节，包括轻音字，共有1282个有调音节字，所以当在小词汇表孤立词语音识别时常选用词作为基元，在大词汇表语音识别时常采用音节或声韵母建模，而在连续语音识别时，由于协同发音的影响，常采用声韵母建模。

基于统计的语音识别模型常用的就是HMM模型λ(N,M,π,A,B)，涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。

©语言模型与语言处理

语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。

语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别。

(2)虚拟现实软件系统设计

由于使用的设备是HTC和value公司研发的HTC vive，需要下载viveport或者steam这两个平台软件，进行头盔的系统调参。

三维建模使用的软件是3D max，建模之后使用Adobe premiere进行剪辑。

播放软件是使用了GizmoVR Video Player，它是一款强势的vr虚拟现实媒体播放器。它支持添加配套设备，可实时观看设备拍摄的画面，而且当用户摘下耳机的时候，软件就能自动暂停播放。另外，软件也可以自动识别相关视频资源，方便用户查看。支持的视频格式：2D/360/180 .avi, .mkv and .mov 4K, 8K (是否能够回放取决于安装的多媒体数字信号编解码器）。

主要功能有：

1、支持所有立体声格式，包括双路高清左右格式以及环绕格式

2、从本地存储空间运行文件时进行自动双路高清监测

3、媒体库功能可将所选择的文件夹添加至收藏

4、集成下载管理器灵活的回放设置

5、如果摘下耳机，可自动停止播放

6、影院模式（曲面或平面屏幕）

7、免提模式下注视控制应用程序

8、网络摄像头动作监测

9、从浏览器一键启动

10、能够拖拽播放器

11、虚拟桌面

12、2D模式

效果图

在视频播放之余，需要有软件在视频里面标注，我们需要设计一个字幕软件，来解说视频里面的内容，同时可以语音播放，让观众拥有更直观的感受。

设计一款可视化的字幕创作软件，可以运行在Mac，Windows，Linux上，借助精准的音频波形图，可以快速创建和编辑时间轴。还要无缝支持所有的主流非编软件。使用的编译语言是java，java提供了非常丰富的类库，可以帮助我们很方便的开发java程序。Java技术具有卓越的通用性、高效性、平台移植性和安全性，而且生态系统很庞大，便于我们做跨平台多非编软件支持的字幕软件。

(3)全息投影软件系统设计

A.建模：对需要展示的建筑模型进行建模，添加和移除操作对象，排序或创建嵌套的“布尔运算”从而将平面图形通过布尔运算建立复杂组合体模型对四个方向的渲染。

B.渲染与视频剪辑：通过3dmax对四个方向的渲染，从而输出了四个动画，将动画进行剪辑最终合成一个立体图视频为立体投影作准备。

C.格式转换与输出：常用的软件有Honestech MPEG Recoder 1.0、VCDGear (GUI) 2.0 Final等等。这里推荐使用的软件是Honestech MPEG Recoder 1.0，因为它可以在播放影像文件的时候记录和捕捉活动的图像数据，而且在保证高质量的情况下实现从MPEG到AⅥ文件之间的转换，为磁盘节省了不少空间。如果要求稍高一点，可以试用一下VCDGear，它在从VCD中转换出MPEG影像时可以修正MPEG中含有的错误。MPEG转AⅥ,3d投影仪支持avi格式的输出。

五、补充说明

1.购买多台HTC vive设备。

2.需要提前对语音识别系统进行相关训练。

3.将建筑设计建模做成三维动画，现实视频可以辅助加入。

4.调节头盔系统参数，让人眼更好的适应虚拟现实设备。

5.使用VR播放软件GizmoVR Video Player并测试。

6．编写一款跨平台多非编软件支持的字幕软件，通过解说来更直观的让观众了解建筑设计的有关信息。

7.SPI Flash简介：SPI一种通信接口。那么严格的来说SPI Flash是一种使用SPI通信的Flash，即，可能指NOR也可能是NAND。但现在大部分情况默认下人们说的SPI Flash指的是SPI NorFlash。早期Norflash的接口是parallel的形式，即把数据线和地址线并排与IC的管脚连接。但是后来发现不同容量的Norflash不能硬件上兼容（数据线和地址线的数量不一样），并且封装比较大，占用了较大的PCB板位置，所以后来逐渐被SPI（串行接口）Norflash所取代。同时不同容量的SPI Norflash管脚也兼容封装也更小。，至于现在很多人说起NOR flash直接都以SPI flash来代称。

8.3DSmax：基于PC系统的三维动画渲染和制作软件。其前身是基于DOS操作系统的3D Studio系列软件。Premiere：Adobe Premiere是一款编辑画面质量比较好的软件，有较好的兼容性，且可以与Adobe公司推出的其他软件相互协作。工作站：工作站是一种高档的微型计算机，通常配有高分辨率的大屏幕显示器及容量很大的内存储器和外部存储器，并且具有较强的信息处理功能和高性能的图形、图像处理以及联网功能。以往由于笔记本电脑的图形功能的限制，使它无法完成一些诸如3D图形设计、CAD产品设计等这样一类对图形显示要求很高的工作。如今，无论是从处理器性能、主板芯片组、图形芯片部分，甚至诸如DVD-RW周边外设，都可以与台式机所比肩，当前的高端笔记本电脑的综合性能已经开始逼近主流的台式机，加上笔记本电脑与生俱来的便于携带、占用空间小、功耗低以及性能稳定等特点，使得越来越多的人开始对产生笔记本图形工作站发生兴趣。柜体须定制，采用短焦镜头投影机，投影机安装完成后将焦距调到最佳，图像模式(投影模式)采用计算机、SRGB、电影等模式(根据不同投影机而定)，调试之前确保投影机安装稳固所有线(控制线、电源线、信号线)是否已接上，调试完成后将投影机的所有自动模式关闭(信号自动搜索、自动梯形校正) ,切勿再动投影机。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。