“未来城市”是面向下一个时代城市问题,构建在新理念、新技术之上的城市发展方案。
未来我国将组织开展全国声环境质量监测,推进监测自动化,统一发布全国声环境质量状况信息。这说明声环境的分析和评估对未来城市人居环境十分重要。
来自哈尔滨工业大学的研究团队就将面部表情分析技术引入声景研究,旨在通过构建基于面部表情分析的声景地图,为未来城市声环境评估与设计提供新的工具和方法。
未来城市与声环境问题
随着城市化进程不断深入,未来城市的构想日益成为城市规划者与研究者的核心议题。未来城市不仅应当具备智能化、技术化、生态友好、韧性、低碳和宜居等特征,更应在多个维度上全面提升居民的生活质量。其中,声环境作为城市物理环境的关键维度,直接影响居民的听觉感受与心理健康,其重要性不容忽视。然而,现有声环境研究大多仍集中于声压级的降低,对声音感知与主观评价的探讨尚显不足,亟需从人本视角出发开展更深入的探讨。
构建智能化声景地图
声景(soundscape)作为某场景下个人或群体所感知、体验及(或)理解的声环境,已成为解决城市声环境问题的热点研究方向。如何建立有效的声景评价模型,对提升未来城市人居声环境具有重要的社会和应用价值。
声景地图是一种直观的声景评价模型,其通过图形化方式对声景要素进行描述、记录与展示。在早期应用中,它主要用于客观声学数据与主观感知评价之间的对比分析。随着研究的不断深入,声景地图的功能也逐渐拓展,能够反映诸如主观响度、舒适度等心理声学指标在地理空间中的分布特征。近年来,随着智能化与大数据技术的引入,声景地图进一步发展为一种高效的声景预测与模拟工具,为城市声环境的规划与管理提供科学支持。
其中,面部表情识别作为利用计算机进行面部图像理解的智能化技术,其优势在于可以客观反映原本需要主观收集的数据,符合未来城市的智能化需求。但目前,其在声环境感知方面应用较少。
因此,本研究尝试将面部表情识别技术引入声景研究,通过构建基于面部表情分析的声景地图,为未来城市声环境评估与设计提供新的工具和方法。
基于面部表情的声景地图构建
本研究选择哈尔滨市儿童公园作为研究区域。该公园长约1000米,宽约230米,总面积18公顷,属于典型的城市公园。公园内既有风格别致的步行街,又有曲径通幽的小路;既有热闹宽敞的活动区域,又有自然安静的休憩区域,形成丰富的空间体验(图1)。
园内不同空间中的声源类型丰富,吸引了众多当地居民和游客,为声景地图中的声源和行为分析提供了理想的研究场所。

首先,以数据库建立、有效性验证、地图编制与分析以及声景地图应用四个流程进行声景地图绘制。数据库建立包括基础数据库(地理空间数据)与核心数据库(面部表情数据)的构建。地理空间数据为研究区域内各种实体空间要素几何边界特征数据的集合,主要包括研究区域内的建筑、道路、广场、水体、绿化等信息。面部表情数据包含被试在声源、时间与行为维度下的面部表情数据。
其中,面部表情的数据收集采用摄像机现场录制的方式进行。研究选取30名听力水平正常的哈尔滨工业大学在读学生作为被试。每位被试均需要在每个区域根据时段和行为分别录制视频。根据时间差异,选择06:00-07:00、11:00-12:00和19:00-20:00三个时间段,根据行为差异,选择散步、健身与广场舞三种行为进行录制。每段视频录制80秒(图2)。

使用诺达思的面部表情分析系统(FaceReader)对视频中的面部表情进行分析。面部表情情感被分为七种基本情绪,即愉快、惊奇、惧怕、悲伤、愤怒、厌恶和中性,依据表情的占比可计算出被试的面部表情效价,即反映其积极情绪或消极情绪的指标,其取值范围为1-7。

面部表情分析系统 (FaceReader)
面部表情分析系统 (FaceReader)
每名被试完成面部表情录制之后,立刻在调查地点通过问卷调研的方式获取声景感知质量(主观响度、声舒适度)和声景维度(多变性、愉悦感、活力感与平静感)等评价数据,以分别验证不同维度下面部表情识别数据的有效性。
最后,将客观声景数据与地理空间数据在地理信息系统(GIS)中进行图形化处理,并从声源、时间与行为维度对声景地图进行维度划分与动态数据分析,并分别向政府、设计师、公众展示输出应用。
声景地图的多维度与动态性分析
(一)面部表情分析构建声景评价的有效性
研究发现,面部表情效价与主观响度呈负相关,与声舒适度呈正相关;与声景维度指标中的多变性呈负相关,与声景维度中的其他指标呈正相关。这些结果与以往声感知调查中各变量的关系高度一致,说明面部表情数据可以正确反映声感知的正负性。
对于声源维度而言,在以机械声为主导的环境中,除主观响度外,其余评价指标均与面部表情效价显著相关。其中,只有多变性与效价呈显著负相关,这说明机械声的多变性是降低感知情绪的重要因素。在自然声为主导的环境中,面部表情效价与声感知评价中的声舒适度以及声景维度中的愉悦感和活力感显著相关,表明自然声对提升声感知评价水平具有积极作用。
对于行为维度而言,除健身行为与多变性之间以及广场舞行为与主观响度之间不相关外,其余声学行为下面部表情效价与主观评价指标均显著相关。此外,与声源维度相比,面部表情效价在行为维度能解释的声景指标更多,说明行为对声感知的影响不容忽视。
对于时间维度而言,除下午时段与多变性和愉悦感、中午时段与平静感不相关外,一天内不同时间段面部表情效价与主观评价指标之间均显著相关。这表明时间因素对声感知的影响具有规律性,可以通过声景地图进行捕捉和分析。
(二)声景地图的多维度分析
未来城市需要从多维度构建声景地图,以便进行声环境数据的对比分析。以声源、时间、行为等维度为例,声景地图在这些变量分析中发挥了重要作用(图3)。

1. 声源维度分析
当人工声分布在声景地图中的自然观赏区、滨水步行区时,效价水平较低;而在表演区和健身区时,效价水平较高。这表明在不同区域人工声有着相反的作用,在进行公园设计时,应注意将公共活动区与自然景观区进行有效分离。
机械声对于公园整体的效价水平普遍会产生消极影响,但健身区和表演区的效价水平比滨水步行区及自然观赏区高。这表明在进行公园分区设计时,可以将健身区和表演区设置在靠近交通干道的位置,以降低机械声对其他敏感区域的影响。
自然声对于公园整体的效价水平普遍产生积极影响,而在自然观赏区、滨水步行区效价水平明显优于健身区和表演区。这表明在以机械声为主导的空间中引入自然声,并不能有效地提升声感知评价水平。
因此,以声源维度建立的声景地图能有效地分析基地中各区域的划分对声感知的影响,可以作为设计师进行声环境分析的工具。
2. 时间维度分析
上午健身区、表演区的效价处在全园中比较低的水平,这表明这些区域在上午时段比较容易让游客产生负面情绪。通过声景地图,游客可以选择在下午光顾这些区域以便获得更好的声感知体验效果。
在自然观赏区及滨水步行区效价水平较高,这表明上午时段在滨水步行区、自然观赏区的游客情绪表现积极,适合在这个时间段内进行活动。中午的人流量最低,因此公园整体的积极情绪水平明显要高于上午。除局部健身区和表演区外,其余地点效价水平均在4以上,呈现积极水平。
而在人流量较大的下午,全园整体效价水平是三个时间段中最低的。这表明可以通过控制人流量调节公园中的声感知水平。因此,以时间维度建立的声景地图既能有效地为居民最佳出行时间和路线指导提供帮助,也可以为政府部门进行人流量调控提供依据。
3. 行为维度分析
当健身行为发生在滨水步行区时,效价水平最低。这表明当健身行为出现在上述区域时,会明显地降低游客的声感受。当散步行为发生在滨水步行区和自然观赏区这些区域时效价水平最高,在健身区及表演区时效价水平较低。这表明这些区域的声环境最适合散步行为。
广场舞行为只有发生在表演区时会显示出积极情绪,在其余区域均为消极,这是因为广场舞使声环境的主观响度及多变性加大,进而产生负面情绪。因此,以行为维度建立的声景地图可以帮助公众选择进行活动的地点。
(三)声景地图的动态性分析
传统的声景地图仅能反映区域内静态化的声感知数据,不能满足未来城市中对声环境动态性变化分析的需求。因此,本研究根据面部表情的实时变化,以80秒时长为例,探讨了声景地图的动态性分析的可能性(图4)。

在以人工声为主导的空间中,面部表情效价在0-30秒内随着时长的增加而下降,而在30-80秒内随着时长的增加而上升;在以自然声为主导的空间内,效价则会随时长的增加而一直上升;在以机械声为主导的空间内,随着时长的增加,效价整体呈先下降后平稳趋势。这说明不同声源维度之间面部表情效价随时长变化的趋势具有显著差异。因此,可以利用其动态性特征展示声景地图中各声源感知时长对声景评价的影响。
随着时长的增加,上午与中午时间段内被试的效价整体呈上升趋势。下午时间段,在0-30秒内效价随着时长的增加有所下降,这是因为该时段内场地人流量突然增大,从而引发了声压级增加。之后随着时长的增加,效价呈恢复性上升趋势。这说明本研究中建立的声景地图不仅能反映不同时间段内声景的动态性变化趋势,还能及时捕捉和分析场地内突发事件对声景的影响。
在0-40秒内参与散步行为的效价随着时长的增加呈现上升趋势,之后趋于稳定。而参与健身和广场舞行为的效价随着时长的增加波动较大,在测量时长内未能出现相对稳定的变化趋势。这表明80秒时长的测量数据并不足以分析出广场舞、健身这类动态性较强行为的变化规律,但与传统声景地图相比仍能动态地展示参与不同行为被试的声景主观感知情况。在后续研究中可通过适当增加测量时长的方式来使声景地图适用于更多的行为类型。
总体而言,随着时长的增加,不同声源、时间与行为维度的面部表情效价均有明显的波动,这说明面部表情分析可适用于变化丰富的室外声环境,在构建未来城市动态化声景地图方面可以发挥重要作用。
面部表情分析助力发展智能化声景地图
本研究以哈尔滨市儿童公园为例,通过面部表情分析建立了面向未来城市的智能化声景地图。
首先,结果表明,面部表情分析数据可以有效地代替问卷调查结果,用于建立智能化声景地图。具体而言,面部表情分析技术在样本量方面是问卷调查用时的一半;在测量时间和分析时间上仅为问卷调查和声漫步的1/5-1/3;对声景指标解释程度上则要明显优于问卷调查和声漫步。
其次,研究建立了基于面部表情分析的多维度声景地图。通过时间、行为与声源变化下的声景分析,可以满足未来城市中政府、设计师及公众等层面对于建立相关法规、调控人流量、多尺度声景设计以及公众参与的需求(图5)。

此外,研究结果提供了发展动态声景地图的可行性。研究发现面部表情效价可以反映声环境感知随测量时长变化的动态效果,并解释了各类声源刺激而产生的波动效应。基于此,可以实现声景地图的动态化分析。
综上所述,与传统的声景研究模型相比,基于面部表情分析的智能化声景地图具有客观、高效、公共、实时的优势,可以成为未来城市声环境评估与设计的重要工具。
参考文献
姜琬时, 孟琪, & 李朦朦. (2022). 基于面部表情分析的未来城市声景地图研究——以哈尔滨市儿童公园为例. 新建筑, (6).