国际标准期刊号: 2167-7670
帕纳吉奥蒂斯·梅莱蒂斯
整体场景理解是未来自动驾驶汽车的重要组成部分。为了安全驾驶,这些车辆能够理解和解释其环境至关重要。这需要精确检测周围物体(车辆、人类、交通物体、自然)、区分可行驶和不可行驶表面(道路、人行道、建筑物)以及将静态和动态对象分割为高级语义类别。过去,由于这些问题的复杂性和高计算需求,计算机视觉分别解决了这些问题。如今,基于深度学习的系统通过手动注释的数据集进行训练来解决这些问题,但它们面临着多种挑战:1)注释语义类的数量受到可用数据集的限制,只有几十个,从而减少了可识别对象的种类,2)注释的密度与数据集的大小成反比,使得庞大的数据集不适合精确分割,并且3)检测和分割是分开解决的,这会导致更高的内存和计算需求。我们的研究通过提出新方法来解决上述挑战:1)在具有不同语义类别和不同类型注释的多个数据集上训练单个网络,2)用单个网络同时解决检测和语义分割问题。我们已将这些网络部署在具有实时性能的自动驾驶汽车中。我们展示了最先进的成果,