HouseMind: Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

发表于:CVPR 2026, 2026

建筑平面图设计需要对几何、语义和空间层次进行联合推理,这对当前的AI系统来说仍然是一个重大挑战。HouseMind是一个多模态大语言模型,在一个框架中统一了建筑平面图的理解、生成和编辑。它通过VQ-VAE引入离散房间实例token,将布局几何与符号推理连接起来,实现可控且可解释的操作。实验表明,该模型在保持高效和可本地部署的同时,展现了优异的几何有效性和可控性。

推荐引用格式: QIN S Z, WEBER R E, LU X Z. Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans[C/OL]. CVPR, 2026. https://arxiv.org/abs/2603.11640.
论文链接 | Project Page