知乎的企业级数据模型知乎数据平台是一个公司级的数据平台,它负责维护基础流量数据和数据仓库,为算法、商业、搜索、后端服务提供所需的数据源。此外,它还为管理层、运营、产品、数据分析师等提供数据看板和分析系统,并维护数据地图、埋点管理系统、埋点配置和测试系统等产品。在数据分层方面,知乎数据平台采用星形模型,包括事实表和维度表。事实表采用退化维度的方法,以减少关联多表的操作。为了满足实时查询的需求,知乎调研了HiVe和HBaSe,但当两张大表join时,两者的性能都较低。因此,知乎选择将MySQL的BinLog实时打到Kafka,并使用SparkStreaming程序实时将数据写入Kudu,然后使用Impala进行实时的Kudu查询。