By Matthew LUI in programming — Feb 13, 2019

關於開四停三的「大」數據迷思

新年回廣州探親，在親友車上，聽其誇耀現在廣州市的數據處理能力及規模的厲害。cctv滿街，最少一星期的視頻數據才能支撐得起那開四停三的厲政，這般那般。

當然了，我對中國挖掘個人數據的能力，是不會致疑的。要說當今世界對圖像的深度學習領域，中國必為前列。而其背後的主要推動，當然是監控的需求。

在這番共聚天輪的家庭閒聊之中，最叫我好奇的，是從技術角度能出發及解釋得了的一個問號 - 開四停三的數據規範。

首先，視頻數據是不會直接入庫的。視頻可以儲存，數據可以接某視頻或其分段，但沒有表是直接一個BLOB把視頻放進去的（嗯⋯⋯是沒有的🙈）。

想當然，分析也不會直接依賴原始數據，特別是視頻數據。

數據入庫

在視頻數據分析前，首先是feature extraction，這裡可以走過不少的pre processing pipeline，而對於非即時處理/管理的數據，會在提取完feature後，把feature入庫。走到這一步，可能只剩下車牌、地點、時間、型號⋯⋯此類的數據。而視頻可以作他用作冷數據分別保存。

數據分析

在進行數據分析時，當然不會在這大母體裡進行了。假如成千上萬的子程式同時存取主表，先不論其性能如何，但只能算是種浪費。在進行正式分析前，digest (map reduce) 入局部分析的子數據庫

那麼這子數據庫，具體需要多大呢？

主要數據as車牌及日期，在不考慮任何儲存優化，如最直接的車牌hashing預處理，單行50字節內是很容易做到的，如果以單日50萬台出行車輛，便是25,000,000字節，即25,000kB或25mB。以7日為單位作滾存，大概是175mB的庫。

這大小，嗯⋯已是大量水分下的尺寸。當然了，這不是主庫的大小啦。

Also post at: http://www.devdoggy.com/t/topic/48

數據入庫

數據分析

Subscribe to TechRD.in