資料工程師的 5 個新年決心

新的一年即將來臨,是時候展望即將到來的一年並製定一些新年計劃。這是一個養成新習慣的機會,可以讓你更成功、更有影響力,但它也是一個改掉一些對你職業和個人都不利的壞習慣的好機會。

資料工程師的生活

身為資料工程師,尤其是在資料驅動的公司中,您需要花費大量時間來滿足公司內各個利害關係人和部門的需求。無論他們是資料分析師、資料科學家、後端工程師、高階主管——他們都有需求和要求。身為資料管道和資料整合的負責人,您的工作是確保他們能夠成功執行工作,並確保您公司產生的資料產品是消費者可以放心依賴的。這不是一件容易的事。

然後事情就變得複雜了

作為資料工程師,日常工作是您生活的一部分,例如編寫和更新 ETL、測試新的和更改的 ETL、將這些管道添加到生產中,很容易變成耗時的噩夢。將未在生產資料之上經過良好測試的新資料管道寫入生產可能會損壞資料並使其不可靠。

分析這些故障可能會成為一項艱

鉅的任務,並且會耗費大量時間——尤其是在沒有適當的工具的情況下。在大數據工程團隊中處理相同的資料集會讓你破壞其 英國 WhatsApp 號碼數據 他人的工作,反之亦然,這會浪費每個人的時間和精力。並刪除資料?有些資料工程師光是想像這一點就會感到非常害怕。你不希望今年有點不一樣嗎?

來自我們社區的一些建議

身為資料工程師,我們也遭受許多這樣的痛苦,這是我們的新年決心的候選清單——主要是我們今年將停止做的事情,以消除我們工作帶來的一些痛苦和痛苦。

WhatsApp數據

1.今年我不會刪除數據

刪除生產資料有時是強制性的,但風險很大。如果操作不當,可能會對業務造成嚴重後果—因為一些依賴資料的分析和演算法 設計或生產變更對整體獲利能力的經 將被損壞。為了安全地刪除資料-使用資料版本控制是一個很好的解決方案。您建立生產資料的一個分支,並在該分支上套用刪除,並在該分支上執行資料品質檢查。之後,您可以將測試的資料集合併回生產。但是,如果稍後您發現不小心刪除了不應該刪除的內容,您可以輕鬆恢復到刪除先前的資料狀態。

2.今年我不會在生產數據上進行測試

在生產資料之上測試新的和更改的 ETL 是強制性的 – 因為這是確保 ETL 執行所需操作且沒有任何錯誤的唯一方法。但對生產桶本身進 印度數據 行測試是一種糟糕的做法,可能會產生可怕的後果。您是否會冒著存在錯誤的風險來測試一項新作業,該作業會刪除生產本身的一些資料?

現有的解決方案(例如複製整個資料

湖並對其進行測試,或對資料湖的子集進行測試)很容易出錯,並且需要大量過多的工作。解決方案再次是使用數據版本控制。這樣,您就可以在生產資料之上安全地測試您的 ETL ,而不會對生產本身帶來風險。這是透過使用分支來完成的——您可以使用完整的生產資料建立一個分支,在其上測試您的 ETL,然後安全地將 ETL 部署到生產中。

3.今年我不會破壞別人的作品如果您想與您的團隊一起創造偉大的事物,那麼協作是必須的。但凌駕於其他人的工作之上會適得其反——當團隊沒有使用正確的工具來促進協作時,就會發生這種情況。

在使用資料湖時,多名資料工程分析師

和資料科學家在同一個儲存桶和同一個資料集上一起工作是很常見的。如果沒有必要的預防措施,他們可能會無意中乾擾彼此的工作並可能對其造成損害。解決方案還將使用數據版本控制,就像軟體工程師使用程式碼版本控制來能夠有效協作一樣。同樣,當使用資料版本控制時,每個資料工程師都可以在自己的分支上工作——這是隔離的資料副本,只有在品質測試和驗證之後才將資料合併到主儲存桶中。這樣他們就可以在保持獨立性的同時進行協作,並且不會幹擾隊友的工作。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端