大多數數據科學家使用諸如R,Python和C / C ++之類的分析工具進行研究。這些工具很難與當前的數據庫系統集成,從而導緻數據分析緩慢而麻煩。北京軟件開發公司:“數據科學家選擇通過開發一系列數據管理替代方案來重塑數據庫系統,這些替代方案可以執行與傳統數據庫管理系統相似的任務,但是存在許多數十年前在數據庫領域解決的問題。”
“數據庫研究界在開發功能強大的數據庫引擎方面取得瞭(le)長足的進步,該引擎可進行有效的分析查詢處理。” 軟件開發公司嘗(cháng)試将數據庫科學中的這些創新與數據科學家最常使用的分析工具相結合。北京軟件外包公司:“我們研究瞭(le)如何促進分析工具與關系數據庫管理系統的高效,輕松集成。”
大型數據集
在計算機科學中使用标準數據庫系統的另一個問題是處(chù)理的數據大小。大多數數據庫系統並(bìng)未針對使用遠程服務器的大型數據集和大規模數據分析進行優化。要優化數據庫系統,可以考慮三種方法。
軟件公司:“我們将研究重點放在數據庫-客戶端集成的三種主要方法上:客戶端-服務器連接,數據庫内處理以及将數據庫嵌入客戶端應用程序中。” 對於每種方法,他研究瞭(le)現有數據庫系統中的實現,並(bìng)評估瞭(le)它們對於數據科學中常見的大型數據集和工作負載的效率。
鴨數據庫
最終結果是一個名爲DuckDB的新數據管理系統,該(gāi)系統專用於(yú)與R和Python(及其他分析工具)進行高效且輕松的集成。該(gāi)管理系統旨在用作成熟的數據庫系統,不僅用於(yú)研究目的。“在DuckDB中,我們将從研究數據庫-客戶端集成的所有課程中吸取教訓,並(bìng)創建一個易於(yú)使用且高效的嵌入式數據庫。” 北京軟件外包公司将繼續擔(dān)任CWI的博士後,在那裏他将繼續開發(fā)DuckDB。