ETL 中優化的一些問題?

問答 ? AIZero ? 于 2020-09-04 00:01:07 ? 最后回復由 AIZero 2020-09-04 11:23:11 ? 359 閱讀
  1. 如果要跑海牛日志一年的數據,自己統計時先將一年的數據拉到本地,通過find命令把log文件放到一個文件夾,然后再把hdfs上傳到hdfs上,然后再跑MapReduce。雖然hdfs中沒法使用find函數的樣子,但這個過程能否全程在hdfs上實現,有什么優化的方法。
  2. 如果我每天的定時任務需要跑最近三個月的日志數據,腳本該如何寫才能把最近三個月的log文件匯集到MapReduce的input文件夾。
點贊
成為第一個點贊的人吧 :bowtie:
回復數量: 2
  • 青牛 國內首批大數據從業者,就職于金山,擔任大數據團隊核心研發工程師
    ? 2020-09-04 00:09:34

    1.mapreduce不就是一個可以并發的大find嗎

    2.不用匯集到一個目錄里面,使用mr的多目錄輸入

    FileInputFormat.setInputPaths(job, inputPaths);
  • AIZero
    ? 2020-09-04 11:23:11

    @青牛 好的,我去試試

暫無評論~~
  • 請注意單詞拼寫,以及中英文排版,參考此頁
  • 支持 Markdown 格式, **粗體**、~~刪除線~~、`單行代碼`, 更多語法請見這里 Markdown 語法
  • 支持表情,可用Emoji的自動補全, 在輸入的時候只需要 ":" 就可以自動提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上傳圖片, 支持拖拽和剪切板黏貼上傳, 格式限制 - jpg, png, gif,教程
  • 發布框支持本地存儲功能,會在內容變更時保存,「提交」按鈕點擊時清空
Ctrl+Enter
上海麻将垃圾胡技巧 ag视讯5万重注没赢过 股票平台下载安装 东北麻将单机版 打陕西麻将必胜绝技 双色球开奖现场直播 北京pk10官网在线计划 股票分析师招聘 白城吉祥棋牌下载 四人麻将联机 中彩票捐款 2020年怎么在手机上买彩票 七星彩走势图表 实况篮球比分推荐 以太币骗局留用人员 0140李逵劈鱼 凯时娱乐官方网站-点击进入