久久久久久久av_日韩在线中文_看一级毛片视频_日本精品二区_成人深夜福利视频_武道仙尊动漫在线观看

<small id='tJMOL'></small><noframes id='tJMOL'>

  • <tfoot id='tJMOL'></tfoot>
      <bdo id='tJMOL'></bdo><ul id='tJMOL'></ul>

    1. <legend id='tJMOL'><style id='tJMOL'><dir id='tJMOL'><q id='tJMOL'></q></dir></style></legend>
        <i id='tJMOL'><tr id='tJMOL'><dt id='tJMOL'><q id='tJMOL'><span id='tJMOL'><b id='tJMOL'><form id='tJMOL'><ins id='tJMOL'></ins><ul id='tJMOL'></ul><sub id='tJMOL'></sub></form><legend id='tJMOL'></legend><bdo id='tJMOL'><pre id='tJMOL'><center id='tJMOL'></center></pre></bdo></b><th id='tJMOL'></th></span></q></dt></tr></i><div class="qwawimqqmiuu" id='tJMOL'><tfoot id='tJMOL'></tfoot><dl id='tJMOL'><fieldset id='tJMOL'></fieldset></dl></div>

        spark從mysql并行讀取數據

        spark reading data from mysql in parallel(spark從mysql并行讀取數據)
          <bdo id='j3z6h'></bdo><ul id='j3z6h'></ul>

        • <legend id='j3z6h'><style id='j3z6h'><dir id='j3z6h'><q id='j3z6h'></q></dir></style></legend>
          • <small id='j3z6h'></small><noframes id='j3z6h'>

            <tfoot id='j3z6h'></tfoot>
          • <i id='j3z6h'><tr id='j3z6h'><dt id='j3z6h'><q id='j3z6h'><span id='j3z6h'><b id='j3z6h'><form id='j3z6h'><ins id='j3z6h'></ins><ul id='j3z6h'></ul><sub id='j3z6h'></sub></form><legend id='j3z6h'></legend><bdo id='j3z6h'><pre id='j3z6h'><center id='j3z6h'></center></pre></bdo></b><th id='j3z6h'></th></span></q></dt></tr></i><div class="qwawimqqmiuu" id='j3z6h'><tfoot id='j3z6h'></tfoot><dl id='j3z6h'><fieldset id='j3z6h'></fieldset></dl></div>
              <tbody id='j3z6h'></tbody>

                  本文介紹了spark從mysql并行讀取數據的處理方法,對大家解決問題具有一定的參考價值,需要的朋友們下面隨著小編來一起學習吧!

                  問題描述

                  我正在嘗試從 mysql 讀取數據并將其寫回 s3 中具有特定分區的 parquet 文件,如下所示:

                  Im trying to read data from mysql and write it back to parquet file in s3 with specific partitions as follows:

                  df=sqlContext.read.format('jdbc')\
                     .options(driver='com.mysql.jdbc.Driver',url="""jdbc:mysql://<host>:3306/<>db?user=<usr>&password=<pass>""",
                           dbtable='tbl',
                           numPartitions=4 )\
                     .load()
                  
                  
                  df2=df.withColumn('updated_date',to_date(df.updated_at))
                  df2.write.parquet(path='s3n://parquet_location',mode='append',partitionBy=['updated_date'])
                  

                  我的問題是它只打開一個到 mysql 的連接(而不是 4 個),并且在它從 mysql 獲取所有數據之前它不會寫入 parquert,因為我在 mysql 中的表很大(100M 行)進程失敗內存不足.

                  My problem is that it open only one connection to mysql (instead of 4) and it doesn't write to parquert until it fetches all the data from mysql, because my table in mysql is huge (100M rows) the process failed on OutOfMemory.

                  有沒有辦法配置Spark打開多個mysql連接并將部分數據寫入parquet?

                  Is there a way to configure Spark to open more than one connection to mysql and to write partial data to parquet?

                  推薦答案

                  你應該設置這些屬性:

                  partitionColumn, 
                  lowerBound, 
                  upperBound, 
                  numPartitions
                  

                  正如這里記錄的那樣:http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases

                  這篇關于spark從mysql并行讀取數據的文章就介紹到這了,希望我們推薦的答案對大家有所幫助,也希望大家多多支持html5模板網!

                  【網站聲明】本站部分內容來源于互聯網,旨在幫助大家更快的解決問題,如果有圖片或者內容侵犯了您的權益,請聯系我們刪除處理,感謝您的支持!

                  相關文檔推薦

                  How to use windowing functions efficiently to decide next N number of rows based on N number of previous values(如何有效地使用窗口函數根據 N 個先前值來決定接下來的 N 個行)
                  reuse the result of a select expression in the quot;GROUP BYquot; clause?(在“GROUP BY中重用選擇表達式的結果;條款?)
                  Does ignore option of Pyspark DataFrameWriter jdbc function ignore entire transaction or just offending rows?(Pyspark DataFrameWriter jdbc 函數的 ignore 選項是忽略整個事務還是只是有問題的行?) - IT屋-程序員軟件開發技
                  Error while using INSERT INTO table ON DUPLICATE KEY, using a for loop array(使用 INSERT INTO table ON DUPLICATE KEY 時出錯,使用 for 循環數組)
                  pyspark mysql jdbc load An error occurred while calling o23.load No suitable driver(pyspark mysql jdbc load 調用 o23.load 時發生錯誤 沒有合適的驅動程序)
                  How to integrate Apache Spark with MySQL for reading database tables as a spark dataframe?(如何將 Apache Spark 與 MySQL 集成以將數據庫表作為 Spark 數據幀讀取?)
                      <legend id='ULyWG'><style id='ULyWG'><dir id='ULyWG'><q id='ULyWG'></q></dir></style></legend>

                      • <small id='ULyWG'></small><noframes id='ULyWG'>

                        <tfoot id='ULyWG'></tfoot>

                            <tbody id='ULyWG'></tbody>
                            <bdo id='ULyWG'></bdo><ul id='ULyWG'></ul>

                            <i id='ULyWG'><tr id='ULyWG'><dt id='ULyWG'><q id='ULyWG'><span id='ULyWG'><b id='ULyWG'><form id='ULyWG'><ins id='ULyWG'></ins><ul id='ULyWG'></ul><sub id='ULyWG'></sub></form><legend id='ULyWG'></legend><bdo id='ULyWG'><pre id='ULyWG'><center id='ULyWG'></center></pre></bdo></b><th id='ULyWG'></th></span></q></dt></tr></i><div class="qwawimqqmiuu" id='ULyWG'><tfoot id='ULyWG'></tfoot><dl id='ULyWG'><fieldset id='ULyWG'></fieldset></dl></div>
                          • 主站蜘蛛池模板: 999久久久国产精品 亚洲黄色三级 | 综合激情网站 | 日韩一区二区在线播放 | 亚洲精品网站在线观看 | 四虎黄色片| 久久久久久免费 | 成人黄色在线观看 | 精品国产乱码久久久久久88av | 欧美日韩在线观看视频 | 日韩免费一区二区三区 | 午夜激情福利视频 | 又黄又爽网站 | 国产精品av一区二区 | 日日日操操操 | 欧美黄色片在线观看 | 99精品在线观看 | 日韩三级在线播放 | 成人精品一区二区三区 | 一级欧美一级日韩 | 久久福利社 | 日韩成人在线免费观看 | 久久久久国产精品夜夜夜夜夜 | 日韩精品免费 | 三级黄色在线观看 | a级片在线 | 婷婷午夜天 | 美日韩一区二区三区 | 免费黄色小视频 | 久热久 | 欧美综合在线视频 | 亚洲视频在线观看免费 | 涩涩在线 | www.国产.com | 久久性色 | 国产一区二区影院 | 在线播放一区 | www.av在线 | 国产第三页| 久久久青草 | 性久久久久久久 | 99这里有精品 |