<bdo id="goioi"><dfn id="goioi"><thead id="goioi"></thead></dfn></bdo>
    1. <nobr id="goioi"></nobr>

        <track id="goioi"><span id="goioi"></span></track>

        <progress id="goioi"><bdo id="goioi"><address id="goioi"></address></bdo></progress>
          <menuitem id="goioi"><strong id="goioi"></strong></menuitem>
        1. 2019-07-16瀏覽量:1274

          干貨來襲,教你用dplyr包輕松處理數據!

          dplyr包主要用于dataframe數據格式的數據處理,可大幅提高數據處理速度,同時提供了與其它數據庫的接口。

           

           

          dplyr包更是擁有R語言必學之包的美譽,今天小銳就為大家介紹dplyr包在數據處理中常用的六個函數:

          filter 篩選

          arrange 排列

          select 選擇

          mutate 變形

          summarise 匯總

          group_by 分組

           

           首先安裝并加載dplyr包

           

          install.packages("dplyr")

          library(dplyr)

           

          加載鳶尾花數據集

           

          data<-iris

           

           

          篩選:filter()

           

          根據給定的邏輯判斷,篩選符合條件的子集。

          data1<-filter(data,Sepal.Length>7)  #篩選Sepal.Length(花萼長度)大于7的數據

           

           

          data2<-filter(data,Species=="versicolor")  #篩選物種為“versicolor”的數據

           

           

          data3<-filter(data,Species!="versicolor" & Petal.Length>4.5)  #篩選物種不為“versicolor”且Petal.Length(花瓣長度)大于4.5的數據

           

           

          排列:arrange()

           

          按給定的列名對行進行排序。

          data4<-arrange(data,Sepal.Length)  #按Sepal.Length進行排序,默認為升序

           

           

          排列:arrange()

           

          按給定的列名對行進行排序。

          data4<-arrange(data,Sepal.Length)  #按Sepal.Length進行排序,默認為升序

           

           

          排列:arrange()

           

          按給定的列名對行進行排序。

          data4<-arrange(data,Sepal.Length)  #按Sepal.Length進行排序,默認為升序

           

           

          選擇:select()

           

          用列名做參數選擇子數據集。

          data6<-select(data,Sepal.Width:Petal.Width)  #選擇Sepal.Width(花萼寬度)到Petal.Width(花瓣寬度)的列

           

           

          data7<-select(data,starts_with("P"))  #結合starts_with函數,選擇變量名以P開頭的列

           

           

          變形:mutate()

           

          對現有的列進行運算,并作為新列添加。

          data8<-mutate(data,S.L=10*Sepal.Length)  #增加S.L列為Sepal.Length列的10倍

           

           

          data9<-mutate(data,L.W=Sepal.Length/Sepal.Width)  #增加L.W列為Sepal.Length除以Sepal.Width的數值

           

           

          匯總:summarise()

           

          對數據框調用其它函數進行匯總操作,返回一維的結果。

          data10<-summarise(data,mean(Sepal.Length))  #求Sepal.Length的平均值

           

           

          分組:group_by()

           

          添加了group_by()分組信息后就可對數據執行分組操作,常與summarise() 結合使用。

          data11<-summarise(group_by(data,Species),mean(Sepal.Length))  #對數據按Species分組,計算Sepal.Length平均值

           

           

          今天關于R語言數據處理dplyr包的六個函數就介紹到這里,關注銳翌基因,干貨持續推送!

          更多R語言相關課程,在銳翌暑期培訓班喲

          下一篇

          版權所有 上海銳翌生物科技有限公司 滬ICP備16022951號