Julia ---- DataFrame 快速清洗数据的一些方式

2023-03-13 15:00:19

在整理离线数据的时候，随便整理下快速处理数据的一些方式，这里单独摘出来。不得不说，Julia 的包更新速度还是比较快的，提供的函数效率也越来越高了。

using DataFrames
using CSV

# 批量处理dataframe中的数据，应该都是按照列来处理的。
df = DataFrame(rand(5, 10))

names(df)


#返回多维数组 每个维度的size
axes(df)
#(Base.OneTo(5), Base.OneTo(1000))

for i in axes(df, 2)
    df[i] .+= 1
end

for i in names(df)
    df[i] .+= 1
end
a=1
for col in eachcol(df, false)
    a=+1
    col .+= 1
    show(a)
end
foreach(x -> x .+= 1, eachcol(df, false))



# 替换指定的值
for col in eachcol(df, false)
    replace!(col, Inf=>NaN)
end

#这种方式会更快点, 需要注意的地方就是只有在确定数据边界的情况下才能使用 @inbounds，如果不确定，可能会引起越界崩溃。
function inf2nan(x)
    for i in eachindex(x)
        @inbounds x[i] = ifelse(isinf(x[i]), NaN, x[i])
    end
end
for col in eachcol(df, false)
    inf2nan(col)
end

names(df)

#只取部分列,
df[[2, 1]]
permutecols!(df, [:x1, :x3])  #效率更高的方法


#矩阵转换成数组的方式
input = [1 2 3; 4 5 6; 7 8 9]
#转成数组
mapslices(x->[x], input,dims = [2])
DataFrame(transpose(input))
#
df[1]
#Vector 转成 array,array 定义的时候必须定义数组的元素个数;而vector 不需要
reshape(df[1],(1,5))


#使用Iterators.filter 更快速的过滤数据
function h(a ::AbstractArray)
    for x in Iterators.filter(==(10^9), 1:10^9)
        println(x)
    end
end
for col in eachcol(df, false)
    h(col)
end


#数据写入到CSV中
CSV.write("FileName.csv",  DataFrame(A), writeheader=false)

Julia ---- DataFrame 快速清洗数据的一些方式

继续阅读

尚硅谷面试题第三季

UEFI Spec chapter10 protocols-Device Path Protocol前言一、Device Path Overview二、EFI Device Path Protocol

创建ASP.NET CORE MVC项目

jqGrid 使用案例及笔记2、事件

从大数据看技术，为什么天猫双11是史上最大数字经济节日

Django项目实战——3—(图形验证码后端逻辑、短信验证码、短信验证码后端逻辑)1、图形验证码后端逻辑2、短信验证码3、短信验证码后端逻辑

MyBatis-Plus 之AR模式

windows 内网穿透（ngrok）工具使用

左耳朵耗子：程序员如何拿到年薪60万的岗位？

2022秋招面试总结（cpp+java+测开）百度测开一面字节后端一面虾皮后端一面虾皮后端二面

深入浅出！如何用一段代码证明JVM加载类是懒加载模式？看看这篇文章吧！前言垃圾回收算法复制算法标记清除标记整理垃圾回收器CMS（Concurrent Mark Sweep）回收器G1（Garbage First）并发标记三色标记算法总结

硕博连读，985院校在夹缝中求生，众多强者中面试Python成功上岸前言一、Python入门二、数据库三、爬虫四、数据分析五、web开发（前/后端）

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

第三章 Joomla!扩展开发--后端开发（续2）

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

express 搭建后台构建工程目录结构