Caused by: java.lang.NumberFormatException: For input string: “|“

2023-06-26 22:09:14

這個異常是在使用spark進行資料清洗處理的時候出現的異常，在百度上搜尋，發現類似的異常都是出現在jsp頁面的參數設定中，困擾了好半天。

1|24|M|technician|85711

2|53|F|other|94043

3|23|M|writer|32067

4|24|M|technician|43537

5|33|F|other|15213

6|42|M|executive|98101

7|57|M|administrator|91344

8|36|M|administrator|05201

9|29|M|student|01002

10|53|M|lawyer|90703

這是原本的資料格式，以“|”作為分隔符，是以一般的思路也是把”|”作為分隔依據

//讀取資料HDFS上
    val userRdd = sc.sparkContext.textFile("file:///C:/Users/Administrator/Desktop/ml-100k/u.user")
      .map(line=>(line.split("|"))) //需要進行轉義
      .map(t=>User(t(0).toInt,t(1).toInt,t(2),t(3),t(4).toInt))
    //4.導入相關的隐士依賴
    import  sc.implicits._
    val UserDF = userRdd.toDF()
    UserDF.select($"id",$"age",$"sex",$"occuption",$"number")
        .show()

這是代碼塊，這是在這裡忽略了切割字元需要進行轉義，不然确實會出現格式異常，在對“|”做了轉義處理後，正确得到了結果

正确的代碼塊

//讀取資料HDFS上
    val userRdd = sc.sparkContext.textFile("file:///C:/Users/Administrator/Desktop/ml-100k/u.user")
      .map(line=>(line.split("\\|"))) //需要進行轉義
      .map(t=>User(t(0).toInt,t(1).toInt,t(2),t(3),t(4).toInt))
    //4.導入相關的隐士依賴
    import  sc.implicits._
    val UserDF = userRdd.toDF()
    UserDF.select($"id",$"age",$"sex",$"occuption",$"number")
        .show()

    sc.stop()

運作結果

Caused by: java.lang.NumberFormatException: For input string: “|“

Caused by: java.lang.NumberFormatException: For input string: “|“

繼續閱讀

ubuntu hadoop2.6.1，terminal下運作wordcount

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Spark實作wordcount

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結