


1 2 3 4 5 6 8 9 11 12 13 15 18 20 22 23 25 27 29


import org.apache.spark.{SparkConf, SparkContext}
import scala.util.control.Breaks._
 * Created by xuyao on 15-7-24.
 * 求中位數,資料是分布式存儲的
 * 将整體的資料分為K個桶,統計每個桶内的資料量,然後統計整個資料量
 * 根據桶的數量和總的資料量,可以判斷資料落在哪個桶裡,以及中位數的偏移量
 * 取出這個中位數
object Median {
   def main (args: Array[String]) {
    val conf =new SparkConf().setAppName("Median")
     val sc=new SparkContext(conf)
     val data =sc.textFile("data").flatMap(x=>x.split(' ')).map(x=>x.toInt)
     val  mappeddata =data.map(x=>(x/,x)).sortByKey()
     val p_count =data.map(x=>(x/,)).reduceByKey(_+_).sortByKey()
     val scala_p_count=p_count.collectAsMap()
     val sum_count = p_count.map(x=>x._2).sum().toInt
     var temp =//中值所在的區間累加的個數
     var temp2=//中值所在區間的前面所有的區間累加的個數
     var index=//中值的區間
     var mid= 
        mid =sum_count/+//中值在整個資料的偏移量
        mid =sum_count/
     val pcount=p_count.count()
       for(i <-  to pcount.toInt-){
         temp =temp + scala_p_count(i)
         temp2 =temp-scala_p_count(i)
     println(mid+" "+index+" "+temp+" "+temp2)
     val offset =mid-temp2
     val result =mappeddata.filter(x=>x._1==index).takeOrdered(offset)



