[Spark版本更新]--Spark-2.4.0 发布说明

2018-11-02 Apache Spark 官方发布了 2.4.0版本，以下是 Release Notes，供参考：

[ SPARK-6236 ] - 支持大于2G的缓存块
[ SPARK-6237 ] - 支持上传块> 2GB作为流
[ SPARK-10884 ] - 支持针对回归和分类相关模型的单实例预测
[ SPARK-11239 ] - 用于ML线性回归的PMML导出
[ SPARK-12850 ] - 支持桶修剪（对于分块表的谓词下推）
[ SPARK-14376 ] - 树木的spark.ml奇偶校验
[ SPARK-14540 ] - 在ClosureCleaner中支持Scala 2.12闭包和Java 8 lambda
[ SPARK-17091 ] - 将IN谓词转换为等效的Parquet过滤器
[ SPARK-19826 ] - 用于PIC的spark.ml Python API
[ SPARK-20114 ] - 用于顺序模式挖掘的spark.ml奇偶校验 - PrefixSpan
[ SPARK- 21088] - CrossValidator，TrainValidationSplit应该在拟合时收集所有模型：Python API
[ SPARK-21898 ] - MLlib中KolmogorovSmirnovTest的特征奇偶校验
[ SPARK-22187 ] - 更新已保存状态的unsaferow格式，以便在state为null时设置超时
[ SPARK-22239 ] - 用户定义的窗口函数，带有pandas udf（无界窗口）
[ SPARK-22274 ] - 用户定义的聚合函数与pandas udf
[ SPARK-22362 ] - 为窗口聚合函数添加单元测试
[ SPARK-22624 ] - 由SPARK- 22614引入的曝光范围分区随机播放
[ SPARK-23011 ] - 支持具有组聚合熊猫UDF的替代功能表单
[ SPARK-23030 ] - 使用箭头使用toPandas（）集合减少内存消耗
[ SPARK-23046 ] - RFormula包含VectorSizeHint管道
[ SPARK-23096 ] - 将速率源迁移到v2
[ SPARK-23097 ] - 将文本套接字源迁移到v2
[ SPARK-23099 ] - 迁移foreach接收器
[ SPARK-23120 ] - 向PySpark添加PMML管道导出支持
[ SPARK-23203 ] - DataSourceV2应该使用不可变树。
[ SPARK-23323 ] - DataSourceV2应使用输出提交协调器。
[ SPARK-23325 ] - DataSourceV2读者应始终生成InternalRow。
[ SPARK-23341 ] - DataSourceOptions应处理路径和表名以避免混淆。
[ SPARK-23344 ] - 将KMeans distanceMeasure param添加到PySpark
[ SPARK-23352 ] - 在Pandas UDF中明确指定支持的类型
[ SPARK-23362 ] - 将Kafka 微量滴定源迁移至v2
[ SPARK-23380 ] - 使用Pandas DataFrame为toPandas / createDataFrame中的箭头回退添加一个conf
[ SPARK-23401 ] - 改进所有支持类型和不支持类型的测试用例
[ SPARK-23418 ] - 如果没有ReadSupportWithSchema，DataSourceV2不应允许userSpecifiedSchema
[ SPARK-23491 ] - 连续症状
[ SPARK-23503 ] - 连续执行应该对提交的时期进行排序
[ SPARK-23555 ] - 在PySpark中为Arrow添加BinaryType支持
[ SPARK-23559 ] - 将epoch ID添加到数据编写器工厂
[ SPARK-23577 ] - 支持文本数据源的行分隔符
[ SPARK-23581 ] - 添加GenerateUnsafeProjection的解释版本
[ SPARK-23582 ] - 将解释执行添加到StaticInvoke表达式
[ SPARK-23583 ] - 将解释执行添加到Invoke表达式
[ SPARK-23584 ] - 将解释执行添加到NewInstance表达式
[ SPARK-23585 ] - 为UnwrapOption表达式添加解释执行
[ SPARK-23586 ] - 为WrapOption表达式添加解释执行
[ SPARK-23587 ] - 为MapObjects表达式添加解释执行
[ SPARK-23588 ] - 为CatalystToExternalMap表达式添加解释执行
[ SPARK-23589 ] - 为ExternalMapToCatalyst表达式添加解释执行
[ SPARK-23590 ] - 为CreateExternalRow表达式添加解释执行
[ SPARK-23591 ] - 为EncodeUsingSerializer表达式添加解释执行
[ SPARK- 23592] - 为DecodeUsingSerializer表达式添加解释执行
[ SPARK-23593 ] - 为InitializeJavaBean表达式添加解释执行
[ SPARK-23594 ] - 为GetExternalRowField表达式添加解释执行
[ SPARK-23595 ] - 为ValidateExternalType表达式添加解释执行
[ SPARK-23596 ] - 修改数据集测试工具以包括解释执行
[ SPARK-23597 ] - 针对非解释表达式的Audit Spark SQL代码库
[ SPARK-23611 ] - 扩展ExpressionEvalHelper线束以测试故障
[ SPARK-23615 ] - 将maxDF参数添加到Python CountVectorizer
[ SPARK-23633 ] - 在sql-programming-guide中更新Pandas UDFs部分
[ SPARK-23687 ] - 添加MemoryStream
[ SPARK-23688 ] - 重构测试远离费率来源
[ SPARK-23690 ] - VectorAssembler应该有handleInvalid来处理具有空值的列
[ SPARK-23706 ] - spark.conf.get（value，default = None）应该在PySpark中产生None
[ SPARK-23711 ] - 向已解释的执行逻辑添加回退
[ SPARK- 23713] - 清理UnsafeWriter类
[ SPARK-23723 ] - json数据源的新编码选项
[ SPARK-23724 ] - 不同于UTF-8的字符集中jsons的自定义记录分隔符
[ SPARK-23727 ] - 支持DATE预测压下镶木地板
[ SPARK-23736 ] - 高阶函数：concat（array1，array2，...，arrayN）→数组
[ SPARK-23747 ] - 添加EpochCoordinator单元测试
[ SPARK-23748 ] - 支持从临时表中选择
[ SPARK-23762 ] - UTF8StringBuilder使用MemoryBlock
[ SPARK-23765 ] - 支持json数据源的行分隔符
[ SPARK-23783 ] - 为ML管道添加新的通用导出特性
[ SPARK-23807 ] - 添加Hadoop 3配置文件以及相关的POM修复程序
[ SPARK-23821 ] - 高阶函数：展平（x）→数组
[ SPARK-23826 ] - TestHiveSparkSession应设置默认会话
[ SPARK-23847 ] - 将asc_nulls_first，asc_nulls_last添加到PySpark
[ SPARK-23859 ] - 仪表改进的初始PR：UUID和日志记录级别
[ SPARK-23864 ] - 将不安全*复制方法添加到UnsafeWriter
[ SPARK-23870 ] - 将RFormula handleInvalid Param转发给VectorAssembler
[ SPARK-23871 ] - 为VectorAssembler handleInvalid添加python api
[ SPARK- 23900] - format_number udf应将用户指定的格式作为参数
[ SPARK-23902 ] - 在UDF之间的months_中提供一个选项以禁用舍入
[ SPARK-23903 ] - 添加对日期提取的支持
[ SPARK-23905 ] - 工作日添加UDF
[ SPARK-23908 ] - 高阶函数：transform（array <T>，function <T，U>）→array <U>
[ SPARK-23909 ] - 高阶函数：filter（array <T>，function <T，boolean>）→array <T>
[ SPARK-23911 ] - 高阶函数：aggregate（array <T>，initialState S，inputFunction <S，T，S>，outputFunction <S，R>）→R
[ SPARK-23912 ] - 高阶函数：array_distinct（x）→数组
[ SPARK-23913 ] - 高阶函数：array_intersect（x，y）→数组
[ SPARK-23914 ] - 高阶函数：array_union（x，y）→数组
[ SPARK-23915 ] - 高阶函数：array_except（x，y）→数组
[ SPARK-23916 ] - 高阶函数：array_join（x，delimiter，null_replacement）→varchar
[ SPARK-23917 ] - 高阶函数：array_max（x）→x
[ SPARK-23918 ] - 高阶函数：array_min（x）→x
[ SPARK-23919 ] - 高阶函数：array_position（x，element）→bigint
[ SPARK-23920 ] - 高阶函数：array_remove（x，element）→数组
[ SPARK-23921 ] - 高阶函数：array_sort（x）→数组
[ SPARK-23922 ] - 高阶函数：arrays_overlap（x，y）→布尔值
[ SPARK-23923 ] - 高阶函数：基数（x）→bigint
[ SPARK-23924 ] - 高阶函数：element_at
[ SPARK-23925 ] - 高阶函数：重复（元素，计数）→数组
[ SPARK-23926 ] - 高阶函数：反向（x）→数组
[ SPARK-23927 ] - 高阶函数：序列
[ SPARK-23928 ] - 高阶函数：shuffle（x）→数组
[ SPARK-23930 ] - 高阶函数：切片（x，开始，长度）→数组
[ SPARK-23931 ] - 高阶函数：array_zip（array1，array2 [，...]）→数组<row>
[ SPARK-23932 ] - 高阶函数：zip_with（数组<T>，数组<U>，函数<T，U，R>）→数组<R>
[ SPARK-23933 ] - 高阶函数：map（数组<K>，数组<V>）→map <K，V>
[ SPARK-23934 ] - 高阶函数：map_from_entries（array <row <K，V >>）→map <K，V>
[ SPARK-23936 ] - 高阶函数：map_concat（map1 <K，V>，map2 <K，V>，...，mapN <K，V>）→map <K，V>
[ SPARK-23942 ] - PySpark的collect不会触发QueryExecutionListener
[ SPARK-23990 ] - 仪器记录改进 - ML回归包
[ SPARK-24026 ] - 用于PIC的spark.ml Scala / Java API
[ SPARK-24038 ] - 重构连续写exec到自己的类
[ SPARK-24039 ] - 删除重启迭代器hack
[ SPARK-24040 ] - 支持单分区聚合
[ SPARK-24054 ] - 添加array_position函数/ element_at函数
[ SPARK-24069 ] - 添加array_max / array_min函数
[ SPARK-24070 ] - 用于Parquet 1.10.0升级的TPC-DS性能测试
[ SPARK-24071 ] - 木地板过滤器下推的微观基准
[ SPARK-24073 ] - DataSourceV2：将DataReaderFactory重命名为InputPartition。
[ SPARK-24115 ] - 改进spark.ml.tuning的仪器
[ SPARK-24119 ] - 将解释执行添加到SortPrefix表达式
[ SPARK-24132 ] - 用于分类的仪表改进
[ SPARK-24146 ] - 用于顺序模式挖掘的spark.ml奇偶校验 - PrefixSpan：Python API
[ SPARK-24155 ] - 用于聚类的仪表改进
[ SPARK-24157 ] - 为流聚合和重复数据删除启用无数据微批
[ SPARK-24158 ] - 为流连接启用无数据微批量
[ SPARK-24159 ] - 为流式传输mapGroupswithState启用无数据微批量
[ SPARK-24185 ] - 增加拼合功能
[ SPARK-24186 ] - 添加array_reverse和concat
[ SPARK-24187 ] - 添加array_join
[ SPARK-24197 ] - 添加array_sort函数
[ SPARK-24198 ] - 添加切片功能
[ SPARK-24234 ] - 使用行缓冲区创建任务底部RDD
[ SPARK-24235 ] - 创建任务顶级RDD，将行发送到远程缓冲区
[ SPARK-24251 ] - DataSourceV2：添加AppendData逻辑运算
[ SPARK-24290 ] - 检测改进：使用数组类型添加logNamedValue
[ SPARK-24296 ] - 支持复制大于2 GB的块
[ SPARK-24297 ] - 将spark.maxRemoteBlockSizeFetchToMem的默认值更改为<2GB
[ SPARK-24307 ] - 支持从内存发送超过2GB的消息
[ SPARK-24310 ] - 频繁模式挖掘的仪器
[ SPARK-24324 ] - Pandas Grouped Map UserDefinedFunction混合列标签
[ SPARK-24325 ] - 测试Hadoop的LinesReader
[ SPARK-24331 ] - 添加arrays_overlap / array_repeat / map_entries
[ SPARK-24334 ] - ArrowPythonRunner中的竞争条件导致Arrow内存分配器的不正常关闭
[ SPARK-24386 ] - 实施连续加工合并（1）
[ SPARK-24418 ] - 升级到Scala 2.11.12
[ SPARK-24419 ] - 使用Scala 2.10.7将SBT升级到0.13.17
[ SPARK-24420 ] - 将ASM升级到6.x以支持JDK9 +
[ SPARK-24439 ] - 将距离测量添加到PySpark中的BisectingKMeans
[ SPARK-24478 ] - DataSourceV2应在物理计划转换时推送过滤器和投影
[ SPARK-24537 ] - 添加array_remove / array_zip / map_from_arrays / array_distinct
[ SPARK-24549 ] - 支持DecimalType下推到镶木地板数据源
[ SPARK-24624 ] - 无法混合矢量化和非矢量化UDF
[ SPARK-24638 ] - StringStartsWith支持下推
[ SPARK-24706 ] - 支持ByteType和ShortType下推到镶木地板
[ SPARK-24716 ] - 重构ParquetFilters
[ SPARK-24718 ] - 时间戳支持下推到镶木地板数据源
[ SPARK-24771 ] - 将AVRO版本从1.7.7升级到1.8.2
[ SPARK-24772 ] - 支持读取AVRO逻辑类型 - 日期
[ SPARK-24773 ] - 支持读取AVRO逻辑类型 - 具有不同精度的时间戳
[ SPARK-24774 ] - 支持读取AVRO逻辑类型 - 十进制
[ SPARK-24776 ] - AVRO单元测试：使用SQLTestUtils和Replace弃用方法
[ SPARK-24777 ] - 为AVRO添加写入基准
[ SPARK-24800 ] - 重构Avro串行器和解串器
[ SPARK-24805 ] - 默认情况下，不要忽略没有.avro扩展名的文件
[ SPARK-24810 ] - 修复AvroSuite中资源文件的路径
[ SPARK- 24811] - 添加函数`from_avro`和`to_avro`
[ SPARK-24836 ] - 新选项 - ignoreExtension
[ SPARK-24854 ] - 将所有选项收集到AvroOptions中
[ SPARK-24876 ] - 简化架构序列化
[ SPARK-24881 ] - 新选项 - 压缩和压缩级别
[ SPARK-24883 ] - 删除隐式类AvroDataFrameWriter / AvroDataFrameReader
[ SPARK-24887 ] - 在Spark util中使用SerializableConfiguration
[ SPARK-24924 ] - 为内置Avro数据源添加映射
[ SPARK-24967 ] - 使用internal.Logging代替记录
[ SPARK-24971 ] - 删除SupportsDeprecatedScanRow
[ SPARK-24976 ] - 允许十进制类型转换无（特定于PyArrow 0.9.0）
[ SPARK-24990 ] - 合并ReadSupport和ReadSupportWithSchema
[ SPARK-24991 ] - 在DataSourceWriter中使用InternalRow
[ SPARK-25002 ] - Avro：修改输出记录名称空间
[ SPARK-25007 ] - 将array_intersect / array_except / array_union / array_shuffle添加到SparkR
[ SPARK-25029 ] - Scala 2.12问题：TaskNotSerializable和Janino“两个非抽象方法......”错误
[ SPARK-25044 ] - 在Scala 2.12中将LMF闭包原语args的地址转换为Object
[ SPARK-25047 ] - 在BucketedRandomProjectionLSHModel的反序列化中无法将SerializedLambda分配给scala.Function1
[ SPARK-25068 ] - 高阶函数：存在（数组<T>，函数<T，布尔值>）→布尔值
[ SPARK-25099 ] - 在测试套件中生成Avro二进制文件
[ SPARK-25104 ] - 验证用户指定的输出模式
[ SPARK-25127 ] - DataSourceV2：删除SupportsPushDownCatalystFilters
[ SPARK-25133 ] - Documentaion：AVRO数据源指南
[ SPARK-25160 ] - 删除sql配置spark.sql.avro.outputTimestampType
[ SPARK-25179 ] - 记录需要Pyarrow 0.10的功能
[ SPARK-25207 ] - 读取Parquet时滤波器下推的不区分大小写字段分辨率
[ SPARK-25256 ] - 计划2.12中Hive测试中的不匹配错误
[ SPARK-25298 ] - Scala 2.12的spark-tools构建失败
[ SPARK-25304 ] - 为Scala 2.12启用HiveSparkSubmitSuite SPARK-8489测试
[ SPARK-25320 ] - ML，图2.4 QA：API：二进制不兼容的更改
[ SPARK-25321 ] - ML，图2.4 QA：API：新的Scala API，docs
[ SPARK-25324 ] - ML 2.4 QA：API：Java兼容性，文档
[ SPARK-25328 ] - 添加一个示例，将两列作为组聚合pandas UDF中的分组键
[ SPARK-25337 ] - HiveExternalCatalogVersionsSuite + Scala 2.12 = NoSuchMethodError：org.apache.spark.sql.execution.datasources.FileFormat。$ init $（Lorg / apache / spark / sql / execution / datasources / FileFormat;）
[ SPARK-25460 ] - DataSourceV2：结构化流媒体不尊重SessionConfigSupport
[ SPARK-25601 ] - 为SQL语句注册Grouped聚合UDF向量化UDF
[ SPARK-25690 ] - 分析器规则“HandleNullInputsForUDF”不稳定，可以无限应用
[ SPARK-25718 ] - 检测Avro架构中的递归引用并抛出异常
[ SPARK-25842 ] - 弃用SPARK-21608中引入的API

Bug

[ SPARK-6951 ] - 如果事件日志目录很大，则历史服务器启动缓慢
[ SPARK-10878 ] - 通过Ivy解决Maven坐标时的竞争条件
[ SPARK-15125 ] - CSV数据源将输入中的空引用字符串识别为空。
[ SPARK-15750 ] - 在pyspark中未指定numPartitions时，构造FPGrowth失败
[ SPARK-16451 ] - 当“SaslException：GSS启动失败”被击中时，Spark-shell / pyspark应该正常完成
[ SPARK-17088 ] - 当sharesHadoopClasses为false时，IsolatedClientLoader无法加载Hive客户端
[ SPARK-17147 ] - Spark Streaming Kafka 0.10 Consumer无法处理非连续偏移（即Log Compaction）
[ SPARK-17166 ] - 转换为数据源表后，CTAS丢失了表属性。
[ SPARK-17756 ] - 使用带有DStream.transform的笛卡儿时的java.lang.ClassCastException
[ SPARK-17916 ] - 无论nullValue选项是什么，CSV数据源都将空字符串视为空
[ SPARK-18371 ] - Spark Streaming backpressure bug - 生成一个包含大量记录的批处理
[ SPARK-18630 ] - PySpark ML内存泄漏
[ SPARK-19181 ] - 当average executorDeserializeTime太短时，SparkListenerSuite.local指标失败。
[ SPARK-19185 ] - 窗口化时与CachedKafkaConsumers的ConcurrentModificationExceptions
[ SPARK-19613 ] - 片状测试：StateStoreRDDSuite
[ SPARK-20947 ] - PySpark管道实现中的编码/解码问题
[ SPARK-21168 ] - KafkaRDD应该始终设置kafka clientId。
[ SPARK-21402 ] - 修复结构反序列化的java数组
[ SPARK-21479 ] - 当条件位于其中一个连接列上时，外部连接过滤器下推空值提供表
[ SPARK-21525 ] - ReceiverSupervisorImpl在写入WAL时似乎忽略了错误代码
[ SPARK-21673 ] - 未正确设置Spark本地目录
[ SPARK-21685 ] - 在pyspark中由_setDefault触发的scala变换器中的Params设置
[ SPARK-21743 ] - 最高限制不应导致内存泄漏
[ SPARK-21811 ] - 查找DateType，StringType和NumericType组合的最广泛常见类型时的不一致
[ SPARK-21896 ] - 当窗口函数嵌套在聚合函数内时，Stack Overflow
[ SPARK-21945 ] - pyspark --py-files在纱线客户端模式下不起作用
[ SPARK-22151 ] - 未正确从spark.yarn.appMasterEnv中拾取PYTHONPATH
[ SPARK-22279 ] - 默认打开spark.sql.hive.convertMetastoreOrc
[ SPARK-22297 ] - Flaky测试：BlockManagerSuite“Shuffle registration timeout和maxAttempts conf”
[ SPARK-22357 ] - SparkContext.binaryFiles忽略minPartitions参数
[ SPARK-22371 ] - dag-scheduler-event-loop线程因错误而停止尝试访问垃圾回收累加器5605982
[ SPARK-22384 ] - 在Cast中包含属性时优化分区修剪
[ SPARK-22430 ] - 使用Roxygen 6.0.1构建R docs时出现未知标记警告
[ SPARK-22577 ] - 执行程序页面黑名单状态应使用TaskSet级别黑名单进行更新
[ SPARK-22676 ] - 当spark.sql.hive.verifyPartitionPath = true时，避免迭代所有分区路径
[ SPARK-22713 ] - 由TaskMemoryManager中的内存争用和内存泄漏引起的OOM
[ SPARK-22809 ] - pyspark对带点的进口很敏感
[ SPARK-22949 ] - 降低TrainValidationSplit的内存要求
[ SPARK-22968 ] - java.lang.IllegalStateException：没有分区kssh-2的当前分配
[ SPARK-22974 ] - CountVectorModel不会将属性附加到输出列
[ SPARK-23004 ] - 结构化流引发“llegalStateException：在已经提交或中止后无法删除”
[ SPARK-23007 ] - 为基于文件的数据源添加模式演化测试套件
[ SPARK-23020 ] - 重新启用Flaky Test：org.apache.spark.launcher.SparkLauncherSuite.testInProcessLauncher
[ SPARK-23028 ] - 将主分支版本转换为2.4.0-SNAPSHOT
[ SPARK-23038 ] - 更新docker / spark-test（JDK / OS）
[ SPARK-23042 ] - 使用OneHotEncoderModel对MultilayerPerceptronClassifier中的标签进行编码
[ SPARK-23044 ] - 合并脚本在将jiras分配给非贡献者时有错误
[ SPARK-23059 ] - 使用与视图相关的方法用法纠正一些不当行为
[ SPARK-23088 ] - 历史记录服务器未显示不完整/正在运行的应用程序
[ SPARK-23094 ] - 当存在错误记录并且失败时，Json读者选择错误的编码
[ SPARK-23152 ] - org.apache.spark.ml.classification.Classifier中的保护条件无效
[ SPARK- 23173] - from_json可以为标记为不可为空的字段生成空值
[ SPARK-23189 ] - 反映执行者选项卡上的阶段级别黑名单
[ SPARK-23200 ] - 从检查点重新启动时重置配置
[ SPARK- 23240] - 当pyspark.daemon产生伪造的stdout时，PythonWorkerFactory发出无用的消息
[ SPARK-23243 ] - 在RDD上随机播放+重新分区可能导致错误答案
[ SPARK-23271 ] - 空白DataFrame保存后，Parquet输出仅包含“_SUCCESS”文件
[ SPARK-23288 ] - 结构化流式传输中写入记录的数量不正确
[ SPARK-23291 ] - SparkR：substr：在SparkR数据帧中，当位置大于1时，“substr”中的起始和结束位置参数给出错误的结果
[ SPARK-23306 ] - TaskMemoryManager中的竞争条件
[ SPARK-23340 ] - 将Apache ORC升级到1.4.3
[ SPARK-23355 ] - convertMetastore不应忽略表属性
[ SPARK-23361 ] - 如果在应用提交后7天内发生驱动程序重启失败
[ SPARK-23365 ] - 在落后任务中失败的DynamicAllocation可能导致挂起的火花作业
[ SPARK-23377 ] - Bucketizer具有多列持久性错误
[ SPARK-23394 ] - 存储信息的缓存分区不考虑复制（但sc.getRDDStorageInfo确实如此）
[ SPARK-23405 ] - 当一张小桌子半连接一张大桌子时，任务将挂断
[ SPARK-23406 ] - 流媒体自连接不起作用
[ SPARK-23408 ] - 片状测试：StreamingOuterJoinSuite.left外部早期状态排除在右侧
[ SPARK-23415 ] - BufferHolderSparkSubmitSuite是片状的
[ SPARK-23416 ] - Flaky测试：KafkaSourceStressForDontFailOnDataLossSuite.stress测试failOnDataLoss = false
[ SPARK-23417 ] - pyspark测试给出错误的sbt指令
[ SPARK-23425 ] - 使用通配符使用的hdfs文件路径的加载数据无法正常工作
[ SPARK-23433 ] - java.lang.IllegalStateException：阶段的多个活动taskSet
[ SPARK-23434 ] - Spark不应警告“元数据目录”以获取HDFS文件路径
[ SPARK-23436 ] - 不正确的日期列分区发现中的推断
[ SPARK-23438 ] - 当驱动程序崩溃时，DStreams可能会在启用WAL时丢失块
[ SPARK-23449 ] - 在Docker上下文中，额外的java选项会丢失顺序
[ SPARK-23457 ] - 首先为ParquetFileFormat注册任务完成侦听器
[ SPARK-23459 ] - 在分区列中指定未知列时改进错误消息
[ SPARK-23461 ] - 小插曲应包括某些ML模型的模型预测
[ SPARK-23462 ] - 改进`StructType`中的错误消息
[ SPARK-23476 ] - Spark无法在本地模式下启动并启用身份验证
[ SPARK-23486 ] - LookupFunctions不应多次检查相同的函数名称
[ SPARK-23489 ] - 片状测试：HiveExternalCatalogVersionsSuite
[ SPARK-23490 ] - 使用CreateTable中的现有表检查storage.locationUri
[ SPARK-23496 ] - 合并分区的位置可能会因输入分区的顺序而严重偏斜
[ SPARK- 23508] - BlockManagerId中的blockManagerIdCache可能会导致oom
[ SPARK-23514 ] - 用spark.sessionState.newHadoopConf（）替换spark.sparkContext.hadoopConfiguration
[ SPARK-23522 ] - pyspark应该始终使用sys.exit而不是退出
[ SPARK-23523 ] - 规则OptimizeMetadataOnlyQuery导致的结果不正确
[ SPARK-23524 ] - 不应检查大型本地随机块是否存在损坏。
[ SPARK-23525 ] - ALTER TABLE CHANGE COLUMN不适用于外部蜂巢表
[ SPARK-23547 ] - 在Hive会话关闭时清除.pipeout文件
[ SPARK-23549 ] - 将timestamp与日期进行比较时，Spark SQL意外行为
[ SPARK-23551 ] - 从`orc-mapreduce中排除`hadoop-mapreduce-client-core`依赖项
[ SPARK-23569 ] - pandas_udf不适用于带类型注释的python函数
[ SPARK-23570 ] - 在HiveExternalCatalogVersionsSuite中添加Spark-2.3
[ SPARK-23574 ] - 数据源V2扫描中的SinglePartition
[ SPARK- 23598] - WholeStageCodegen可能导致IllegalAccessError调用追加HashAggregateExec
[ SPARK-23599 ] - UUID（）表达式过于不确定
[ SPARK- 23602] - PrintToStderr在解释模式下的行为应相同
[ SPARK-23608 ] - SHS需要attachSparkUI和detachSparkUI函数之间的同步
[ SPARK-23614 ] - 使用缓存时，Union会产生不正确的结果
[ SPARK-23618 ] - 建立图像时，docker-image-tool.sh失败
[ SPARK-23620 ] - 使用br标签拆分线程转储线
[ SPARK-23623 ] - 避免在CachedKafkaConsumer中同时使用缓存的KafkaConsumer（kafka-0-10-sql）
[ SPARK-23630 ] - Spark-on-YARN缺少hadoop配置的用户自定义
[ SPARK-23635 ] - Spark执行器env变量被同名AM env变量覆盖
[ SPARK-23637 ] - 如果同一个执行者被多次杀死，纱线可能会分配更多资源。
[ SPARK-23639 ] - 使用代理用户时，SparkSQL CLI无法与Kerberized Metastore通信
[ SPARK-23640 ] - Hadoop配置可能会覆盖spark配置
[ SPARK-23649 ] - 某些UTF-8字符上的CSV架构推断失败
[ SPARK-23658 ] - InProcessAppHandle在getLogger中使用了错误的类
[ SPARK-23660 ] - 当应用程序很小时，Yarn在群集模式下抛出异常
[ SPARK-23666 ] - 带有UDF的不确定列名
[ SPARK-23670 ] - sparkUI中SparkPlanGraphWrapper的内存泄漏
[ SPARK-23671 ] - SHS忽略了重播线程的数量
[ SPARK-23679 ] - 在YARN上运行时，uiWebUrl显示不正确的URL
[ SPARK-23680 ] - entrypoint.sh不接受任意UID，作为错误返回
[ SPARK-23697 ] - Spark 1.x的累加器不再适用于Spark 2.x.
[ SPARK-23698 ] - Spark代码在Python 3中包含许多未定义的名称
[ SPARK-23729 ] - 全局解析会破坏文件/档案的远程命名
[ SPARK-23731 ] - FileSourceScanExec在子表达式消除中抛出NullPointerException
[ SPARK-23732 ] - Spark Scala api Scaladoc中scala源代码的断开链接
[ SPARK-23743 ] - IsolatedClientLoader.isSharedClass对`slf4j`关键字返回一个未缩进的结果
[ SPARK-23754 ] - Python UDF中的StopIterator异常导致部分结果
[ SPARK-23759 ] - 无法将Spark UI绑定到特定主机名/ IP
[ SPARK-23760 ] - CodegenContext.withSubExprEliminationExprs应正确保存/恢复CSE状态
[ SPARK-23775 ] - Flaky测试：DataFrameRangeSuite
[ SPARK-23778 ] - SparkContext.emptyRDD混淆了SparkContext.union
[ SPARK-23780 ] - 无法将googleVis库与新SparkR一起使用
[ SPARK-23785 ] - LauncherBackend在设置状态之前不检查连接状态
[ SPARK-23786 ] - CSV架构验证 - 不检查列名称
[ SPARK-23787 ] - SparkSubmitSuite ::“如果纱线不支持则下载远程资源”在Hadoop 2.9上失败
[ SPARK-23788 ] - StreamingQuerySuite中的竞争条件
[ SPARK-23794 ] - UUID（）应该是有状态的
[ SPARK-23799 ] - [CBO] FilterEstimation.evaluateInSet在空表的情况下产生零除数，并带有分析的统计数据
[ SPARK-23802 ] - PropagateEmptyRelation可以使查询计划处于未解决状态
[ SPARK-23806 ] - 广播。与动态分配一起使用时，unpersist可能会导致致命异常
[ SPARK-23808 ] - 测试火花会话应设置默认会话
[ SPARK-23809 ] - 应该通过getOrCreate设置Active SparkSession
[ SPARK-23815 ] - Spark编写器动态分区覆盖模式无法在多级分区上写入输出
[ SPARK-23816 ] - 杀死推测任务时的FetchFailedException
[ SPARK-23823 ] - ResolveReferences失去了正确的来源
[ SPARK-23825 ] - [K8s] Spark pod应该请求内存+ memoryOverhead作为资源
[ SPARK-23827 ] - StreamingJoinExec应确保输入数据被分区为特定数量的分区
[ SPARK-23834 ] - Flaky测试：LauncherServerSuite.testAppHandleDisconnect
[ SPARK-23835 ] - 当Dataset.as将列从可空类型转换为非可空类型时，null双打将以静默方式转换为-1
[ SPARK-23850 ] - 默认情况下，我们不应该从UI编辑用户名|用户| url
[ SPARK-23852 ] - Parquet MR错误可导致错误的SQL结果
[ SPARK-23853 ] - 跳过需要在PySpark中构建的hive支持的doctests
[ SPARK-23857 ] - 在mesos集群模式下，spark submit要求keytab在本地文件系统上可用。
[ SPARK-23868 ] - 修复literals.sql.out中的scala.MatchError
[ SPARK-23882 ] - 是否支持UTF8StringSuite.writeToOutputStreamUnderflow（）？
[ SPARK-23888 ] - 推测任务不应该在已经运行另一次尝试的给定主机上运行
[ SPARK-23893 ] - long = int * int可能溢出
[ SPARK-23941 ] - 特定火花应用名称上的Mesos任务失败
[ SPARK-23951 ] - 使用ExprValue中的java分类并简化一堆内容
[ SPARK-23971 ] - 不应在测试套件中泄漏Spark会话
[ SPARK-23975 ] - 允许群集将双数组作为输入要素
[ SPARK-23976 ] - UTF8String.concat（）或ByteArray.concat（）可能会分配更短的结构。
[ SPARK-23986 ] - 加入后使用过多avg聚合时出现CompileException
[ SPARK-23989 ] - 使用`SortShuffleWriter`时，数据将被覆盖
[ SPARK-23991 ] - allocateBlocksToBatch时数据丢失
[ SPARK-23997 ] - 可配置的最大桶数
[ SPARK-24002 ] - 由org.apache.parquet.io.api.Binary $ ByteBufferBackedBinary.getBytes引起的任务不可序列化
[ SPARK-24007 ] - FloatType和DoubleType的EqualNullSafe可能会由codegen生成错误的结果。
[ SPARK-24012 ] - 联盟地图和其他兼容专栏
[ SPARK-24013 ] - ApproximatePercentile在排序输入上停止研磨。
[ SPARK-24021 ] - 修复BlacklistTracker的updateBlacklistForFetchFailure中的错误
[ SPARK-24022 ] - Flaky测试：SparkContextSuite
[ SPARK-24033 ] - 在Spark 2.3中破坏了LAG窗口功能
[ SPARK-24043 ] - 如果表达式树包含非确定性表达式，则InterpretedPredicate.eval失败
[ SPARK-24050 ] - StreamingQuery在某些情况下不计算输入/处理速率
[ SPARK-24056 ] - 在结构化流媒体的Kafka源中使消费者创建变得懒惰
[ SPARK-24061 ] - 连续处理不支持[SS] TypedFilter
[ SPARK-24062 ] - 无法在ThriftServer中使用SASL加密
[ SPARK-24068 ] - CSV架构推断不适用于压缩文件
[ SPARK-24076 ] - 当shuffle.partition = 8192时性能非常糟糕
[ SPARK-24085 ] - 标量子查询错误
[ SPARK-24104 ] - SQLAppStatusListener会覆盖onDriverAccumUpdates上的指标而不是更新它们
[ SPARK-24107 ] - ChunkedByteBuffer.writeFully方法未重置限制值
[ SPARK-24108 ] - ChunkedByteBuffer.writeFully方法未重置限制值
[ SPARK-24110 ] - 避免在ThriftServer中调用UGI loginUserFromKeytab
[ SPARK-24123 ] - 修复一个片状测试`DateTimeUtilsSuite.monthsBetween`
[ SPARK-24133 ] - 读取包含大字符串的Parquet文件可能会因java.lang.ArrayIndexOutOfBoundsException而失败
[ SPARK-24137 ] - [K8s]在emptydir卷中挂载临时目录
[ SPARK-24141 ] - 修复CoarseGrainedSchedulerBackend.killExecutors中的错误
[ SPARK-24143 ] - 将mapstatus转换为（blockId，size）对时过滤空块
[ SPARK-24151 ] - CURRENT_DATE，CURRENT_TIMESTAMP在启用caseSensitive时错误地解析为列名
[ SPARK-24165 ] - when（）中的UDF。否则（）引发NullPointerException
[ SPARK-24166 ] - InMemoryTableScanExec不应在执行者端访问SQLConf
[ SPARK-24167 ] - ParquetFilters不应在执行方访问SQLConf
[ SPARK-24168 ] - WindowExec不应在执行方访问SQLConf
[ SPARK-24169 ] - JsonToStructs不应在执行者端访问SQLConf
[ SPARK-24190 ] - JSON写入中不需要lineSep
[ SPARK-24195 ] - sc.addFile for local：/ path已损坏
[ SPARK-24214 ] - StreamingRelationV2 / StreamingExecutionRelation / ContinuousExecutionRelation.toJSON不应该失败
[ SPARK-24216 ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
[ SPARK-24228 ] - 修复棉绒错误
[ SPARK-24230 ] - Parquet 1.10升级在矢量化阅读器中出错
[ SPARK-24241 ] - 使用0执行程序启用动态资源分配时，请勿快速失败
[ SPARK-24255 ] - 在SparkR描述中需要Java 8
[ SPARK-24257 ] - LongToUnsafeRowMap计算新的大小可能是错误的
[ SPARK-24259 ] - Arrow的ArrayWriter产生错误的输出
[ SPARK-24263 ] - 关于openjdk的SparkR java check break
[ SPARK-24276 ] - semanticHash（）在语义上返回相同的IS IN的不同值
[ SPARK- 24294] - 在BroadcastExchangeExec中的OOM时抛出SparkException
[ SPARK-24300 ] - ml.cluster.LDASuite中的generateLDAData没有正确设置种子
[ SPARK-24309 ] - AsyncEventQueue应该处理来自监听器的中断
[ SPARK-24313 ] - 集合函数解释执行不适用于复杂类型
[ SPARK-24319 ] - 运行示例无法打印使用情况
[ SPARK-24322 ] - 将Apache ORC升级到1.4.4
[ SPARK-24341 ] - 来自谓词子查询的Codegen编译错误
[ SPARK-24348 ] - “element_at”表达式中的scala.MatchError
[ SPARK-24350 ] - “array_position”函数中的ClassCastException
[ SPARK-24351 ] - offsetLog / commitLog purge thresholdBatchId应使用当前提交的纪元计算，但不能用CP模式中的currentBatchId计算
[ SPARK-24364 ] - globbing后删除文件可能会使StructuredStreaming作业失败
[ SPARK-24368 ] - 片状测试：org.apache.spark.sql.execution.datasources.csv.UnivocityParserSuite
[ SPARK-24369 ] - 具有多个不同聚合时的错误
[ SPARK-24373 ] - “重新分析计划后，当分析的计划不同时，”df.cache（）df.count（）“不再急切地缓存数据
[ SPARK-24377 ] - 使--py-files在非pyspark应用程序中工作
[ SPARK-24380 ] - 在mesos群集调度程序中引用/转义参数
[ SPARK-24384 ] - 带有.py文件的spark-submit --py文件在上下文初始化之前无法在客户端模式下工作
[ SPARK-24385 ] - Tridially -true EqualNullSafe应该像Dataset.join中的EqualTo一样处理
[ SPARK-24391 ] - from_json应该支持基元数组，更常见的是所有JSON
[ SPARK-24414 ] - 阶段页面未显示失败时的所有任务尝试
[ SPARK-24415 ] - 故障时阶段页面聚合执行程序指标错误
[ SPARK-24416 ] - 更新spark.blacklist.killBlacklistedExecutors的配置定义
[ SPARK-24446 ] - 带有特殊字符的库路径会在YARN上打破Spark
[ SPARK-24452 ] - long = int * int或long = int + int可能导致溢出。
[ SPARK-24453 ] - 修复从无数据批处理中的故障中恢复的错误
[ SPARK-24466 ] - TextSocketMicroBatchReader不再适用于nc实用程序
[ SPARK-24468 ] - 当比例为负时，DecimalType“adjustPrecisionScale”可能会失败
[ SPARK-24488 ] - 当发电机多次混叠时，分析器抛出
[ SPARK-24495 ] - SortMergeJoin，重复键错误结果
[ SPARK-24500 ] - 尝试使用Stream of Children执行Union计划时出现UnsupportedOperationException
[ SPARK-24506 ] - Spark.ui.filters未应用于/ sqlserver / url
[ SPARK-24520 ] - 链接中的双括号
[ SPARK-24526 ] - 构建目录中的空格导致构建/ mvn脚本失败
[ SPARK-24530 ] - Sphinx无法正确呈现autodoc_docstring_signature（使用Python 2？）而pyspark.ml文档已被破坏
[ SPARK-24531 ] - 由于缺少2.2.0版本，HiveExternalCatalogVersionsSuite失败
[ SPARK-24535 ] - 修复Windows上SparkR中的java版本解析
[ SPARK-24536 ] - 使用无意义的LIMIT查询命中AssertionError
[ SPARK-24548 ] - SPARK中的JavaPairRDD到数据集<Row>会产生不明确的结果
[ SPARK-24552 ] - 重试阶段时重复使用任务尝试次数
[ SPARK-24553 ] - 作业UI重定向导致http 302错误
[ SPARK-24556 ] - 当子分区为RangePartitioning时，ReusedExchange也应该重写输出分区
[ SPARK-24563 ] - 允许在没有Hive的情况下运行PySpark shell
[ SPARK-24569 ] - 具有输出类型Option [Boolean]的Spark Aggregator创建Row类型的列
[ SPARK-24573 ] - 影响构建的SBT Java checkstyle
[ SPARK-24578 ] - 读取远程缓存块行为更改并导致超时问题
[ SPARK-24583 ] - InsertIntoDataSourceCommand中的架构类型错误
[ SPARK-24588 ] - StreamingSymmetricHashJoinExec应该要求儿童使用HashClusteredPartitioning
[ SPARK-24589 ] - OutputCommitCoordinator可能允许重复提交
[ SPARK-24594 ] - 介绍YARN执行程序分配问题的指标
[ SPARK-24598 ] - SPARK SQL：数据类型溢出条件给出了错误的结果
[ SPARK-24603 ] - Typo评论
[ SPARK-24610 ] - 针对小文件打破的wholeTextFiles
[ SPARK-24613 ] - 使用UDF的缓存无法与后续的依赖缓存匹配
[ SPARK-24633 ] - arrays_zip函数的代码生成器错误地分割输入处理
[ SPARK-24645 ] - 启用csvColumnPruning并仅扫描分区时跳过解析
[ SPARK-24648 ] - SQLMetrics计数器不是线程安全的
[ SPARK-24653 ] - 片状测试“JoinSuite.test SortMergeJoin（带溢出）”
[ SPARK-24659 ] - GenericArrayData.equals应该尊重元素类型的差异
[ SPARK-24660 ] - 下载日志时SHS未显示错误
[ SPARK-24676 ] - 禁用csvColumnPruning时，解析数据中的项目所需数据
[ SPARK-24677 ] - TaskSetManager不会为旧阶段尝试更新successfulTaskDurations
[ SPARK-24681 ] - 当嵌套列名包含'：'时，无法从表创建视图
[ SPARK-24694 ] - 集成测试只传递一个app参数
[ SPARK-24698 ] - 在Pyspark的ML中，Identifiable的UID有20个随机字符，而不是文档中提到的12个。
[ SPARK-24699 ] - 水印/追加模式应与Trigger.Once配合使用
[ SPARK-24704 ] - DAG图表中的阶段顺序不正确
[ SPARK-24705 ] - 启用Spark.sql.adaptive.enabled = true并启用自联接查询
[ SPARK-24711 ] - 集成测试不适用于exclude / include标记
[ SPARK-24713 ] - 如果消耗了数百个主题，那么火花流kafka OOM的AppMatser
[ SPARK-24715 ] - sbt build带来了错误的jline版本
[ SPARK-24717 ] - 在HDFSBackedStateStoreProvider中拆分min保留内存状态的内存
[ SPARK-24721 ] - 无法在带有数据源的过滤器中使用带有文字输入的PythonUDF
[ SPARK-24734 ] - 修复了包含阵列类型的ConcatNull。
[ SPARK-24739 ] - PySpark不适用于Python 3.7.0
[ SPARK-24742 ] - 字段元数据在hashCode方法中引发NullPointerException
[ SPARK-24743 ] - 更新JavaDirectKafkaWordCount示例以支持Kafka的新API
[ SPARK-24749 ] - 无法使用named_struct过滤数组<struct>
[ SPARK-24754 ] - Minhash整数溢出
[ SPARK-24755 ] - 执行程序丢失可能导致任务无法重新提交
[ SPARK-24781 ] - 在过滤/排序中使用数据集中的引用可能不起作用。
[ SPARK-24787 ] - 由于事件记录的hsync缓慢，事件以惊人的速度被丢弃
[ SPARK-24788 ] - 在UnresolvedAttribute分组时，RelationalGroupedDataset.toString会抛出错误
[ SPARK-24804 ] - DatasetSuite的标题中有重复的单词
[ SPARK- 24809] - 在执行程序中序列化LongHashedRelation可能会导致数据错误
[ SPARK-24812 ] - 表格描述中的上次访问时间无效
[ SPARK-24813 ] - HiveExternalCatalogVersionsSuite仍然片状; 回归Apache档案
[ SPARK-24829 ] - 在Spark Thrift Server中，CAST AS FLOAT与spark-shell或spark-sql不一致
[ SPARK-24846 ] - 稳定表达能量化
[ SPARK-24850 ] - 查询计划字符串表示在具有递归缓存数据集的查询上呈指数增长
[ SPARK-24870 ] - 如果SQL中有大小写字母，则缓存无法正常工作
[ SPARK-24873 ] - 增加切换以屏蔽与纱线的频繁交互报告
[ SPARK-24878 ] - 修复包含null的基本类型的数组类型的反向函数。
[ SPARK-24879 ] - 用于`partCol IN（NULL，....）的Hive分区过滤器下推中的NPE
[ SPARK-24880 ] - 修复spark-kubernetes-integration-tests的组ID
[ SPARK-24889 ] - dataset.unpersist（）不更新存储内存统计信息
[ SPARK-24891 ] - 修复HandleNullInputsForUDF规则
[ SPARK-24895 ] - Spark 2.4.0由于文件名不匹配，快照工件已破坏元数据
[ SPARK-24896 ] - Uuid表达式应该在流式查询下的每次执行中产生不同的值
[ SPARK-24908 ] - [R]删除空格以使得快乐
[ SPARK-24909 ] - 当获取失败，执行程序丢失，丢失执行程序上的任务运行以及多个阶段尝试时，Spark调度程序可能会挂起
[ SPARK-24911 ] - SHOW CREATE TABLE删除嵌套列名称的转义
[ SPARK-24919 ] - sparkContext.hadoopConfiguration的Scala linter规则
[ SPARK-24927 ] - hadoop提供的配置文件与Snappy压缩的Parquet文件不兼容
[ SPARK-24934 ] - 由于缺少上/下限情况，内存中分区修剪中的复杂类型和二进制类型不起作用
[ SPARK-24937 ] - 数据源分区表应加载空的静态分区
[ SPARK-24948 ] - 由于权限检查，SHS错误地过滤了某些应用程序
[ SPARK-24950 ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失败w / java 8 181-b13
[ SPARK-24957 ] - 使用codegen，十进制算术可能导致错误的值
[ SPARK-24963 ] - 如果集成测试在名称空间中运行而不是默认值，则集成测试将失败
[ SPARK-24966 ] - 修复设置操作的优先规则。
[ SPARK-24972 ] - PivotFirst无法处理复杂类型的枢轴列
[ SPARK-24981 ] - 当用户程序未调用SparkContext stop（）时，ShutdownHook超时导致作业失败
[ SPARK-24987 ] - Kafka缓存的消费者泄漏文件描述符
[ SPARK-24997 ] - 支持MINUS ALL
[ SPARK-25004 ] - 添加spark.executor.pyspark.memory配置以设置resource.RLIMIT_AS
[ SPARK-25005 ] - 结构化流媒体不支持kafka事务（使用中止和标记创建空偏移）
[ SPARK-25009 ] - 独立群集模式应用程序提交无效
[ SPARK-25010 ] - Rand / Randn应为流式查询中的每次执行生成不同的值
[ SPARK-25011 ] - 在fpm.py中将PrefixSpan添加到__all__
[ SPARK-25019 ] - 发布的spark sql pom不排除正常版本的orc-core
[ SPARK-25021 ] - 为Kubernetes添加spark.executor.pyspark.memory支持
[ SPARK-25028 ] - 如果值为null，则AnalyzePartitionCommand因NPE失败
[ SPARK-25031 ] - 无法正确打印MapType架构
[ SPARK-25033 ] - Bump Apache commons。{httpclient，httpcore}
[ SPARK-25036 ] - Scala 2.12问题：与sbt的编译错误
[ SPARK-25041 ] - 在scala-2.12中找不到sbt的genjavadoc-plugin_0.10
[ SPARK-25046 ] - Alter View可以执行“ALTER VIEW ... AS INSERT INTO”之类的sql
[ SPARK-25058 ] - 使用Block.isEmpty / nonEmpty检查代码是否为空。
[ SPARK-25072 ] - PySpark自定义Row类可以给出额外的参数
[ SPARK-25076 ] - 不应从已停止的SparkSession中检索SQLConf
[ SPARK-25081 ] - ShuffleExternalSorter中的嵌套溢出可能会访问已释放的内存页面
[ SPARK-25084 ] - 在多列上“分发”可能会导致代码问题
[ SPARK-25090 ] - 使用CrossValidator时的java.lang.ClassCastException
[ SPARK-25092 ] - 在nonExcludableRules列表中添加RewriteExceptAll，RewriteIntersectAll和RewriteCorrelatedScalarSubquery
[ SPARK-25096 ] - 如果施法可强制作用，则放松可空性。
[ SPARK-25114 ] - 当两个单词之间的减法可被Integer.MAX_VALUE整除时，RecordBinaryComparator可能会返回错误的结果
[ SPARK-25116 ] - 终止Kafka测试时修复“退出代码1”错误
[ SPARK-25124 ] - VectorSizeHint.size是错误的，打破了流媒体管道
[ SPARK-25126 ] - 避免为所有orc文件创建OrcFile.Reader
[ SPARK-25132 ] - 从Parquet读取时不区分大小写的字段分辨率
[ SPARK-25134 ] - 检查标题的Csv列修剪会引发错误的错误
[ SPARK-25137 ] - 从Mac终端启动spark-shell时的NumberFormatException`
[ SPARK-25149 ] - 如果vertexID> MaxInt，则个性化PageRank会引发错误
[ SPARK-25159 ] - json模式推断应该只触发一个作业
[ SPARK-25161 ] - 修复了屏障执行模式故障处理中的几个错误
[ SPARK-25163 ] - 片状测试：oasutil.collection.ExternalAppendOnlyMapSuite.spilling with compression
[ SPARK-25164 ] - Parquet阅读器为每列构建一次完整的列列表
[ SPARK-25167 ] - R sql测试的小修复（在开发环境中失败的测试）
[ SPARK-25174 ] - 当从RM取消注册时，ApplicationMaster会暂停，并具有极大的诊断消息
[ SPARK-25175 ] - 如果ORC原生阅读器存在歧义，则场分辨率应该失败
[ SPARK-25176 ] - Kryo无法序列化参数化类型层次结构
[ SPARK-25181 ] - 块管理器主从线程池无限制
[ SPARK-25183 ] - Spark HiveServer2使用JVM注册shutdown hook，而不是ShutdownHookManager; 竞争条件可能会出现
[ SPARK-25204 ] - 率源测试是不稳定的
[ SPARK-25205 ] - spark.network.crypto.keyFactoryIteration中的拼写错误
[ SPARK-25206 ] - 当Hive Metastore模式和镶木地板模式处于不同的字母情况时，会返回错误的记录
[ SPARK-25214 ] - 当“failOnDataLoss”为“false”时，Kafka v2源可能会返回重复记录
[ SPARK-25218 ] - TransportServer和SocketAuthHelper中潜在的资源泄漏
[ SPARK-25221 ] - [DEPLOY]一致的尾随空格处理conf值
[ SPARK-25231 ] - 运行大型作业并进行猜测导致执行器心跳超时在驱动程序上
[ SPARK-25237 ] - 选择具有限制的数据源表时，FileScanRdd的inputMetrics错误
[ SPARK-25240 ] - ALTER TABLE RECOVER PARTITIONS中的死锁
[ SPARK-25264 ] - 修复传递给PythonRunner和RRunner的逗号描述的参数
[ SPARK-25266 ] - 修复屏障执行模式下的内存泄漏
[ SPARK-25268 ] - runParallelPersonalizedPageRank抛出序列化异常
[ SPARK-25278 ] - 视图并集的输出行度量值乘以它们的出现次数
[ SPARK-25283 ] - 在UnionRDD陷入僵局
[ SPARK-25288 ] - 卡夫卡交易测试很不稳定
[ SPARK-25289 ] - 空集合中的ChiSqSelector max
[ SPARK-25291 ] - 执行程序内存测试的片段性（SecretsTestSuite）
[ SPARK-25295 ] - 如果之前的提交不是干净关闭，则Pod在客户端模式下命名冲突。
[ SPARK-25306 ] - 避免使用倾斜的滤镜树来加速ORC中的“createFilter”
[ SPARK-25307 ] - ArraySort函数可能在代码生成阶段返回错误。
[ SPARK-25308 ] - ArrayContains函数可能会在代码生成阶段返回错误。
[ SPARK-25310 ] - ArraysOverlap可能抛出CompileException
[ SPARK-25313 ] - 修复FileFormatWriter输出模式中的回归
[ SPARK-25314 ] - 无效的PythonUDF - 需要来自多个子节点的属性 - 处于“on”连接条件
[ SPARK- 25317] - MemoryBlock性能回归
[ SPARK-25330 ] - 将hadoop版本升级到2.7.7后的权限问题
[ SPARK-25352 ] - 当限制数量大于topKSortFallbackThreshold时，执行有序全局限制
[ SPARK-25357 ] - 向SparkPlanInfo添加元数据以将更多信息（如文件路径）转储到事件日志
[ SPARK-25363 ] - 如果在where子句中使用嵌套列，则模式修剪不起作用
[ SPARK-25368 ] - 不正确的约束推断返回错误的结果
[ SPARK-25371 ] - 没有输入列的矢量汇编程序导致不透明错误
[ SPARK-25387 ] - 格式错误的CSV会导致NPE
[ SPARK-25389 ] - INSERT OVERWRITE DIRECTORY STORED AS应防止重复字段
[ SPARK-25398 ] - 比较不相关类型的小错误
[ SPARK-25399 ] - 从微连续流的连续处理中重用执行线程可能导致正确性问题
[ SPARK-25402 ] - BooleanSimplification中的空值处理
[ SPARK-25406 ] - Parquet架构修剪测试套件中的withSQLConf方法的错误使用掩盖了测试失败
[ SPARK-25416 ] - 当右表达式被隐式下调时，ArrayPosition函数可能返回不正确的结果。
[ SPARK-25417 ] - 当右表达式被隐式向下转换时，ArrayContains函数可能返回不正确的结果
[ SPARK-25425 ] - 额外选项必须覆盖会话选项
[ SPARK-25427 ] - 添加BloomFilter创建测试用例
[ SPARK-25431 ] - 修复功能示例并统一示例结果的格式。
[ SPARK-25438 ] - 修复FilterPushdownBenchmark以使用相同的内存假设
[ SPARK-25439 ] - TPCHQuerySuite customer.c_nationkey应该是bigint而不是string
[ SPARK-25443 ] - 修复在docker中使用发布脚本构建文档时出现的问题
[ SPARK-25450 ] - PushProjectThroughUnion规则对每个Union子项中的项目表达式使用相同的exprId，导致常量传播中的错误
[ SPARK-25471 ] - 使用Pandas 0.23+修复Python 3.6的测试
[ SPARK-25495 ] - FetchedData.reset不会重置_nextOffsetInFetchedData和_offsetAfterPoll
[ SPARK-25502 ] - 当页码超过reatinedTask大小时，[Spark作业历史]空页面
[ SPARK-25503 ] - [Spark作业历史]阶段页面中的总任务消息不明确
[ SPARK-25505 ] - Pivot中分组列的输出顺序与输入顺序不同
[ SPARK-25509 ] - 在Windows中无法启用SHS V2，因为不支持POSIX权限。
[ SPARK-25519 ] - 当隐式降低右表达式时，ArrayRemove函数可能返回错误的结果。
[ SPARK-25521 ] - 插入命令Job时，作业ID显示为空。
[ SPARK-25522 ] - 改进elementAt函数输入参数的类型提升
[ SPARK-25533 ] - 当作业失败时，JobUI中已完成作业的消息不一致，与spark2.2相比
[ SPARK-25536 ] - executorSource.METRIC读取Executor.scala Line444中的错误记录
[ SPARK-25538 ] - distinct（）后的行数不正确
[ SPARK-25542 ] - 片状测试：OpenHashMapSuite
[ SPARK-25543 ] - 在K8s模式下以DEBUG级别混淆日志消息。
[ SPARK-25546 ] - RDDInfo在初始化之前使用SparkEnv
[ SPARK-25568 ] - 无法更新一个累加器时，继续更新剩余的累加器
[ SPARK-25570 ] - 在HiveExternalCatalogVersionsSuite中将2.3.1替换为2.3.2
[ SPARK-25572 ] - Java 10上的CRAN上的SparkR测试失败
[ SPARK-25578 ] - 更新到Scala 2.12.7
[ SPARK-25579 ] - 如果需要，则在推送的ORC谓词中使用带引号的属性名称
[ SPARK-25591 ] - 具有多个PythonUDF的PySpark累加器
[ SPARK-25602 ] - SparkPlan.getByteArrayRdd在不需要时不应使用输入
[ SPARK-25636 ] - 当连接到主站时出错时，spark-submit会吞下失败原因
[ SPARK-25644 ] - 修复java foreachBatch API
[ SPARK-25646 ] - docker-image-tool.sh不适用于开发人员构建
[ SPARK-25660 ] - 无法使用反斜杠作为CSV字段分隔符
[ SPARK-25669 ] - 仅在存在时检查CSV标头
[ SPARK-25671 ] - 在Jenkins Test中构建外部/ spark-ganglia-lgpl
[ SPARK-25674 ] - 如果记录一次增加1个以上，则字节数可能很少更新
[ SPARK-25677 ] - 在JDBC中配置zstd压缩抛出IllegalArgumentException异常
[ SPARK-25697 ] - 当正在进行zstd压缩时，应用程序在UI中抛出错误
[ SPARK-25704 ] - 由于配置默认配置错误，> 2GB块的复制失败
[ SPARK-25708 ] - 没有GROUP BY的情况意味着全球汇总
[ SPARK-25714 ] - 优化器规则BooleanSimplification中的空处理
[ SPARK-25726 ] - Flaky测试：SaveIntoDataSourceCommandSuite .simpleString被编辑
[ SPARK-25727 ] - 在InMemoryRelation中makeCopy失败
[ SPARK-25738 ] - 如果hdfs conf包含端口，则LOAD DATA INPATH不起作用
[ SPARK-25741 ] - 在Web UI中无法正确呈现长URL
[ SPARK-25768 ] - 期望Hive UDAF的常量参数不起作用
[ SPARK-25793 ] - 在BisectingKMeans中加载模型错误
[ SPARK-25795 ] - 修复CSV SparkR SQL示例
[ SPARK-25797 ] - 通过2.1创建的视图无法通过2.2+读取
[ SPARK-25801 ] - pandas_udf grouped_map失败，输入数据帧超过255列
[ SPARK-25803 ] - docker-image-tool.sh的-n选项会导致忽略其他选项
[ SPARK-25816 ] - 功能无法正确解析列
[ SPARK-25822 ] - 在释放Python工作者时修复竞争条件
[ SPARK-25832 ] - 删除新添加的地图相关功能
[ SPARK-25835 ] - 在k8s集成测试中传播scala 2.12配置文件
[ SPARK-25840 ] - 由于缺少LICENSE-binary，`make-distribution.sh`不会失败
[ SPARK-25854 ] - mvn帮助程序脚本总是退出w / 1，导致mvn构建失败

New Feature(新特性)

[ SPARK-10697 ] - 关联规则挖掘中的提升计算
[ SPARK-14682 ] - 为spark.ml GBT提供evaluateEachIteration方法或等效方法
[ SPARK-15064 ] - StopWordsRemover中的语言环境支持
[ SPARK-15784 ] - 为spark.ml添加Power Iteration Clustering
[ SPARK-19480 ] - SQL中的高阶函数
[ SPARK-21274 ] - 实施除外全部和全部交叉
[ SPARK-22119 ] - 向KMeans添加余弦距离
[ SPARK-22880 ] - 如果数据库支持，则添加级联jdbc截断选项（PostgreSQL和Oracle）
[ SPARK-23010 ] - 将Kubernetes后端的集成测试添加到apache / spark存储库中
[ SPARK-23146 ] - 支持Kubernetes集群后端的客户端模式
[ SPARK-23235 ] - 将执行程序Threaddump添加到api
[ SPARK-23541 ] - 允许Kafka源读取比主题分区数更大的并行度的数据
[ SPARK-23751 ] - 在pyspark.ml中的Kolmogorov-Smirnoff测试Python API
[ SPARK-23846 ] - 用于CSV数据源的模式推断的samplingRatio
[ SPARK-23856 ] - Spark jdbc setQueryTimeout选项
[ SPARK-23948 ] - 在submitMissingTasks中触发mapstage的作业监听器
[ SPARK-23984 ] - K8S的PySpark绑定
[ SPARK-24027 ] - 通过from_json支持MapType（StringType，DataType）作为根类型
[ SPARK-24193 ] - 在TakeOrderedAndProjectExec中，当限制数量很大时按磁盘排序
[ SPARK-24231 ] - Python API：为spark.ml GBT提供evaluateEachIteration方法或等效方法
[ SPARK-24232 ] - 允许将kubernetes的秘密称为env变量
[ SPARK-24288 ] - 启用防止谓词下推
[ SPARK-24371 ] - 在Scala和Java的DataFrame API中添加了isInCollection。
[ SPARK-24372 ] - 创建用于准备RC的脚本
[ SPARK-24396 ] - 为python添加结构化流ForeachWriter
[ SPARK-24397 ] - 在Python中添加TaskContext.getLocalProperties
[ SPARK-24411 ] - 为`isInCollection`添加本机Java测试
[ SPARK-24412 ] - 在`isin`和`isInCollection` API中添加有关自动类型转换的文档
[ SPARK-24433 ] - K8S的R结合
[ SPARK-24435 ] - 支持用户提供的YAML，可以与k8s pod描述合并
[ SPARK- 24465] - LSHModel应该支持结构化流转换
[ SPARK-24479 ] - 在Spark Conf中注册StreamingQueryListener
[ SPARK-24499 ] - 将sql-programming-guide.html的页面拆分为多个单独的页面
[ SPARK-24542 ] - Hive UDF系列UDFXPathXXXX允许用户通过精心设计的XML来访问任意文件
[ SPARK-24662 ] - 结构化流媒体应支持LIMIT
[ SPARK-24730 ] - 添加策略以在流式查询具有多个水印时选择max作为全局水印
[ SPARK-24768 ] - 具有内置的AVRO数据源实现
[ SPARK-24795 ] - 实施屏障执行模式
[ SPARK-24802 ] - 优化规则排除
[ SPARK-24817 ] - 实施BarrierTaskContext.barrier（）
[ SPARK-24819 ] - 在提交作业时没有足够的插槽启动障碍阶段时失败
[ SPARK-24820 ] - 提交的作业在屏障阶段包含PartitionPruningRDD时失败
[ SPARK-24821 ] - 在屏障阶段的所有分区的子集上提交作业计算时快速失败
[ SPARK-24822 ] - Python支持屏障执行模式
[ SPARK-24918 ] - Executor Plugin API
[ SPARK-25468 ] - 突出显示历史记录服务器中的当前页面索引

Story

[ SPARK-24124 ] - Spark历史服务器应该创建spark.history.store.path并正确设置权限
[ SPARK-24852 ] - 让spark.ml培训使用更新的`Instrumentation` API。
[ SPARK-25234 ] - SparkR ::: parallelize不能正确处理整数溢出
[ SPARK-25248 ] - Spark 2.4的审计障碍API
[ SPARK-25345 ] - 从ImageSchema弃用readImages API
[ SPARK-25347 ] - doc站点中的文档图像数据源

Improvement(改进)

[ SPARK-3159 ] - 检查可还原的DecisionTree
[ SPARK-4502 ] - Spark SQL从Parquet中读取不必要的嵌套字段
[ SPARK-7132 ] - 将验证设置添加到spark.ml GBT
[ SPARK-9312 ] - OneVsRest模型不提供rawPrediction
[ SPARK-11630 ] - ClosureCleaner错误地警告基于类的闭包
[ SPARK-13343 ] - 未提交的投机任务不应标记为成功
[ SPARK-14712 ] - spark.ml LogisticRegressionModel.toString应该总结模型
[ SPARK-15009 ] - PySpark CountVectorizerModel应该能够从词汇表中构建
[ SPARK-16406 ] - 大量列的参考分辨率应该更快
[ SPARK- 16501] - 在UI和命令行上公开spark.mesos.secret
[ SPARK-16617 ] - 升级到Avro 1.8.x.
[ SPARK-16630 ] - 如果执行程序无法在其上启动，则将节点列入黑名单。
[ SPARK-18057 ] - 将结构化流媒体kafka从0.10.0.1更新为2.0.0
[ SPARK-18230 ] - 当用户不存在时，MatrixFactorizationModel.recommendProducts会抛出NoSuchElement异常
[ SPARK-19018 ] - spark csv writer charset支持
[ SPARK-19602 ] - 无法使用表单的完全限定列名进行查询（<DBNAME>。<TABLENAME>。<COLUMNNAME>）
[ SPARK-19724 ] - 使用现有的默认位置创建托管表应该抛出异常
[ SPARK- 19947] - RFormulaModel总是在使用NULL或看不见的标签转换数据时抛出异常
[ SPARK- 20087] - 将TaskKilled发送到onTaskEnd侦听器时包含accumulators / taskMetrics
[ SPARK-20168 ] - 启用kinesis以从时间戳指定的初始位置开始流
[ SPARK-20538 ] - Dataset.reduce运算符应该使用withNewExecutionId（作为foreach或foreachPartition）
[ SPARK-20659 ] - 删除StorageStatus，或将其设为私有。
[ SPARK-20937 ] - 在Spark SQL，DataFrames和Datasets Guide中描述spark.sql.parquet.writeLegacyFormat属性
[ SPARK-21318 ] - `lookupFunction`抛出的异常消息不明确。
[ SPARK-21351 ] - 根据优化逻辑计划中儿童的输出更新可空性
[ SPARK-21590 ] - 结构化流媒体窗口开始时间应支持负值以调整时区
[ SPARK-21687 ] - Spark SQL应为Hive分区设置createTime
[ SPARK-21741 ] - 基于DataFrame的多变量摘要生成器的Python API
[ SPARK-21783 ] - 默认打开ORC过滤器下推
[ SPARK-21860 ] - 在'HeapMemoryAllocator`中改进堆内存的内存重用
[ SPARK-21960 ] - Spark Streaming动态分配应尊重spark.executor.instances
[ SPARK-22068 ] - 减少putIteratorAsValues和putIteratorAsBytes之间的重复代码
[ SPARK-22144 ] - ExchangeCoordinator不会组合0大小的预洗牌的分区
[ SPARK-22210 ] - 在线LDA variationalTopicInference应使用随机种子来保持稳定行为
[ SPARK-22219 ] - Refector“spark.sql.codegen.comments”
[ SPARK-22269 ] - 应该在Jenkins中运行Java样式检查
[ SPARK-22666 ] - 图像格式的Spark数据源
[ SPARK-22683 ] - DynamicAllocation通过分配几乎不会使用的容器来浪费资源
[ SPARK-22751 ] - 改进ML RandomForest shuffle性能
[ SPARK-22814 ] - JDBC支持日期/时间戳类型为partitionColumn
[ SPARK-22839 ] - 重构Kubernetes代码，用于配置驱动程序/执行程序窗格以使用一致且更清晰的抽象
[ SPARK-22856 ] - 为codegen输出和可空性添加包装器
[ SPARK-22941 ] - 允许SparkSubmit抛出异常而不是退出/打印错误。
[ SPARK-22959 ] - 在PySpark中为守护程序和工作程序选择模块的配置
[ SPARK-23024 ] - 关于表单内容的Spark ui需要有隐藏和显示功能，当表记录非常多时。
[ SPARK-23031 ] - 合并脚本应允许任意受让人
[ SPARK-23034 ] - 在UI中显示“HiveTableScan”节点的表名
[ SPARK-23040 ] - 如果指定了聚合器或订购，则BlockStoreShuffleReader的返回Iterator不可中断
[ SPARK-23043 ] - 将json4s-jackson升级到3.5.3
[ SPARK-23085 ] - mllib.linalg.Vectors.sparse的 API奇偶校验
[ SPARK-23159 ] - 更新Cloudpickle以匹配版本0.4.3
[ SPARK-23161 ] - 向Python GBTClassifier添加缺少的API
[ SPARK-23162 ] - PySpark ML LinearRegressionSummary缺少r2adj
[ SPARK-23166 ] - 将maxDF参数添加到CountVectorizer
[ SPARK-23167 ] - 从v1.4更新TPCDS查询到v2.7（最新）
[ SPARK-23174 ] - 修复pep8到最新的官方版本
[ SPARK-23188 ] - 使矢量化columar阅读器批量大小可配置
[ SPARK-23202 ] - 在DataSourceWriter中添加新API：onDataWriterCommit
[ SPARK-23217 ] - 将余弦距离度量添加到ClusteringEvaluator
[ SPARK-23228 ] - 能够跟踪Python在JVM中创建SparkSession
[ SPARK-23247 ] - 在扫描数据源中结合不安全操作和统计操作
[ SPARK-23253 ] - 只有在没有现有索引文件时才写入随机索引文件
[ SPARK-23259 ] - 清除hive外部目录周围的遗留代码
[ SPARK-23285 ] - 允许spark.executor.cores为小数
[ SPARK-23295 ] - 在make-distribution.sh中生成版本时排除Waring消息
[ SPARK-23303 ] - 改进数据源v2关系的解释结果
[ SPARK-23318 ] - FP-growth：WARN FPGrowth：不缓存输入数据
[ SPARK-23336 ] - 将snappy-java升级到1.1.7.1
[ SPARK-23359 ] - 在Scala的StructType中添加'fieldNames'的别名'names'
[ SPARK-23366 ] - 改进ReadAheadInputStream中的热读取路径
[ SPARK-23372 ] - 在镶木地板中写入空结构在执行期间失败。它应该在分析过程中提前失败。
[ SPARK-23375 ] - 优化程序应删除不需要的排序
[ SPARK-23378 ] - 将setCurrentDatabase从HiveExternalCatalog移至HiveClientImpl
[ SPARK-23379 ] - 如果当前数据库名称相同，则删除冗余的Metastore访问
[ SPARK-23382 ] - 关于表单内容的Spark Streaming ui需要有隐藏和显示功能，当表记录非常多时。
[ SPARK-23383 ] - 在检测到错误选项时，应在退出时使用
[ SPARK-23389 ] - 当shuffle依赖项指定聚合，并且`dependency.mapSideCombine = false`时，我们应该能够使用序列化排序。
[ SPARK-23412 ] - 向BisectingKMeans添加余弦距离测量
[ SPARK-23424 ] - 在评论中添加codegenStageId
[ SPARK-23445 ] - ColumnStat重构
[ SPARK-23447 ] - Literal的清理codegen模板
[ SPARK-23455 ] - ML中的默认参数应单独保存
[ SPARK-23456 ] - 默认启用`native` ORC实现
[ SPARK-23466 ] - 通过GenerateUnsafeProjection删除生成的Java代码中的冗余空值检查
[ SPARK-23500 ] - named_structs上的过滤器可以推送到扫描中
[ SPARK-23510 ] - 支持从Hive 2.2和Hive 2.3 Metastore读取数据
[ SPARK-23518 ] - 当用户只想读取和存储数据帧时，避免使用Metastore
[ SPARK-23528 ] - 将数字添加到ClusteringSummary
[ SPARK-23529 ] - 指定主机路径卷并在Kubernetes中的Spark驱动程序和执行程序窗格中装入卷
[ SPARK-23538 ] - 简化https客户端的SSL配置
[ SPARK-23550 ] - 清除Utils对象中未使用/冗余的方法
[ SPARK-23553 ] - 测试不应采用`spark.sql.sources.default`的默认值
[ SPARK-23562 ] - RFormula handleInvalid应处理非字符串列中的无效值。
[ SPARK-23564 ] - 关于左反连接的优化逻辑计划应进一步优化
[ SPARK-23565 ] - 改进了查询源数量变化时的错误消息
[ SPARK-23568 ] - 如果可用，Silhouette应从元数据中获取要素数量
[ SPARK-23572 ] - 更新security.md以涵盖新功能
[ SPARK-23573 ] - 创建linter规则以防止在SQL模块中滥用SparkContext.hadoopConfiguration
[ SPARK-23604 ] - ParquetInteroperabilityTest时间戳测试应该使用Statistics.hasNonNullValue
[ SPARK-23624 ] - 修改方法pushFilters的文档
[ SPARK-23627 ] - 在DataSet中提供isEmpty（）函数
[ SPARK-23628 ] - WholeStageCodegen可以生成包含太多参数的方法
[ SPARK-23644 ] - 带代理的SHS不显示应用程序
[ SPARK-23645 ] - 无法使用关键字参数调用pandas_udf
[ SPARK-23654 ] - 将jets3t剪切为spark-core的依赖项
[ SPARK-23656 ] - 在大端平台上不执行XXH64Suite.testKnownByteArrayInputs（）中的断言
[ SPARK-23672 ] - 文档支持返回Arrow UDF中的列表
[ SPARK-23675 ] - 标题添加火花徽标，使用火花徽标图像
[ SPARK-23683 ] - FileCommitProtocol.instantiate需要3-arg构造函数进行动态分区覆盖
[ SPARK-23691 ] - 尽可能在PySpark测试中使用sql_conf util
[ SPARK-23695 ] - PySpark的Kinesis测试在其jar丢失但启用时出现混乱错误消息
[ SPARK-23699 ] - 当禁用箭头回退时，PySpark应该引发相同的错误
[ SPARK-23700 ] - 清理未使用的进口产品
[ SPARK-23708 ] - ShutdownHookManager.addShutdownHook的评论错误
[ SPARK-23769 ] - 删除不必要的scalastyle检查禁用
[ SPARK-23770 ] - 在SparkR中显示repartitionByRange
[ SPARK-23772 ] - 在JSON模式推断期间提供忽略所有空值列或空映射/数组的选项
[ SPARK-23776 ] - 当缺少组件时，pyspark-sql测试应显示构建说明
[ SPARK-23803 ] - 支持铲斗修剪以优化对柱状柱的过滤
[ SPARK-23820 ] - 允许在日志中记录长形式的呼叫站点
[ SPARK-23822 ] - 改进Parquet模式不匹配的错误消息
[ SPARK-23828 ] - PySpark StringIndexerModel应该有标签的构造函数
[ SPARK-23830 ] - 当Spark应用程序是Scala类而不是对象时，集群部署模式下的YARN上的Spark失败并显示NullPointerException
[ SPARK- 23838] - SparkUI：在SQL选项卡中显示为“已完成”的SQL查询
[ SPARK-23841 ] - NodeIdCache应该取消最后一个缓存的nodeIdsForInstances
[ SPARK-23861 ] - 使用和不使用orderBy子句澄清默认窗口框架边界的行为
[ SPARK-23867 ] - 日志消息中的com.codahale.metrics.Counter输出没有toString方法
[ SPARK-23873 ] - 在解释的LambdaVariable中使用访问器
[ SPARK-23874 ] - 将apache / arrow升级到0.10.0
[ SPARK- 23875] - 为ArrayData创建IndexedSeq包装器
[ SPARK-23877 ] - 仅元数据查询不会降低过滤条件
[ SPARK-23880 ] - 表缓存应该是懒惰的，不要触发任何作业
[ SPARK-23892 ] - 改进覆盖率并修复与UTF8String相关的套件中的lint错误
[ SPARK-23896 ] - 改进PartitioningAwareFileIndex
[ SPARK-23944 ] - 将Param集函数添加到LSHModel类型
[ SPARK-23947 ] - 为哈希类添加hashUTF8String便捷方法
[ SPARK-23956 ] - 在AM注册中使用有效的RPC端口
[ SPARK-23957 ] - 子查询中的排序是多余的，可以删除
[ SPARK-23960 ] - Mark HashAggregateExec.bufVars为瞬态
[ SPARK-23962 ] - 来自SQLMetricsTestUtils.currentExecutionIds的Flaky测试
[ SPARK-23963 ] - 随着列数的增加，基于文本的Hive表的查询速度不成比例地增长
[ SPARK-23966 ] - 在公共接口中重构所有检查点文件写入逻辑
[ SPARK-23972 ] - 升级至Parquet 1.10
[ SPARK-23973 ] - 删除连续排序
[ SPARK-23979 ] - MultiAlias不应该是CodegenFallback
[ SPARK-24003 ] - 添加支持以App Id和/或Executor Id提供spark.executor.extraJavaOptions
[ SPARK-24005 ] - 删除Scala并行集合的使用
[ SPARK-24014 ] - 将onStreamingStarted方法添加到StreamingListener
[ SPARK-24017 ] - 将ExternalCatalog重构为接口
[ SPARK-24024 ] - 修复GLM中的偏差计算以处理拐角情况
[ SPARK-24029 ] - 在侦听套接字上设置“重用地址”标志
[ SPARK-24035 ] - Pivot的SQL语法
[ SPARK-24057 ] - 将实际数据类型放入AssertionError消息中
[ SPARK-24058 ] - ML中的默认参数应单独保存：Python API
[ SPARK-24072 ] - 清楚地定义推送过滤器
[ SPARK-24083 ] - 未捕获异常的诊断消息应包括堆栈跟踪
[ SPARK-24094 ] - 更改v2流媒体源的描述字符串以反映更改
[ SPARK-24111 ] - 在TPCDSQueryBenchmark中添加TPCDS v2.7（最新）查询
[ SPARK-24117 ] - 统一getSizePerRow
[ SPARK-24121 ] - 用于处理表达式codegen中的表达式代码生成的API
[ SPARK-24126 ] - PySpark测试在/ tmp中留下了大量垃圾
[ SPARK-24127 ] - 支持连续模式的文本套接字源
[ SPARK- 24128] - 在隐式笛卡尔积错误信息中提及spark.sql.crossJoin.enabled
[ SPARK-24129 ] - 添加选项以将--build-arg传递给docker-image-tool.sh
[ SPARK-24131 ] - 将majorMinorVersion API添加到PySpark以确定Spark版本
[ SPARK-24136 ] - 如果记录可用，MemoryStreamDataReader.next应该跳过睡眠状态
[ SPARK-24149 ] - HDFS联合中的自动命名空间发现
[ SPARK-24156 ] - 启用无数据微批次以获得更加热切的流式清理
[ SPARK-24160 ] - 如果收到零大小的块，ShuffleBlockFetcherIterator将失败
[ SPARK-24161 ] - 在结构化流媒体上启用调试包功能
[ SPARK-24172 ] - 我们不应多次将操作员下推应用于数据源v2
[ SPARK-24181 ] - 用于编写已排序数据的更好的错误消息
[ SPARK-24182 ] - 在AM失败时改善客户端模式的错误消息
[ SPARK-24188 ] - / api / v1 /版本无效
[ SPARK-24204 ] - 验证Json / Orc / ParquetFileFormat中的写入模式
[ SPARK-24206 ] - 改进用于读取和下推的DataSource基准代码
[ SPARK-24209 ] - 0配置SHS中的Knox网关支持
[ SPARK-24215 ] - 对DataFrame API实施热切评估
[ SPARK-24242 ] - RangeExec应具有正确的outputOrdering
[ SPARK-24244 ] - 仅解析所需的CSV文件列
[ SPARK-24246 ] - 通过在可用时设置原因来改进AnalysisException
[ SPARK-24248 ] - [K8S]使用Kubernetes群集作为pod状态的后备存储
[ SPARK-24250 ] - 支持访问SQLConf内部任务
[ SPARK-24262 ] - 修复UDF错误消息中的拼写错误
[ SPARK-24268 ] - 错误消息中的DataType不一致
[ SPARK-24275 ] - 修改InputPartition中的文档注释
[ SPARK-24277 ] - SQL模块中的代码清理：HadoopMapReduceCommitProtocol / FileFormatWriter
[ SPARK-24303 ] - 将cloudpickle更新为v0.4.4
[ SPARK-24305 ] - 避免在新集合表达式中序列化私有字段
[ SPARK-24308 ] - 处理DataReaderFactory到InputPartition在左侧类中重命名
[ SPARK-24312 ] - Hive Metastore Client 2.3升级到2.3.3
[ SPARK-24321 ] - 从Divide / Remainder中提取公共代码到基本特征
[ SPARK-24326 ] - 在mesos集群模式下为app jar添加local：// scheme支持
[ SPARK-24327 ] - 根据JDBC解析的模式验证并规范化分区列名称
[ SPARK-24329 ] - 在解析CSV文件之前删除注释过滤
[ SPARK-24330 ] - 使用DataWriter（V2）在FileFormatWriter中重构ExecuteWriteTask
[ SPARK-24332 ] - 将读取'spark.network.timeout'的位置修复为毫秒
[ SPARK-24337 ] - 改进无效SQL conf值的错误消息
[ SPARK-24339 ] - spark sql无法在transform / map / reduce查询中修剪列
[ SPARK-24356 ] - 由FileSegmentManagedBuffer管理的File.path中的重复字符串
[ SPARK-24361 ] - 波兰语代码块操作API
[ SPARK-24365 ] - 添加数据源写入基准
[ SPARK-24366 ] - 改进Catalyst类型转换器的错误消息
[ SPARK-24367 ] - Parquet：使用JOB_SUMMARY_LEVEL而不是弃用标志ENABLE_JOB_SUMMARY
[ SPARK-24381 ] - 改进NOT IN子查询的单元测试覆盖率
[ SPARK-24408 ] - 将abs函数移动到math_funcs组
[ SPARK-24423 ] - 为JDBC源添加新选项`query`
[ SPARK-24424 ] - 支持GROUPING SET的ANSI-SQL兼容语法
[ SPARK-24428 ] - 删除未使用的代码并修复K8s模块中的任何相关文档
[ SPARK-24441 ] - 在HDFSBackedStateStoreProvider中显示状态的总估计大小
[ SPARK-24454 ] - ml.image没有明确定义__all__
[ SPARK-24455 ] - 修复TaskSchedulerImpl评论中的拼写错误
[ SPARK-24470 ] - RestSubmissionClient可以抵抗404和非json响应
[ SPARK-24477 ] - 默认情况下，在pyspark.ml下导入子模块
[ SPARK-24485 ] - 在HDFSBackedStateStoreProvider中测量和记录文件系统操作所用的时间
[ SPARK-24490 ] - 在Web UI中使用WebUI.addStaticHandler
[ SPARK-24505 ] - 将codegen中的字符串转换为块：Cast和BoundAttribute
[ SPARK-24518 ] - 使用Hadoop凭据提供程序API存储密码
[ SPARK-24519 ] - MapStatus有2000个硬编码
[ SPARK-24525 ] - 提供限制MemorySink内存使用的选项
[ SPARK-24534 ] - 如果没有传递spark cmd，请添加绕过entrypoint.sh脚本的方法
[ SPARK-24543 ] - 支持任何DataType作为from_json模式的DDL字符串
[ SPARK-24547 ] - Spark on K8s docker-image-tool.sh改进
[ SPARK-24551 ] - 为Secrets添加集成测试
[ SPARK-24555 ] - KNans / BiKM / GMM / AFT / NB中的logNumExamples
[ SPARK-24557 ] - ClusteringEvaluator支持数组输入
[ SPARK-24558 ] - 当保存cacheBlock的执行程序为IDLE时，驱动程序在日志中输出错误的信息。显示的超时值不是按配置值。
[ SPARK-24565 ] - 在结构化流中添加API，以将每个微量分片的输出行公开为DataFrame
[ SPARK-24566 ] - 修复spark.storage.blockManagerSlaveTimeoutMs默认配置
[ SPARK-24571 ] - 支持具有Char类型值的文字
[ SPARK- 24574] - 改进sql组件的array_contains函数来处理Column类型
[ SPARK-24575 ] - 禁止在WHERE和HAVING子句中使用窗口表达式
[ SPARK-24576 ] - 将Apache ORC升级到1.5.2
[ SPARK-24596 ] - 非级联缓存失效
[ SPARK-24605 ] - size（null）应返回null
[ SPARK-24609 ] - PySpark / SparkR doc没有很好地解释RandomForestClassifier.featureSubsetStrategy
[ SPARK-24614 ] - PySpark - 修复tests.py上的SyntaxWarning
[ SPARK-24626 ] - 在Analyze Table命令中并行化大小计算
[ SPARK-24635 ] - 删除Blocks类
[ SPARK-24636 ] - 为array_join函数输入数组强制
[ SPARK-24637 ] - 向dropwizard指标添加有关状态和水印的指标
[ SPARK-24646 ] - 支持通配符'*'表示spark.yarn.dist.forceDownloadSchemes
[ SPARK-24658 ] - 删除ANTLR错误的解决方法
[ SPARK-24665 ] - 在PySpark中添加SQLConf来管理所有sql配置
[ SPARK-24673 ] - scala sql函数from_utc_timestamp第二个参数可能是Column而不是String
[ SPARK-24675 ] - 重命名表：验证新位置的存在
[ SPARK-24678 ] - 我们应首先使用'PROCESS_LOCAL'进行Spark-Streaming
[ SPARK-24683 ] - SparkLauncher.NO_RESOURCE不适用于Java应用程序
[ SPARK-24685 ] - 调整发行脚本以构建旧版本的所有版本
[ SPARK-24688 ] - 澄清关于LabeledPoint的评论（标签，功能）对而不是（功能，标签）
[ SPARK-24691 ] - 在FileFormat中添加新的API`supportDataType`
[ SPARK-24692 ] - 改进FilterPushdownBenchmark
[ SPARK-24696 ] - ColumnPruning规则无法删除额外的Project
[ SPARK-24697 ] - 修复流式查询进度中报告的起始偏移量
[ SPARK-24709 ] - 从JSON字符串文字中推断模式
[ SPARK-24722 ] - 用于旋转的基于列的API
[ SPARK-24727 ] - CodeGenerator中的缓存100太小，无法进行流式传输
[ SPARK-24732 ] - 在MapTypes之间键入强制。
[ SPARK-24737 ] - 在StructTypes之间键入强制。
[ SPARK-24747 ] - 使spark.ml.util.Instrumentation类更加灵活
[ SPARK-24757 ] - 改进广播超时的错误消息
[ SPARK-24759 ] - 无广播散列连接的重新排序键
[ SPARK-24761 ] - 检查配置参数的可修改性
[ SPARK-24763 ] - 从流聚合中的值中删除冗余密钥数据
[ SPARK-24782 ] - 简化表达式中的conf访问
[ SPARK-24785 ] - 确保REPL打印Spark UI信息，然后打印欢迎消息
[ SPARK-24790 ] - 允许在数据透视表中使用复杂的聚合表达式
[ SPARK-24801 ] - spark.network.sasl.SaslEncryption中的空byte []数组$ EncryptedMessage会浪费大量内存
[ SPARK-24807 ] - 两次添加文件/罐子：输出警告并添加注释
[ SPARK-24849 ] - 将StructType转换为DDL字符串
[ SPARK-24858 ] - 避免不必要的镶木地板页脚读取
[ SPARK-24860 ] - 每次写入操作公开动态分区覆盖
[ SPARK-24865 ] - 删除AnalysisBarrier
[ SPARK-24868 ] - 在Python中添加序列函数
[ SPARK-24871 ] - 重构Concat和MapConcat以避免为每一行创建连锁对象。
[ SPARK-24890 ] - 当`trueValue`和`falseValue`相同时，短路`if`条件
[ SPARK-24893 ] - 如果所有输出都是语义等价的，则删除整个Case
[ SPARK-24926 ] - 确保在所有网络配置（驱动程序和执行程序）中始终使用numCores
[ SPARK-24929 ] - 合并脚本吞下KeyboardInterrupt
[ SPARK-24940 ] - SQL查询的合并和重新分区提示
[ SPARK-24943 ] - 将SQL结构转换为StructType
[ SPARK-24945 ] - 切换到uniVocity> = 2.7.2
[ SPARK-24951 ] - 表值函数应抛出AnalysisException而不是IllegalArgumentException
[ SPARK-24952 ] - 支持Avro数据源的LZMA2压缩
[ SPARK-24954 ] - 如果在启用动态资源分配的情况下运行障碍阶段，则在作业提交时快速失败
[ SPARK-24956 ] - 将maven从3.3.9升级到3.5.4
[ SPARK-24959 ] - 不要为空架构调用CSV / JSON解析器
[ SPARK- 24960] - k8s：显式公开驱动程序容器上的端口
[ SPARK-24962 ] - 重构CodeGenerator.createUnsafeArray
[ SPARK-24978 ] - 添加spark.sql.fast.hash.aggregate.row.max.capacity以配置快速聚合的容量。
[ SPARK-24979 ] - 添加AnalysisHelper＃resolveOperatorsUp
[ SPARK-24982 ] - UDAF解析不应抛出java.lang.AssertionError
[ SPARK-24992 ] - 火花应随机选择纱线局部方向
[ SPARK-24993 ] - 让Avro再次快速
[ SPARK-24996 ] - 使用DSL简化DeclarativeAggregate
[ SPARK-24999 ] - 减少不必要的“新”内存操作
[ SPARK-25001 ] - 修复构建杂项警告
[ SPARK-25018 ] - 在`merge_spark_pr.py`中使用`Co-Authored-By` git预告片
[ SPARK-25025 ] - 删除INTERSECT / EXCEPT中isAll的默认值
[ SPARK-25043 ] - spark-sql应该在启动时打印appId和master
[ SPARK-25045 ] - 使`RDDBarrier.mapParititions`类似于`RDD.mapPartitions`
[ SPARK-25069 ] - 使用UnsafeAlignedOffset使8字节项的整个记录对齐，如在UnsafeExternalSorter中使用的那样
[ SPARK-25073 ] - 关于纱线任务的Spark-submit：当yarn.nodemanager.resource.memory-mb和/或yarn.scheduler.maximum-allocation-mb不足时，Spark总是报告错误请求以调整yarn.scheduler 。最大分配-MB
[ SPARK-25077 ] - 在WindowExec中删除未使用的变量
[ SPARK-25088 ] - Rest Server默认和doc更新
[ SPARK-25093 ] - CodeFormatter可以避免一次又一次地创建正则表达式对象
[ SPARK-25105 ] - 导入所有pyspark.sql.functions也应该带上PandasUDFType
[ SPARK-25108 ] - Dataset.show（）为Unicode字符生成不正确的填充
[ SPARK-25111 ] - 增加kinesis客户端/生产者lib版本和aws-sdk以匹配
[ SPARK-25113 ] - 当任何生成的方法的字节码大小超过HugeMethodLimit时，向CodeGenerator添加日志记录
[ SPARK-25115 ] - 当使用由> 1 ByteBuffer支持的ByteBuf时，消除额外的内存复制。
[ SPARK-25117 ] - 在R中添加EXEPT ALL和INTERSECT ALL支持。
[ SPARK-25122 ] - 支持的重复数据删除等于代码
[ SPARK-25140 ] - 当UnsafeProjection.create回退到解释模式时，添加可选的日志记录
[ SPARK-25142 ] - 当Python worker无法在`_load_from_socket`中打开套接字时添加错误消息。
[ SPARK-25170 ] - 在文档中添加任务度量标准描述
[ SPARK-25178 ] - 直接发送keyXchema / valueSchema的StructType对象，用于xxxHashMapGenerator
[ SPARK-25208 ] - 为DecimalType松开Cast.forceNullable。
[ SPARK- 25209] - 针对DataFrames的Dataset.apply进行优化
[ SPARK-25212 ] - 在ConvertToLocalRelation中支持过滤器
[ SPARK-25228 ] - 添加执行程序CPU时间度量标准
[ SPARK-25233 ] - 当使用带背压的kafka direct API时，为用户提供为每批次指定固定最小消息的选项
[ SPARK-25235 ] - 合并Scala 2.11和2.12分支中的REPL代码
[ SPARK-25241 ] - 读取/写入CSV文件时可配置的空值
[ SPARK-25252 ] - 支持to_json中任何类型的数组
[ SPARK-25253 ] - 重构pyspark连接和身份验证
[ SPARK-25260 ] - 修复SchemaConverters.toAvroType中的命名空间处理
[ SPARK-25275 ] - 要求轮子中的成员运行'su'（在dockerfiles中）
[ SPARK-25286 ] - 删除危险的parmap
[ SPARK-25287 ] - 在merge_spark_pr.py中预先检查JIRA_USERNAME和JIRA_PASSWORD
[ SPARK-25300 ] - 统一配置参数`spark.shuffle.service.enabled`
[ SPARK-25318 ] - 在获取或阶段重试期间包装输入流时添加异常处理以响应损坏的块
[ SPARK-25335 ] - 如果已安装在系统中，则跳过Zip下载
[ SPARK-25375 ] - 重新启用合格烫发。UDFSuite中的函数检查
[ SPARK- 25384] - Clarify fromJsonForceNullableSchema将在Spark 3.0中删除
[ SPARK-25400 ] - 在schedulerIntegrationSuite中增加超时
[ SPARK-25445 ] - 使用Spark 2.4发布scala 2.12版本
[ SPARK-25469 ] - Concat，Reverse和ElementAt的Eval方法应该只使用一次模式匹配
[ SPARK-25639 ] - 添加有关foreachBatch的文档和多个水印策略
[ SPARK-25754 ] - 更改MathJax的CDN
[ SPARK-25859 ] - 为PrefixSpan添加scala / java / python示例和doc

Test

[ SPARK-16139 ] - 审计泄漏线程的测试
[ SPARK-22882 ] - StructuredStreaming的ML测试：spark.ml.classification
[ SPARK-22883 ] - StructuredStreaming的ML测试：spark.ml.feature，AM
[ SPARK-22884 ] - StructuredStreaming的ML测试：spark.ml.clustering
[ SPARK-22885 ] - StructuredStreaming的ML测试：spark.ml.tuning
[ SPARK-22886 ] - StructuredStreaming的ML测试：spark.ml.recommendation
[ SPARK-22915 ] - 结构化流的ML测试：spark.ml.feature，NZ
[ SPARK-23169 ] - 对lint -r脚本和.lintr配置的更改运行lintr
[ SPARK-23392 ] - 为图像功能添加一些测试用例
[ SPARK-23849 ] - 测试json模式推断的samplingRatio选项
[ SPARK-23881 ] - 片状测试：JobCancellationSuite。“shuffle reader的可中断迭代器”
[ SPARK-24044 ] - 从unittest模块中明确打印出跳过的测试
[ SPARK-24502 ] - 片状测试：UnsafeRowSerializerSuite
[ SPARK-24521 ] - 修复CachedTableSuite中的无效测试
[ SPARK-24562 ] - 允许在SQLQueryTestSuite中使用多个配置运行相同的测试
[ SPARK-24564 ] - 为RecordBinaryComparator添加测试套件
[ SPARK-24740 ] - PySpark测试未通过NumPy 0.14.x +
[ SPARK-24840 ] - 不要使用虚拟过滤器来打开/关闭codegen
[ SPARK-24861 ] - 在RateSourceSuite中创建更正的临时目录
[ SPARK-24886 ] - 增加Jenkins的构建时间
[ SPARK-25141 ] - 修改高阶函数的测试以检查绑定方法。
[ SPARK-25184 ] - Flaky测试：FlatMapGroupsWithState“流处理时间超时”
[ SPARK-25238 ] - Lint-Python：升级到当前版本的pycodestyle失败
[ SPARK-25249 ] - 为OpenHashMap添加单元测试
[ SPARK-25267 ] - 在sql / core和sql / hive的测试用例中禁用ConvertToLocalRelation
[ SPARK-25290 ] - BytesToBytesMapOnHeapSuite randomizedStressTest可能导致OutOfMemoryError
[ SPARK-25296 ] - 创建ExplainSuite
[ SPARK-25422 ] - 片状测试：org.apache.spark.DistributedSuite.caching在磁盘上，已复制（encryption = on）（以复制为流）
[ SPARK-25453 ] - OracleIntegrationSuite IllegalArgumentException：时间戳格式必须为yyyy-mm-dd hh：mm：ss [.fffffffff]
[ SPARK-25456 ] - PythonForeachWriterSuite失败
[ SPARK-25673 ] - 删除Travis CI，启用Java lint检查
[ SPARK-25736 ] - 添加测试以验证多列计数的行为
[ SPARK-25805 ] - 片状测试：DataFrameSuite.SPARK-25159单元测试失败

Wish

[ SPARK-23131 ] - 在序列化GLR模型期间，Kryo引发了StackOverflow
[ SPARK-25258 ] - 将kryo软件包升级到4.0.2版

Task

[ SPARK-20220 ] - 在调度文档中添加thrift调度池配置
[ SPARK-23092 ] - 将MemoryStream迁移到DataSource V2
[ SPARK-23451 ] - 弃用KMeans computeCost
[ SPARK-23501 ] - 重构AllStagesPage以避免冗余代码
[ SPARK-23533 ] - 添加对更改ContinuousDataReader的startOffset的支持
[ SPARK-23601 ] - 从发行版中删除.md5文件
[ SPARK-24392 ] - 将pandas_udf标记为实验
[ SPARK-24533 ] - typesafe已经重新命名为lightbend。将build / mvn端点从downloads.typesafe.com更改为downloads.lightbend.com
[ SPARK-24654 ] - 更新，修复LICENSE和NOTICE，并专门针对源与二进制
[ SPARK-25063 ] - 将类KnowNotNull重命名为KnownNotNull
[ SPARK-25095 ] - 对BarrierTaskContext的Python支持
[ SPARK-25213 ] - DataSourceV2似乎不会产生不安全的行
[ SPARK-25336 ] - 恢复SPARK-24863和SPARK-24748
[ SPARK-25836 ] - （暂时）禁用kubernetes-integration-tests的自动构建/测试

Dependency upgrade

[ SPARK-20395 ] - 将Scala更新为2.11.11，将锌更新为0.3.15
[ SPARK-23509 ] - 将公共网络从2.2升级到3.1

Request

[ SPARK-21607 ] - dropTempView函数可以像dropTempView一样添加一个参数（viewName：String，dropSelfOnly：Boolean）

Umberlla

[ SPARK-14220 ] - 针对Scala 2.12构建和测试Spark
[ SPARK-23899 ] - 内置SQL函数改进
[ SPARK-24090 ] - Spark 2.4的Kubernetes后端热门列表
[ SPARK-25319 ] - Spark MLlib，GraphX 2.4 QA伞
[ SPARK-25419 ] - 镶木地板谓词下推式改进

Documention

[ SPARK-21261 ] - SparkSQL regexpExpressions示例
[ SPARK-23231 ] - 为用户指南添加字符串索引器排序文档（也适用于RFormula指南）
[ SPARK-23254 ] - 为DataFrame多变量摘要添加用户指南条目
[ SPARK-23256 ] - 将columnSchema方法添加到PySpark图像阅读器
[ SPARK-23329 ] - 使用三角函数的参数和返回值更新函数描述
[ SPARK-23566 ] - 争论名称修复
[ SPARK-23642 ] - 用于LongAccumulator的isZero scaladoc描述了错误的方法
[ SPARK-23792 ] - 日期时间功能的文档改进
[ SPARK-24134 ] - 文档“Tuning Spark”中缺少一个完整的句号
[ SPARK-24191 ] - Spark ML示例中用于Power Iteration Clustering的Scala示例代码
[ SPARK-24224 ] - spark.ml中Power Iteration Clustering的Java示例代码
[ SPARK-24378 ] - spark 2.3.0中date_trunc函数的错误示例
[ SPARK-24444 ] - 改进pandas_udf GROUPED_MAP文档以解释列分配
[ SPARK-24507 ] - “Spark Streaming Programming Guide”中“数据接收中的并行度级别”部分中的描述与最近的Kafka直接应用程序无关
[ SPARK-24628 ] - docs / mllib-data-types.md中示例代码的错别字
[ SPARK-25082 ] - Spark函数expm1的文档不完整
[ SPARK-25273 ] - 如何安装testthat v1.0.2
[ SPARK-25583 ] - 在文档中添加新添加的与历史服务器相关的配置
[ SPARK-25656 ] - 添加有关如何使用Parquet / ORC库选项的示例部分

https://databricks.com/blog/2018/11/08/introducing-apache-spark-2-4.html
http://spark.apache.org/releases/spark-release-2-4-0.html

[Spark版本更新]--Spark-2.4.0 发布说明

Bug

New Feature(新特性)

Story

Improvement(改进)

Test

Wish

Task

Dependency upgrade

Request

Umberlla

Documention

继续阅读

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

HDU 5719 Arrange

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

HDU 4609 3-idiots

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

HDU 1402 A * B Problem Plus

数组和类数组

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结