天天看点

[Spark版本更新]--Spark-2.4.0 发布说明

2018-11-02 Apache Spark 官方发布了 2.4.0版本,以下是 Release Notes,供参考: 

  • [ ​​SPARK-6236​​ ] - 支持大于2G的缓存块
  • [ ​​SPARK-6237​​ ] - 支持上传块> 2GB作为流
  • [ ​​SPARK-10884​​ ] - 支持针对回归和分类相关模型的单实例预测
  • [ ​​SPARK-11239​​ ] - 用于ML线性回归的PMML导出
  • [ ​​SPARK-12850​​ ] - 支持桶修剪(对于分块表的谓词下推)
  • [ ​​SPARK-14376​​ ] - 树木的spark.ml奇偶校验
  • [ ​​SPARK-14540​​ ] - 在ClosureCleaner中支持Scala 2.12闭包和Java 8 lambda
  • [ ​​SPARK-17091​​ ] - 将IN谓词转换为等效的Parquet过滤器
  • [ ​​SPARK-19826​​ ] - 用于PIC的spark.ml Python API
  • [ ​​SPARK-20114​​ ] - 用于顺序模式挖掘的spark.ml奇偶校验 - PrefixSpan
  • [ ​​SPARK-​​ 21088] - CrossValidator,TrainValidationSplit应该在拟合时收集所有模型:Python API
  • [ ​​SPARK-21898​​ ] - MLlib中KolmogorovSmirnovTest的特征奇偶校验
  • [ ​​SPARK-22187​​ ] - 更新已保存状态的unsaferow格式,以便在state为null时设置超时
  • [ ​​SPARK-22239​​ ] - 用户定义的窗口函数,带有pandas udf(无界窗口)
  • [ ​​SPARK-22274​​ ] - 用户定义的聚合函数与pandas udf
  • [ ​​SPARK-22362​​ ] - 为窗口聚合函数添加单元测试
  • [ ​​SPARK-22624​​​ ] - 由SPARK- ​​22614​​引入的曝光范围分区随机播放
  • [ ​​SPARK-23011​​ ] - 支持具有组聚合熊猫UDF的替代功能表单
  • [ ​​SPARK-23030​​ ] - 使用箭头使用toPandas()集合减少内存消耗
  • [ ​​SPARK-23046​​ ] - RFormula包含VectorSizeHint管道
  • [ ​​SPARK-23096​​ ] - 将速率源迁移到v2
  • [ ​​SPARK-23097​​ ] - 将文本套接字源迁移到v2
  • [ ​​SPARK-23099​​ ] - 迁移foreach接收器
  • [ ​​SPARK-23120​​ ] - 向PySpark添加PMML管道导出支持
  • [ ​​SPARK-23203​​ ] - DataSourceV2应该使用不可变树。
  • [ ​​SPARK-23323​​ ] - DataSourceV2应使用输出提交协调器。
  • [ ​​SPARK-23325​​ ] - DataSourceV2读者应始终生成InternalRow。
  • [ ​​SPARK-23341​​ ] - DataSourceOptions应处理路径和表名以避免混淆。
  • [ ​​SPARK-23344​​ ] - 将KMeans distanceMeasure param添加到PySpark
  • [ ​​SPARK-23352​​ ] - 在Pandas UDF中明确指定支持的类​​型
  • [ ​​SPARK-23362​​​ ] - 将Kafka ​​微量滴定​​源迁移至v2
  • [ ​​SPARK-23380​​ ] - 使用Pandas DataFrame为toPandas / createDataFrame中的箭头回退添加一个conf
  • [ ​​SPARK-23401​​ ] - 改进所有支持类型和不支持类型的测试用例
  • [ ​​SPARK-23418​​ ] - 如果没有ReadSupportWithSchema,DataSourceV2不应允许userSpecifiedSchema
  • [ ​​SPARK-23491​​ ] - 连续症状
  • [ ​​SPARK-23503​​ ] - 连续执行应该对提交的时期进行排序
  • [ ​​SPARK-23555​​ ] - 在PySpark中为Arrow添加BinaryType支持
  • [ ​​SPARK-23559​​ ] - 将epoch ID添加到数据编写器工厂
  • [ ​​SPARK-23577​​ ] - 支持文本数据源的行分隔符
  • [ ​​SPARK-23581​​ ] - 添加GenerateUnsafeProjection的解释版本
  • [ ​​SPARK-23582​​ ] - 将解释执行添加到StaticInvoke表达式
  • [ ​​SPARK-23583​​ ] - 将解释执行添加到Invoke表达式
  • [ ​​SPARK-23584​​ ] - 将解释执行添加到NewInstance表达式
  • [ ​​SPARK-23585​​ ] - 为UnwrapOption表达式添加解释执行
  • [ ​​SPARK-23586​​ ] - 为WrapOption表达式添加解释执行
  • [ ​​SPARK-23587​​ ] - 为MapObjects表达式添加解释执行
  • [ ​​SPARK-23588​​ ] - 为CatalystToExternalMap表达式添加解释执行
  • [ ​​SPARK-23589​​ ] - 为ExternalMapToCatalyst表达式添加解释执行
  • [ ​​SPARK-23590​​ ] - 为CreateExternalRow表达式添加解释执行
  • [ ​​SPARK-23591​​ ] - 为EncodeUsingSerializer表达式添加解释执行
  • [ ​​SPARK-​​ 23592] - 为DecodeUsingSerializer表达式添加解释执行
  • [ ​​SPARK-23593​​ ] - 为InitializeJavaBean表达式添加解释执行
  • [ ​​SPARK-23594​​ ] - 为GetExternalRowField表达式添加解释执行
  • [ ​​SPARK-23595​​ ] - 为ValidateExternalType表达式添加解释执行
  • [ ​​SPARK-23596​​ ] - 修改数据集测试工具以包括解释执行
  • [ ​​SPARK-23597​​ ] - 针对非解释表达式的Audit Spark SQL代码库
  • [ ​​SPARK-23611​​ ] - 扩展ExpressionEvalHelper线束以测试故障
  • [ ​​SPARK-23615​​ ] - 将maxDF参数添加到Python CountVectorizer
  • [ ​​SPARK-23633​​ ] - 在sql-programming-guide中更新Pandas UDFs部分
  • [ ​​SPARK-23687​​ ] - 添加MemoryStream
  • [ ​​SPARK-23688​​ ] - 重构测试远离费率来源
  • [ ​​SPARK-23690​​ ] - VectorAssembler应该有handleInvalid来处理具有空值的列
  • [ ​​SPARK-23706​​ ] - spark.conf.get(value,default = None)应该在PySpark中产生None
  • [ ​​SPARK-23711​​ ] - 向已解释的执行逻辑添加回退
  • [ ​​SPARK-​​ 23713] - 清理UnsafeWriter类
  • [ ​​SPARK-23723​​ ] - json数据源的新编码选项
  • [ ​​SPARK-23724​​ ] - 不同于UTF-8的字符集中jsons的自定义记录分隔符
  • [ ​​SPARK-23727​​ ] - 支持DATE预测压下镶木地板
  • [ ​​SPARK-23736​​ ] - 高阶函数:concat(array1,array2,...,arrayN)→数组
  • [ ​​SPARK-23747​​ ] - 添加EpochCoordinator单元测试
  • [ ​​SPARK-23748​​ ] - 支持从临时表中选择
  • [ ​​SPARK-23762​​ ] - UTF8StringBuilder使用MemoryBlock
  • [ ​​SPARK-23765​​ ] - 支持json数据源的行分隔符
  • [ ​​SPARK-23783​​ ] - 为ML管道添加新的通用导出特性
  • [ ​​SPARK-23807​​ ] - 添加Hadoop 3配置文件以及相关的POM修复程序
  • [ ​​SPARK-23821​​ ] - 高阶函数:展平(x)→数组
  • [ ​​SPARK-23826​​ ] - TestHiveSparkSession应设置默认会话
  • [ ​​SPARK-23847​​ ] - 将asc_nulls_first,asc_nulls_last添加到PySpark
  • [ ​​SPARK-23859​​ ] - 仪表改进的初始PR:UUID和日志记录级别
  • [ ​​SPARK-23864​​ ] - 将不安全*复制方法添加到UnsafeWriter
  • [ ​​SPARK-23870​​ ] - 将RFormula handleInvalid Param转发给VectorAssembler
  • [ ​​SPARK-23871​​ ] - 为VectorAssembler handleInvalid添加python api
  • [ ​​SPARK-​​ 23900] - format_number udf应将用户指定的格式作为参数
  • [ ​​SPARK-23902​​​ ] - 在UDF之间​​的months_中​​提供一个选项以禁用舍入
  • [ ​​SPARK-23903​​ ] - 添加对日期提取的支持
  • [ ​​SPARK-23905​​ ] - 工作日添加UDF
  • [ ​​SPARK-23908​​ ] - 高阶函数:transform(array <T>,function <T,U>)→array <U>
  • [ ​​SPARK-23909​​ ] - 高阶函数:filter(array <T>,function <T,boolean>)→array <T>
  • [ ​​SPARK-23911​​ ] - 高阶函数:aggregate(array <T>,initialState S,inputFunction <S,T,S>,outputFunction <S,R>)→R
  • [ ​​SPARK-23912​​ ] - 高阶函数:array_distinct(x)→数组
  • [ ​​SPARK-23913​​ ] - 高阶函数:array_intersect(x,y)→数组
  • [ ​​SPARK-23914​​ ] - 高阶函数:array_union(x,y)→数组
  • [ ​​SPARK-23915​​ ] - 高阶函数:array_except(x,y)→数组
  • [ ​​SPARK-23916​​ ] - 高阶函数:array_join(x,delimiter,null_replacement)→varchar
  • [ ​​SPARK-23917​​ ] - 高阶函数:array_max(x)→x
  • [ ​​SPARK-23918​​ ] - 高阶函数:array_min(x)→x
  • [ ​​SPARK-23919​​ ] - 高阶函数:array_position(x,element)→bigint
  • [ ​​SPARK-23920​​ ] - 高阶函数:array_remove(x,element)→数组
  • [ ​​SPARK-23921​​ ] - 高阶函数:array_sort(x)→数组
  • [ ​​SPARK-23922​​ ] - 高阶函数:arrays_overlap(x,y)→布尔值
  • [ ​​SPARK-23923​​ ] - 高阶函数:基数(x)→bigint
  • [ ​​SPARK-23924​​ ] - 高阶函数:element_at
  • [ ​​SPARK-23925​​ ] - 高阶函数:重复(元素,计数)→数组
  • [ ​​SPARK-23926​​ ] - 高阶函数:反向(x)→数组
  • [ ​​SPARK-23927​​ ] - 高阶函数:序列
  • [ ​​SPARK-23928​​ ] - 高阶函数:shuffle(x)→数组
  • [ ​​SPARK-23930​​ ] - 高阶函数:切片(x,开始,长度)→数组
  • [ ​​SPARK-23931​​ ] - 高阶函数:array_zip(array1,array2 [,...])→数组<row>
  • [ ​​SPARK-23932​​ ] - 高阶函数:zip_with(数组<T>,数组<U>,函数<T,U,R>)→数组<R>
  • [ ​​SPARK-23933​​ ] - 高阶函数:map(数组<K>,数组<V>)→map <K,V>
  • [ ​​SPARK-23934​​ ] - 高阶函数:map_from_entries(array <row <K,V >>)→map <K,V>
  • [ ​​SPARK-23936​​ ] - 高阶函数:map_concat(map1 <K,V>,map2 <K,V>,...,mapN <K,V>)→map <K,V>
  • [ ​​SPARK-23942​​ ] - PySpark的collect不会触发QueryExecutionListener
  • [ ​​SPARK-23990​​ ] - 仪器记录改进 - ML回归包
  • [ ​​SPARK-24026​​ ] - 用于PIC的spark.ml Scala / Java API
  • [ ​​SPARK-24038​​ ] - 重构连续写exec到自己的类
  • [ ​​SPARK-24039​​ ] - 删除重启迭代器hack
  • [ ​​SPARK-24040​​ ] - 支持单分区聚合
  • [ ​​SPARK-24054​​ ] - 添加array_position函数/ element_at函数
  • [ ​​SPARK-24069​​ ] - 添加array_max / array_min函数
  • [ ​​SPARK-24070​​ ] - 用于Parquet 1.10.0升级的TPC-DS性能测试
  • [ ​​SPARK-24071​​ ] - 木地板过滤器下推的微观基准
  • [ ​​SPARK-24073​​ ] - DataSourceV2:将DataReaderFactory重命名为InputPartition。
  • [ ​​SPARK-24115​​ ] - 改进spark.ml.tuning的仪器
  • [ ​​SPARK-24119​​ ] - 将解释执行添加到SortPrefix表达式
  • [ ​​SPARK-24132​​ ] - 用于分类的仪表改进
  • [ ​​SPARK-24146​​ ] - 用于顺序模式挖掘的spark.ml奇偶校验 - PrefixSpan:Python API
  • [ ​​SPARK-24155​​ ] - 用于聚类的仪表改进
  • [ ​​SPARK-24157​​ ] - 为流聚合和重复数据删除启用无数据微批
  • [ ​​SPARK-24158​​ ] - 为流连接启用无数据微批量
  • [ ​​SPARK-24159​​ ] - 为流式传输mapGroupswithState启用无数据微批量
  • [ ​​SPARK-24185​​​ ] - 增加​​拼合​​功能
  • [ ​​SPARK-24186​​ ] - 添加array_reverse和concat
  • [ ​​SPARK-24187​​ ] - 添加array_join
  • [ ​​SPARK-24197​​ ] - 添加array_sort函数
  • [ ​​SPARK-24198​​ ] - 添加切片功能
  • [ ​​SPARK-24234​​ ] - 使用行缓冲区创建任务底部RDD
  • [ ​​SPARK-24235​​ ] - 创建任务顶级RDD,将行发送到远程缓冲区
  • [ ​​SPARK-24251​​ ] - DataSourceV2:添加AppendData逻辑运算
  • [ ​​SPARK-24290​​ ] - 检测改进:使用数组类型添加logNamedValue
  • [ ​​SPARK-24296​​ ] - 支持复制大于2 GB的块
  • [ ​​SPARK-24297​​ ] - 将spark.maxRemoteBlockSizeFetchToMem的默认值更改为<2GB
  • [ ​​SPARK-24307​​ ] - 支持从内存发送超过2GB的消息
  • [ ​​SPARK-24310​​ ] - 频繁模式挖掘的仪器
  • [ ​​SPARK-24324​​ ] - Pandas Grouped Map UserDefinedFunction混合列标签
  • [ ​​SPARK-24325​​ ] - 测试Hadoop的LinesReader
  • [ ​​SPARK-24331​​ ] - 添加arrays_overlap / array_repeat / map_entries
  • [ ​​SPARK-24334​​ ] - ArrowPythonRunner中的竞争条件导致Arrow内存分配器的不正常关闭
  • [ ​​SPARK-24386​​ ] - 实施连续加工合并(1)
  • [ ​​SPARK-24418​​ ] - 升级到Scala 2.11.12
  • [ ​​SPARK-24419​​ ] - 使用Scala 2.10.7将SBT升级到0.13.17
  • [ ​​SPARK-24420​​ ] - 将ASM升级到6.x以支持JDK9 +
  • [ ​​SPARK-24439​​ ] - 将距离测量添加到PySpark中的BisectingKMeans
  • [ ​​SPARK-24478​​ ] - DataSourceV2应在物理计划转换时推送过滤器和投影
  • [ ​​SPARK-24537​​ ] - 添加array_remove / array_zip / map_from_arrays / array_distinct
  • [ ​​SPARK-24549​​ ] - 支持DecimalType下推到镶木地板数据源
  • [ ​​SPARK-24624​​ ] - 无法混合矢量化和非矢量化UDF
  • [ ​​SPARK-24638​​ ] - StringStartsWith支持下推
  • [ ​​SPARK-24706​​ ] - 支持ByteType和ShortType下推到镶木地板
  • [ ​​SPARK-24716​​ ] - 重构ParquetFilters
  • [ ​​SPARK-24718​​ ] - 时间戳支持下推到镶木地板数据源
  • [ ​​SPARK-24771​​ ] - 将AVRO版本从1.7.7升级到1.8.2
  • [ ​​SPARK-24772​​ ] - 支持读取AVRO逻辑类型 - 日期
  • [ ​​SPARK-24773​​ ] - 支持读取AVRO逻辑类型 - 具有不同精度的时间戳
  • [ ​​SPARK-24774​​ ] - 支持读取AVRO逻辑类型 - 十进制
  • [ ​​SPARK-24776​​ ] - AVRO单元测试:使用SQLTestUtils和Replace弃用方法
  • [ ​​SPARK-24777​​ ] - 为AVRO添加写入基准
  • [ ​​SPARK-24800​​ ] - 重构Avro串行器和解串器
  • [ ​​SPARK-24805​​ ] - 默认情况下,不要忽略没有.avro扩展名的文件
  • [ ​​SPARK-24810​​ ] - 修复AvroSuite中资源文件的路径
  • [ ​​SPARK-​​ 24811] - 添加函数`from_avro`和`to_avro`
  • [ ​​SPARK-24836​​ ] - 新选项 - ignoreExtension
  • [ ​​SPARK-24854​​ ] - 将所有选项收集到AvroOptions中
  • [ ​​SPARK-24876​​ ] - 简化架构序列化
  • [ ​​SPARK-24881​​​ ] - 新选项 - 压缩和压缩​​级别​​
  • [ ​​SPARK-24883​​ ] - 删除隐式类AvroDataFrameWriter / AvroDataFrameReader
  • [ ​​SPARK-24887​​ ] - 在Spark util中使用SerializableConfiguration
  • [ ​​SPARK-24924​​ ] - 为内置Avro数据源添加映射
  • [ ​​SPARK-24967​​ ] - 使用internal.Logging代替记录
  • [ ​​SPARK-24971​​ ] - 删除SupportsDeprecatedScanRow
  • [ ​​SPARK-24976​​ ] - 允许十进制类型转换无(特定于PyArrow 0.9.0)
  • [ ​​SPARK-24990​​ ] - 合并ReadSupport和ReadSupportWithSchema
  • [ ​​SPARK-24991​​ ] - 在DataSourceWriter中使用InternalRow
  • [ ​​SPARK-25002​​ ] - Avro:修改输出记录名称空间
  • [ ​​SPARK-25007​​ ] - 将array_intersect / array_except / array_union / array_shuffle添加到SparkR
  • [ ​​SPARK-25029​​ ] - Scala 2.12问题:TaskNotSerializable和Janino“两个非抽象方法......”错误
  • [ ​​SPARK-25044​​ ] - 在Scala 2.12中将LMF闭包原语args的地址转换为Object
  • [ ​​SPARK-25047​​ ] - 在BucketedRandomProjectionLSHModel的反序列化中无法将SerializedLambda分配给scala.Function1
  • [ ​​SPARK-25068​​ ] - 高阶函数:存在(数组<T>,函数<T,布尔值>)→布尔值
  • [ ​​SPARK-25099​​ ] - 在测试套件中生成Avro二进制文件
  • [ ​​SPARK-25104​​ ] - 验证用户指定的输出模式
  • [ ​​SPARK-25127​​ ] - DataSourceV2:删除SupportsPushDownCatalystFilters
  • [ ​​SPARK-25133​​ ] - Documentaion:AVRO数据源指南
  • [ ​​SPARK-25160​​ ] - 删除sql配置spark.sql.avro.outputTimestampType
  • [ ​​SPARK-25179​​ ] - 记录需要Pyarrow 0.10的功能
  • [ ​​SPARK-25207​​ ] - 读取Parquet时滤波器下推的不区分大小写字段分辨率
  • [ ​​SPARK-25256​​ ] - 计划2.12中Hive测试中的不匹配错误
  • [ ​​SPARK-25298​​ ] - Scala 2.12的spark-tools构建失败
  • [ ​​SPARK-25304​​ ] - 为Scala 2.12启用HiveSparkSubmitSuite SPARK-8489测试
  • [ ​​SPARK-25320​​ ] - ML,图2.4 QA:API:二进制不兼容的更改
  • [ ​​SPARK-25321​​ ] - ML,图2.4 QA:API:新的Scala API,docs
  • [ ​​SPARK-25324​​ ] - ML 2.4 QA:API:Java兼容性,文档
  • [ ​​SPARK-25328​​ ] - 添加一个示例,将两列作为组聚合pandas UDF中的分组键
  • [ ​​SPARK-25337​​ ] - HiveExternalCatalogVersionsSuite + Scala 2.12 = NoSuchMethodError:org.apache.spark.sql.execution.datasources.FileFormat。$ init $(Lorg / apache / spark / sql / execution / datasources / FileFormat;)
  • [ ​​SPARK-25460​​ ] - DataSourceV2:结构化流媒体不尊重SessionConfigSupport
  • [ ​​SPARK-25601​​ ] - 为SQL语句注册Grouped聚合UDF向量化UDF
  • [ ​​SPARK-25690​​ ] - 分析器规则“HandleNullInputsForUDF”不稳定,可以无限应用
  • [ ​​SPARK-25718​​ ] - 检测Avro架构中的递归引用并抛出异常
  • [ ​​SPARK-25842​​ ] - 弃用SPARK-21608中引入的API

Bug

  • [ ​​SPARK-6951​​ ] - 如果事件日志目录很大,则历史服务器启动缓慢
  • [ ​​SPARK-10878​​ ] - 通过Ivy解决Maven坐标时的竞争条件
  • [ ​​SPARK-15125​​ ] - CSV数据源将输入中的空引用字符串识别为空。
  • [ ​​SPARK-15750​​ ] - 在pyspark中未指定numPartitions时,构造FPGrowth失败
  • [ ​​SPARK-16451​​ ] - 当“SaslException:GSS启动失败”被击中时,Spark-shell / pyspark应该正常完成
  • [ ​​SPARK-17088​​ ] - 当sharesHadoopClasses为false时,IsolatedClientLoader无法加载Hive客户端
  • [ ​​SPARK-17147​​ ] - Spark Streaming Kafka 0.10 Consumer无法处理非连续偏移(即Log Compaction)
  • [ ​​SPARK-17166​​ ] - 转换为数据源表后,CTAS丢失了表属性。
  • [ ​​SPARK-17756​​ ] - 使用带有DStream.transform的笛卡儿时的java.lang.ClassCastException
  • [ ​​SPARK-17916​​ ] - 无论nullValue选项是什么,CSV数据源都将空字符串视为空
  • [ ​​SPARK-18371​​​ ] - Spark Streaming ​​backpressure​​ bug - 生成一个包含大量记录的批处理
  • [ ​​SPARK-18630​​ ] - PySpark ML内存泄漏
  • [ ​​SPARK-19181​​ ] - 当average executorDeserializeTime太短时,SparkListenerSuite.local指标失败。
  • [ ​​SPARK-19185​​ ] - 窗口化时与CachedKafkaConsumers的ConcurrentModificationExceptions
  • [ ​​SPARK-19613​​ ] - 片状测试:StateStoreRDDSuite
  • [ ​​SPARK-20947​​ ] - PySpark管道实现中的编码/解码问题
  • [ ​​SPARK-21168​​ ] - KafkaRDD应该始终设置kafka clientId。
  • [ ​​SPARK-21402​​ ] - 修复结构反序列化的java数组
  • [ ​​SPARK-21479​​ ] - 当条件位于其中一个连接列上时,外部连接过滤器下推空值提供表
  • [ ​​SPARK-21525​​ ] - ReceiverSupervisorImpl在写入WAL时似乎忽略了错误代码
  • [ ​​SPARK-21673​​ ] - 未正确设置Spark本地目录
  • [ ​​SPARK-21685​​ ] - 在pyspark中由_setDefault触发的scala变换器中的Params设置
  • [ ​​SPARK-21743​​ ] - 最高限制不应导致内存泄漏
  • [ ​​SPARK-21811​​ ] - 查找DateType,StringType和NumericType组合的最广泛常见类型时的不一致
  • [ ​​SPARK-21896​​ ] - 当窗口函数嵌套在聚合函数内时,Stack Overflow
  • [ ​​SPARK-21945​​ ] - pyspark --py-files在纱线客户端模式下不起作用
  • [ ​​SPARK-22151​​ ] - 未正确从spark.yarn.appMasterEnv中拾取PYTHONPATH
  • [ ​​SPARK-22279​​ ] - 默认打开spark.sql.hive.convertMetastoreOrc
  • [ ​​SPARK-22297​​ ] - Flaky测试:BlockManagerSuite“Shuffle registration timeout和maxAttempts conf”
  • [ ​​SPARK-22357​​ ] - SparkContext.binaryFiles忽略minPartitions参数
  • [ ​​SPARK-22371​​ ] - dag-scheduler-event-loop线程因错误而停止尝试访问垃圾回收累加器5605982
  • [ ​​SPARK-22384​​ ] - 在Cast中包含属性时优化分区修剪
  • [ ​​SPARK-22430​​ ] - 使用Roxygen 6.0.1构建R docs时出现未知标记警告
  • [ ​​SPARK-22577​​ ] - 执行程序页面黑名单状态应使用TaskSet级别黑名单进行更新
  • [ ​​SPARK-22676​​ ] - 当spark.sql.hive.verifyPartitionPath = true时,避免迭代所有分区路径
  • [ ​​SPARK-22713​​​ ] - 由​​TaskMemoryManager中​​的内存争用和内存泄漏引起的OOM
  • [ ​​SPARK-22809​​ ] - pyspark对带点的进口很敏感
  • [ ​​SPARK-22949​​ ] - 降低TrainValidationSplit的内存要求
  • [ ​​SPARK-22968​​ ] - java.lang.IllegalStateException:没有分区kssh-2的当前分配
  • [ ​​SPARK-22974​​ ] - CountVectorModel不会将属性附加到输出列
  • [ ​​SPARK-23004​​ ] - 结构化流引发“llegalStateException:在已经提交或中止后无法删除”
  • [ ​​SPARK-23007​​ ] - 为基于文件的数据源添加模式演化测试套件
  • [ ​​SPARK-23020​​​ ] - 重新启用​​Flaky​​ Test:org.apache.spark.launcher.SparkLauncherSuite.testInProcessLauncher
  • [ ​​SPARK-23028​​ ] - 将主分支版本转换为2.4.0-SNAPSHOT
  • [ ​​SPARK-23038​​ ] - 更新docker / spark-test(JDK / OS)
  • [ ​​SPARK-23042​​ ] - 使用OneHotEncoderModel对MultilayerPerceptronClassifier中的标签进行编码
  • [ ​​SPARK-23044​​ ] - 合并脚本在将jiras分配给非贡献者时有错误
  • [ ​​SPARK-23059​​ ] - 使用与视图相关的方法用法纠正一些不当行为
  • [ ​​SPARK-23088​​ ] - 历史记录服务器未显示不完整/正在运行的应用程序
  • [ ​​SPARK-23094​​ ] - 当存在错误记录并且失败时,Json读者选择错误的编码
  • [ ​​SPARK-23152​​ ] - org.apache.spark.ml.classification.Classifier中的保护条件无效
  • [ ​​SPARK-​​ 23173] - from_json可以为标记为不可为空的字段生成空值
  • [ ​​SPARK-23189​​ ] - 反映执行者选项卡上的阶段级别黑名单
  • [ ​​SPARK-23200​​ ] - 从检查点重新启动时重置配置
  • [ ​​SPARK-​​ 23240] - 当pyspark.daemon产生伪造的stdout时,PythonWorkerFactory发出无用的消息
  • [ ​​SPARK-23243​​ ] - 在RDD上随机播放+重新分区可能导致错误答案
  • [ ​​SPARK-23271​​ ] - 空白DataFrame保存后,Parquet输出仅包含“_SUCCESS”文件
  • [ ​​SPARK-23288​​ ] - 结构化流式传输中写入记录的数量不正确
  • [ ​​SPARK-23291​​ ] - SparkR:substr:在SparkR数据帧中,当位置大于1时,“substr”中的起始和结束位置参数给出错误的结果
  • [ ​​SPARK-23306​​ ] - TaskMemoryManager中的竞争条件
  • [ ​​SPARK-23340​​ ] - 将Apache ORC升级到1.4.3
  • [ ​​SPARK-23355​​ ] - convertMetastore不应忽略表属性
  • [ ​​SPARK-23361​​ ] - 如果在应用提交后7天内发生驱动程序重启失败
  • [ ​​SPARK-23365​​​ ] - 在​​落后​​任务中失败的DynamicAllocation可能导致挂起的火花作业
  • [ ​​SPARK-23377​​ ] - Bucketizer具有多列持久性错误
  • [ ​​SPARK-23394​​ ] - 存储信息的缓存分区不考虑复制(但sc.getRDDStorageInfo确实如此)
  • [ ​​SPARK-23405​​ ] - 当一张小桌子半连接一张大桌子时,任务将挂断
  • [ ​​SPARK-23406​​ ] - 流媒体自连接不起作用
  • [ ​​SPARK-23408​​ ] - 片状测试:StreamingOuterJoinSuite.left外部早期状态排除在右侧
  • [ ​​SPARK-23415​​ ] - BufferHolderSparkSubmitSuite是片状的
  • [ ​​SPARK-23416​​ ] - Flaky测试:KafkaSourceStressForDontFailOnDataLossSuite.stress测试failOnDataLoss = false
  • [ ​​SPARK-23417​​ ] - pyspark测试给出错误的sbt指令
  • [ ​​SPARK-23425​​ ] - 使用通配符使用的hdfs文件路径的加载数据无法正常工作
  • [ ​​SPARK-23433​​ ] - java.lang.IllegalStateException:阶段的多个活动taskSet
  • [ ​​SPARK-23434​​ ] - Spark不应警告“元数据目录”以获取HDFS文件路径
  • [ ​​SPARK-23436​​ ] - 不正确的日期列分区发现中的推断
  • [ ​​SPARK-23438​​ ] - 当驱动程序崩溃时,DStreams可能会在启用WAL时丢失块
  • [ ​​SPARK-23449​​ ] - 在Docker上下文中,额外的java选项会丢失顺序
  • [ ​​SPARK-23457​​ ] - 首先为ParquetFileFormat注册任务完成侦听器
  • [ ​​SPARK-23459​​ ] - 在分区列中指定未知列时改进错误消息
  • [ ​​SPARK-23461​​ ] - 小插曲应包括某些ML模型的模型预测
  • [ ​​SPARK-23462​​ ] - 改进`StructType`中的错误消息
  • [ ​​SPARK-23476​​ ] - Spark无法在本地模式下启动并启用身份验证
  • [ ​​SPARK-23486​​ ] - LookupFunctions不应多次检查相同的函数名称
  • [ ​​SPARK-23489​​ ] - 片状测试:HiveExternalCatalogVersionsSuite
  • [ ​​SPARK-23490​​ ] - 使用CreateTable中的现有表检查storage.locationUri
  • [ ​​SPARK-23496​​ ] - 合并分区的位置可能会因输入分区的顺序而严重偏斜
  • [ ​​SPARK-​​ 23508] - BlockManagerId中的blockManagerIdCache可能会导致oom
  • [ ​​SPARK-23514​​ ] - 用spark.sessionState.newHadoopConf()替换spark.sparkContext.hadoopConfiguration
  • [ ​​SPARK-23522​​ ] - pyspark应该始终使用sys.exit而不是退出
  • [ ​​SPARK-23523​​ ] - 规则OptimizeMetadataOnlyQuery导致的结果不正确
  • [ ​​SPARK-23524​​ ] - 不应检查大型本地随机块是否存在损坏。
  • [ ​​SPARK-23525​​ ] - ALTER TABLE CHANGE COLUMN不适用于外部蜂巢表
  • [ ​​SPARK-23547​​ ] - 在Hive会话关闭时清除.pipeout文件
  • [ ​​SPARK-23549​​ ] - 将timestamp与日期进行比较时,Spark SQL意外行为
  • [ ​​SPARK-23551​​ ] - 从`orc-mapreduce中排除`hadoop-mapreduce-client-core`依赖项
  • [ ​​SPARK-23569​​ ] - pandas_udf不适用于带类型注释的python函数
  • [ ​​SPARK-23570​​ ] - 在HiveExternalCatalogVersionsSuite中添加Spark-2.3
  • [ ​​SPARK-23574​​ ] - 数据源V2扫描中的SinglePartition
  • [ ​​SPARK-​​ 23598] - WholeStageCodegen可能导致IllegalAccessError调用追加HashAggregateExec
  • [ ​​SPARK-23599​​ ] - UUID()表达式过于不确定
  • [ ​​SPARK-​​ 23602] - PrintToStderr在解释模式下的行为应相同
  • [ ​​SPARK-23608​​ ] - SHS需要attachSparkUI和detachSparkUI函数之间的同步
  • [ ​​SPARK-23614​​ ] - 使用缓存时,Union会产生不正确的结果
  • [ ​​SPARK-23618​​ ] - 建立图像时,docker-image-tool.sh失败
  • [ ​​SPARK-23620​​ ] - 使用br标签拆分线程转储线
  • [ ​​SPARK-23623​​ ] - 避免在CachedKafkaConsumer中同时使用缓存的KafkaConsumer(kafka-0-10-sql)
  • [ ​​SPARK-23630​​ ] - Spark-on-YARN缺少hadoop配置的用户自定义
  • [ ​​SPARK-23635​​ ] - Spark执行器env变量被同名AM env变量覆盖
  • [ ​​SPARK-23637​​ ] - 如果同一个执行者被多次杀死,纱线可能会分配更多资源。
  • [ ​​SPARK-23639​​ ] - 使用代理用户时,SparkSQL CLI无法与Kerberized Metastore通信
  • [ ​​SPARK-23640​​ ] - Hadoop配置可能会覆盖spark配置
  • [ ​​SPARK-23649​​ ] - 某些UTF-8字符上的CSV架构推断失败
  • [ ​​SPARK-23658​​ ] - InProcessAppHandle在getLogger中使用了错误的类
  • [ ​​SPARK-23660​​ ] - 当应用程序很小时,Yarn在群集模式下抛出异常
  • [ ​​SPARK-23666​​ ] - 带有UDF的不确定列名
  • [ ​​SPARK-23670​​ ] - sparkUI中SparkPlanGraphWrapper的内存泄漏
  • [ ​​SPARK-23671​​ ] - SHS忽略了重播线程的数量
  • [ ​​SPARK-23679​​ ] - 在YARN上运行时,uiWebUrl显示不正确的URL
  • [ ​​SPARK-23680​​ ] - entrypoint.sh不接受任意UID,作为错误返回
  • [ ​​SPARK-23697​​ ] - Spark 1.x的累加器不再适用于Spark 2.x.
  • [ ​​SPARK-23698​​ ] - Spark代码在Python 3中包含许多未定义的名称
  • [ ​​SPARK-23729​​​ ] - ​​全局​​解析会破坏文件/档案的远程命名
  • [ ​​SPARK-23731​​ ] - FileSourceScanExec在子表达式消除中抛出NullPointerException
  • [ ​​SPARK-23732​​ ] - Spark Scala api Scaladoc中scala源代码的断开链接
  • [ ​​SPARK-23743​​ ] - IsolatedClientLoader.isSharedClass对`slf4j`关键字返回一个未缩进的结果
  • [ ​​SPARK-23754​​ ] - Python UDF中的StopIterator异常导致部分结果
  • [ ​​SPARK-23759​​ ] - 无法将Spark UI绑定到特定主机名/ IP
  • [ ​​SPARK-23760​​ ] - CodegenContext.withSubExprEliminationExprs应正确保存/恢复CSE状态
  • [ ​​SPARK-23775​​ ] - Flaky测试:DataFrameRangeSuite
  • [ ​​SPARK-23778​​ ] - SparkContext.emptyRDD混淆了SparkContext.union
  • [ ​​SPARK-23780​​ ] - 无法将googleVis库与新SparkR一起使用
  • [ ​​SPARK-23785​​ ] - LauncherBackend在设置状态之前不检查连接状态
  • [ ​​SPARK-23786​​ ] - CSV架构验证 - 不检查列名称
  • [ ​​SPARK-23787​​ ] - SparkSubmitSuite ::“如果纱线不支持则下载远程资源”在Hadoop 2.9上失败
  • [ ​​SPARK-23788​​ ] - StreamingQuerySuite中的竞争条件
  • [ ​​SPARK-23794​​ ] - UUID()应该是有状态的
  • [ ​​SPARK-23799​​ ] - [CBO] FilterEstimation.evaluateInSet在空表的情况下产生零除数,并带有分析的统计数据
  • [ ​​SPARK-23802​​ ] - PropagateEmptyRelation可以使查询计划处于未解决状态
  • [ ​​SPARK-23806​​ ] - 广播。与动态分配一起使用时,unpersist可能会导致致命异常
  • [ ​​SPARK-23808​​ ] - 测试火花会话应设置默认会话
  • [ ​​SPARK-23809​​ ] - 应该通过getOrCreate设置Active SparkSession
  • [ ​​SPARK-23815​​ ] - Spark编写器动态分区覆盖模式无法在多级分区上写入输出
  • [ ​​SPARK-23816​​ ] - 杀死推测任务时的FetchFailedException
  • [ ​​SPARK-23823​​ ] - ResolveReferences失去了正确的来源
  • [ ​​SPARK-23825​​ ] - [K8s] Spark pod应该请求内存+ memoryOverhead作为资源
  • [ ​​SPARK-23827​​ ] - StreamingJoinExec应确保输入数据被分区为特定数量的分区
  • [ ​​SPARK-23834​​​ ] - ​​Flaky​​测试:LauncherServerSuite.testAppHandleDisconnect
  • [ ​​SPARK-23835​​ ] - 当Dataset.as将列从可空类型转换为非可空类型时,null双打将以静默方式转换为-1
  • [ ​​SPARK-23850​​ ] - 默认情况下,我们不应该从UI编辑用户名|用户| url
  • [ ​​SPARK-23852​​ ] - Parquet MR错误可导致错误的SQL结果
  • [ ​​SPARK-23853​​ ] - 跳过需要在PySpark中构建的hive支持的doctests
  • [ ​​SPARK-23857​​ ] - 在mesos集群模式下,spark submit要求keytab在本地文件系统上可用。
  • [ ​​SPARK-23868​​ ] - 修复literals.sql.out中的scala.MatchError
  • [ ​​SPARK-23882​​ ] - 是否支持UTF8StringSuite.writeToOutputStreamUnderflow()?
  • [ ​​SPARK-23888​​ ] - 推测任务不应该在已经运行另一次尝试的给定主机上运行
  • [ ​​SPARK-23893​​ ] - long = int * int可能溢出
  • [ ​​SPARK-23941​​ ] - 特定火花应用名称上的Mesos任务失败
  • [ ​​SPARK-23951​​ ] - 使用ExprValue中的java分类并简化一堆内容
  • [ ​​SPARK-23971​​ ] - 不应在测试套件中泄漏Spark会话
  • [ ​​SPARK-23975​​​ ] - 允许群集将双数组作为输入​​要素​​
  • [ ​​SPARK-23976​​ ] - UTF8String.concat()或ByteArray.concat()可能会分配更短的结构。
  • [ ​​SPARK-23986​​ ] - 加入后使用过多avg聚合时出现CompileException
  • [ ​​SPARK-23989​​ ] - 使用`SortShuffleWriter`时,数据将被覆盖
  • [ ​​SPARK-23991​​ ] - allocateBlocksToBatch时数据丢失
  • [ ​​SPARK-23997​​ ] - 可配置的最大桶数
  • [ ​​SPARK-24002​​ ] - 由org.apache.parquet.io.api.Binary $ ByteBufferBackedBinary.getBytes引起的任务不可序列化
  • [ ​​SPARK-24007​​ ] - FloatType和DoubleType的EqualNullSafe可能会由codegen生成错误的结果。
  • [ ​​SPARK-24012​​ ] - 联盟地图和其他兼容专栏
  • [ ​​SPARK-24013​​ ] - ApproximatePercentile在排序输入上停止研磨。
  • [ ​​SPARK-24021​​ ] - 修复BlacklistTracker的updateBlacklistForFetchFailure中的错误
  • [ ​​SPARK-24022​​ ] - Flaky测试:SparkContextSuite
  • [ ​​SPARK-24033​​ ] - 在Spark 2.3中破坏了LAG窗口功能
  • [ ​​SPARK-24043​​ ] - 如果表达式树包含非确定性表达式,则InterpretedPredicate.eval失败
  • [ ​​SPARK-24050​​ ] - StreamingQuery在某些情况下不计算输入/处理速率
  • [ ​​SPARK-24056​​​ ] - 在结构化流媒体的Kafka源​​中使​​​消费者创建​​变得​​懒惰
  • [ ​​SPARK-24061​​ ] - 连续处理不支持[SS] TypedFilter
  • [ ​​SPARK-24062​​ ] - 无法在ThriftServer中使用SASL加密
  • [ ​​SPARK-24068​​ ] - CSV架构推断不适用于压缩文件
  • [ ​​SPARK-24076​​ ] - 当shuffle.partition = 8192时性能非常糟糕
  • [ ​​SPARK-24085​​​ ] - 标​​量子​​查询错误
  • [ ​​SPARK-24104​​ ] - SQLAppStatusListener会覆盖onDriverAccumUpdates上的指标而不是更新它们
  • [ ​​SPARK-24107​​ ] - ChunkedByteBuffer.writeFully方法未重置限制值
  • [ ​​SPARK-24108​​ ] - ChunkedByteBuffer.writeFully方法未重置限制值
  • [ ​​SPARK-24110​​ ] - 避免在ThriftServer中调用UGI loginUserFromKeytab
  • [ ​​SPARK-24123​​ ] - 修复一个片状测试`DateTimeUtilsSuite.monthsBetween`
  • [ ​​SPARK-24133​​ ] - 读取包含大字符串的Parquet文件可能会因java.lang.ArrayIndexOutOfBoundsException而失败
  • [ ​​SPARK-24137​​ ] - [K8s]在emptydir卷中挂载临时目录
  • [ ​​SPARK-24141​​ ] - 修复CoarseGrainedSchedulerBackend.killExecutors中的错误
  • [ ​​SPARK-24143​​ ] - 将mapstatus转换为(blockId,size)对时过滤空块
  • [ ​​SPARK-24151​​ ] - CURRENT_DATE,CURRENT_TIMESTAMP在启用caseSensitive时错误地解析为列名
  • [ ​​SPARK-24165​​ ] - when()中的UDF。否则()引发NullPointerException
  • [ ​​SPARK-24166​​ ] - InMemoryTableScanExec不应在执行者端访问SQLConf
  • [ ​​SPARK-24167​​ ] - ParquetFilters不应在执行方访问SQLConf
  • [ ​​SPARK-24168​​ ] - WindowExec不应在执行方访问SQLConf
  • [ ​​SPARK-24169​​ ] - JsonToStructs不应在执行者端访问SQLConf
  • [ ​​SPARK-24190​​ ] - JSON写入中不需要lineSep
  • [ ​​SPARK-24195​​ ] - sc.addFile for local:/ path已损坏
  • [ ​​SPARK-24214​​ ] - StreamingRelationV2 / StreamingExecutionRelation / ContinuousExecutionRelation.toJSON不应该失败
  • [ ​​SPARK-24216​​ ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
  • [ ​​SPARK-24228​​ ] - 修复棉绒错误
  • [ ​​SPARK-24230​​ ] - Parquet 1.10升级在矢量化阅读器中出错
  • [ ​​SPARK-24241​​ ] - 使用0执行程序启用动态资源分配时,请勿快速失败
  • [ ​​SPARK-24255​​ ] - 在SparkR描述中需要Java 8
  • [ ​​SPARK-24257​​ ] - LongToUnsafeRowMap计算新的大小可能是错误的
  • [ ​​SPARK-24259​​ ] - Arrow的ArrayWriter产生错误的输出
  • [ ​​SPARK-24263​​ ] - 关于openjdk的SparkR java check break
  • [ ​​SPARK-24276​​ ] - semanticHash()在语义上返回相同的IS IN的不同值
  • [ ​​SPARK-​​ 24294] - 在BroadcastExchangeExec中的OOM时抛出SparkException
  • [ ​​SPARK-24300​​ ] - ml.cluster.LDASuite中的generateLDAData没有正确设置种子
  • [ ​​SPARK-24309​​ ] - AsyncEventQueue应该处理来自监听器的中断
  • [ ​​SPARK-24313​​ ] - 集合函数解释执行不适用于复杂类型
  • [ ​​SPARK-24319​​ ] - 运行示例无法打印使用情况
  • [ ​​SPARK-24322​​ ] - 将Apache ORC升级到1.4.4
  • [ ​​SPARK-24341​​ ] - 来自谓词子查询的Codegen编译错误
  • [ ​​SPARK-24348​​ ] - “element_at”表达式中的scala.MatchError
  • [ ​​SPARK-24350​​ ] - “array_position”函数中的ClassCastException
  • [ ​​SPARK-24351​​ ] - offsetLog / commitLog purge thresholdBatchId应使用当前提交的纪元计算,但不能用CP模式中的currentBatchId计算
  • [ ​​SPARK-24364​​ ] - globbing后删除文件可能会使StructuredStreaming作业失败
  • [ ​​SPARK-24368​​ ] - 片状测试:org.apache.spark.sql.execution.datasources.csv.UnivocityParserSuite
  • [ ​​SPARK-24369​​ ] - 具有多个不同聚合时的错误
  • [ ​​SPARK-24373​​ ] - “重新分析计划后,当分析的计划不同时,”df.cache()df.count()“不再急切地缓存数据
  • [ ​​SPARK-24377​​ ] - 使--py-files在非pyspark应用程序中工作
  • [ ​​SPARK-24380​​ ] - 在mesos群集调度程序中引用/转义参数
  • [ ​​SPARK-24384​​ ] - 带有.py文件的spark-submit --py文件在上下文初始化之前无法在客户端模式下工作
  • [ ​​SPARK-24385​​​ ] - ​​Tridially​​ -true EqualNullSafe应该像Dataset.join中的EqualTo一样处理
  • [ ​​SPARK-24391​​ ] - from_json应该支持基元数组,更常见的是所有JSON
  • [ ​​SPARK-24414​​ ] - 阶段页面未显示失败时的所有任务尝试
  • [ ​​SPARK-24415​​ ] - 故障时阶段页面聚合执行程序指标错误
  • [ ​​SPARK-24416​​ ] - 更新spark.blacklist.killBlacklistedExecutors的配置定义
  • [ ​​SPARK-24446​​ ] - 带有特殊字符的库路径会在YARN上打破Spark
  • [ ​​SPARK-24452​​ ] - long = int * int或long = int + int可能导致溢出。
  • [ ​​SPARK-24453​​​ ] - 修复​​从无​​数据批处理中的故障中恢复的错误
  • [ ​​SPARK-24466​​ ] - TextSocketMicroBatchReader不再适用于nc实用程序
  • [ ​​SPARK-24468​​ ] - 当比例为负时,DecimalType“adjustPrecisionScale”可能会失败
  • [ ​​SPARK-24488​​ ] - 当发电机多次混叠时,分析器抛出
  • [ ​​SPARK-24495​​ ] - SortMergeJoin,重复键错误结果
  • [ ​​SPARK-24500​​ ] - 尝试使用Stream of Children执行Union计划时出现UnsupportedOperationException
  • [ ​​SPARK-24506​​ ] - Spark.ui.filters未应用于/ sqlserver / url
  • [ ​​SPARK-24520​​ ] - 链接中的双括号
  • [ ​​SPARK-24526​​ ] - 构建目录中的空格导致构建/ mvn脚本失败
  • [ ​​SPARK-24530​​ ] - Sphinx无法正确呈现autodoc_docstring_signature(使用Python 2?)而pyspark.ml文档已被破坏
  • [ ​​SPARK-24531​​ ] - 由于缺少2.2.0版本,HiveExternalCatalogVersionsSuite失败
  • [ ​​SPARK-24535​​ ] - 修复Windows上SparkR中的java版本解析
  • [ ​​SPARK-24536​​ ] - 使用无意义的LIMIT查询命中AssertionError
  • [ ​​SPARK-24548​​​ ] - ​​SPARK中的JavaPairRDD​​到数据集<Row>会产生不明确的结果
  • [ ​​SPARK-24552​​ ] - 重试阶段时重复使用任务尝试次数
  • [ ​​SPARK-24553​​ ] - 作业UI重定向导致http 302错误
  • [ ​​SPARK-24556​​ ] - 当子分区为RangePartitioning时,ReusedExchange也应该重写输出分区
  • [ ​​SPARK-24563​​ ] - 允许在没有Hive的情况下运行PySpark shell
  • [ ​​SPARK-24569​​ ] - 具有输出类型Option [Boolean]的Spark Aggregator创建Row类型的列
  • [ ​​SPARK-24573​​ ] - 影响构建的SBT Java checkstyle
  • [ ​​SPARK-24578​​ ] - 读取远程缓存块行为更改并导致超时问题
  • [ ​​SPARK-24583​​ ] - InsertIntoDataSourceCommand中的架构类型错误
  • [ ​​SPARK-24588​​ ] - StreamingSymmetricHashJoinExec应该要求儿童使用HashClusteredPartitioning
  • [ ​​SPARK-24589​​ ] - OutputCommitCoordinator可能允许重复提交
  • [ ​​SPARK-24594​​ ] - 介绍YARN执行程序分配问题的指标
  • [ ​​SPARK-24598​​ ] - SPARK SQL:数据类型溢出条件给出了错误的结果
  • [ ​​SPARK-24603​​ ] - Typo评论
  • [ ​​SPARK-24610​​ ] - 针对小文件打破的wholeTextFiles
  • [ ​​SPARK-24613​​ ] - 使用UDF的缓存无法与后续的依赖缓存匹配
  • [ ​​SPARK-24633​​ ] - arrays_zip函数的代码生成器错误地分割输入处理
  • [ ​​SPARK-24645​​ ] - 启用csvColumnPruning并仅扫描分区时跳过解析
  • [ ​​SPARK-24648​​ ] - SQLMetrics计数器不是线程安全的
  • [ ​​SPARK-24653​​ ] - 片状测试“JoinSuite.test SortMergeJoin(带溢出)”
  • [ ​​SPARK-24659​​ ] - GenericArrayData.equals应该尊重元素类型的差异
  • [ ​​SPARK-24660​​ ] - 下载日志时SHS未显示错误
  • [ ​​SPARK-24676​​ ] - 禁用csvColumnPruning时,解析数据中的项目所需数据
  • [ ​​SPARK-24677​​ ] - TaskSetManager不会为旧阶段尝试更新successfulTask​​Durations
  • [ ​​SPARK-24681​​ ] - 当嵌套列名包含':'时,无法从表创建视图
  • [ ​​SPARK-24694​​ ] - 集成测试只传递一个app参数
  • [ ​​SPARK-24698​​ ] - 在Pyspark的ML中,Identifiable的UID有20个随机字符,而不是文档中提到的12个。
  • [ ​​SPARK-24699​​ ] - 水印/追加模式应与Trigger.Once配合使用
  • [ ​​SPARK-24704​​ ] - DAG图表中的阶段顺序不正确
  • [ ​​SPARK-24705​​ ] - 启用Spark.sql.adaptive.enabled = true并启用自联接查询
  • [ ​​SPARK-24711​​ ] - 集成测试不适用于exclude / include标记
  • [ ​​SPARK-24713​​ ] - 如果消耗了数百个主题,那么火花流kafka OOM的AppMatser
  • [ ​​SPARK-24715​​ ] - sbt build带来了错误的jline版本
  • [ ​​SPARK-24717​​ ] - 在HDFSBackedStateStoreProvider中拆分min保留内存状态的内存
  • [ ​​SPARK-24721​​ ] - 无法在带有数据源的过滤器中使用带有文字输入的PythonUDF
  • [ ​​SPARK-24734​​ ] - 修复了包含阵列类型的ConcatNull。
  • [ ​​SPARK-24739​​ ] - PySpark不适用于Python 3.7.0
  • [ ​​SPARK-24742​​ ] - 字段元数据在hashCode方法中引发NullPointerException
  • [ ​​SPARK-24743​​ ] - 更新JavaDirectKafkaWordCount示例以支持Kafka的新API
  • [ ​​SPARK-24749​​ ] - 无法使用named_struct过滤数组<struct>
  • [ ​​SPARK-24754​​ ] - Minhash整数溢出
  • [ ​​SPARK-24755​​ ] - 执行程序丢失可能导致任务无法重新提交
  • [ ​​SPARK-24781​​ ] - 在过滤/排序中使用数据集中的引用可能不起作用。
  • [ ​​SPARK-24787​​ ] - 由于事件记录的hsync缓慢,事件以惊人的速度被丢弃
  • [ ​​SPARK-24788​​ ] - 在UnresolvedAttribute分组时,RelationalGroupedDataset.toString会抛出错误
  • [ ​​SPARK-24804​​​ ] - ​​DatasetSuite​​的标题中有重复的单词
  • [ ​​SPARK-​​ 24809] - 在执行程序中序列化LongHashedRelation可能会导致数据错误
  • [ ​​SPARK-24812​​ ] - 表格描述中的上次访问时间无效
  • [ ​​SPARK-24813​​ ] - HiveExternalCatalogVersionsSuite仍然片状; 回归Apache档案
  • [ ​​SPARK-24829​​ ] - 在Spark Thrift Server中,CAST AS FLOAT与spark-shell或spark-sql不一致
  • [ ​​SPARK-24846​​ ] - 稳定表达能量化
  • [ ​​SPARK-24850​​ ] - 查询计划字符串表示在具有递归缓存数据集的查询上呈指数增长
  • [ ​​SPARK-24870​​ ] - 如果SQL中有大小写字母,则缓存无法正常工作
  • [ ​​SPARK-24873​​ ] - 增加切换以屏蔽与纱线的频繁交互报告
  • [ ​​SPARK-24878​​ ] - 修复包含null的基本类型的数组类型的反向函数。
  • [ ​​SPARK-24879​​ ] - 用于`partCol IN(NULL,....)的Hive分区过滤器下推中的NPE
  • [ ​​SPARK-24880​​ ] - 修复spark-kubernetes-integration-tests的组ID
  • [ ​​SPARK-24889​​ ] - dataset.unpersist()不更新存储内存统计信息
  • [ ​​SPARK-24891​​ ] - 修复HandleNullInputsForUDF规则
  • [ ​​SPARK-24895​​ ] - Spark 2.4.0由于文件名不匹配,快照工件已破坏元数据
  • [ ​​SPARK-24896​​ ] - Uuid表达式应该在流式查询下的每次执行中产生不同的值
  • [ ​​SPARK-24908​​ ] - [R]删除空格以使得快乐
  • [ ​​SPARK-24909​​ ] - 当获取失败,执行程序丢失,丢失执行程序上的任务运行以及多个阶段尝试时,Spark调度程序可能会挂起
  • [ ​​SPARK-24911​​ ] - SHOW CREATE TABLE删除嵌套列名称的转义
  • [ ​​SPARK-24919​​ ] - sparkContext.hadoopConfiguration的Scala linter规则
  • [ ​​SPARK-24927​​ ] - hadoop提供的配置文件与Snappy压缩的Parquet文件不兼容
  • [ ​​SPARK-24934​​ ] - 由于缺少上/下限情况,内存中分区修剪中的复杂类型和二进制类型不起作用
  • [ ​​SPARK-24937​​ ] - 数据源分区表应加载空的静态分区
  • [ ​​SPARK-24948​​ ] - 由于权限检查,SHS错误地过滤了某些应用程序
  • [ ​​SPARK-24950​​ ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失败w / java 8 181-b13
  • [ ​​SPARK-24957​​​ ] - 使用​​codegen​​,十进制算术可能导致错误的值
  • [ ​​SPARK-24963​​ ] - 如果集成测试在名称空间中运行而不是默认值,则集成测试将失败
  • [ ​​SPARK-24966​​ ] - 修复设置操作的优先规则。
  • [ ​​SPARK-24972​​ ] - PivotFirst无法处理复杂类型的枢轴列
  • [ ​​SPARK-24981​​ ] - 当用户程序未调用SparkContext stop()时,ShutdownHook超时导致作业失败
  • [ ​​SPARK-24987​​ ] - Kafka缓存的消费者泄漏文件描述符
  • [ ​​SPARK-24997​​ ] - 支持MINUS ALL
  • [ ​​SPARK-25004​​ ] - 添加spark.executor.pyspark.memory配置以设置resource.RLIMIT_AS
  • [ ​​SPARK-25005​​ ] - 结构化流媒体不支持kafka事务(使用中止和标记创建空偏移)
  • [ ​​SPARK-25009​​ ] - 独立群集模式应用程序提交无效
  • [ ​​SPARK-25010​​ ] - Rand / Randn应为流式查询中的每次执行生成不同的值
  • [ ​​SPARK-25011​​ ] - 在fpm.py中将PrefixSpan添加到__all__
  • [ ​​SPARK-25019​​ ] - 发布的spark sql pom不排除正常版本的orc-core
  • [ ​​SPARK-25021​​ ] - 为Kubernetes添加spark.executor.pyspark.memory支持
  • [ ​​SPARK-25028​​ ] - 如果值为null,则AnalyzePartitionCommand因NPE失败
  • [ ​​SPARK-25031​​ ] - 无法正确打印MapType架构
  • [ ​​SPARK-25033​​ ] - Bump Apache commons。{httpclient,httpcore}
  • [ ​​SPARK-25036​​ ] - Scala 2.12问题:与sbt的编译错误
  • [ ​​SPARK-25041​​ ] - 在scala-2.12中找不到sbt的genjavadoc-plugin_0.10
  • [ ​​SPARK-25046​​ ] - Alter View可以执行“ALTER VIEW ... AS INSERT INTO”之类的sql
  • [ ​​SPARK-25058​​ ] - 使用Block.isEmpty / nonEmpty检查代码是否为空。
  • [ ​​SPARK-25072​​ ] - PySpark自定义Row类可以给出额外的参数
  • [ ​​SPARK-25076​​ ] - 不应从已停止的SparkSession中检索SQLConf
  • [ ​​SPARK-25081​​​ ] - ​​ShuffleExternalSorter中的​​嵌套溢出可能会访问已释放的内存页面
  • [ ​​SPARK-25084​​ ] - 在多列上“分发”可能会导致代码问题
  • [ ​​SPARK-25090​​ ] - 使用CrossValidator时的java.lang.ClassCastException
  • [ ​​SPARK-25092​​ ] - 在nonExcludableRules列表中添加RewriteExceptAll,RewriteIntersectAll和RewriteCorrelatedScalarSubquery
  • [ ​​SPARK-25096​​​ ] - 如果施法可强制作用,则​​放松​​可空性。
  • [ ​​SPARK-25114​​ ] - 当两个单词之间的减法可被Integer.MAX_VALUE整除时,RecordBinaryComparator可能会返回错误的结果
  • [ ​​SPARK-25116​​ ] - 终止Kafka测试时修复“退出代码1”错误
  • [ ​​SPARK-25124​​ ] - VectorSizeHint.size是错误的,打破了流媒体管道
  • [ ​​SPARK-25126​​ ] - 避免为所有orc文件创建OrcFile.Reader
  • [ ​​SPARK-25132​​ ] - 从Parquet读取时不区分大小写的字段分辨率
  • [ ​​SPARK-25134​​ ] - 检查标题的Csv列修剪会引发错误的错误
  • [ ​​SPARK-25137​​ ] - 从Mac终端启动spark-shell时的NumberFormatException`
  • [ ​​SPARK-25149​​ ] - 如果vertexID> MaxInt,则个性化PageRank会引发错误
  • [ ​​SPARK-25159​​ ] - json模式推断应该只触发一个作业
  • [ ​​SPARK-25161​​ ] - 修复了屏障执行模式故障处理中的几个错误
  • [ ​​SPARK-25163​​ ] - 片状测试:oasutil.collection.ExternalAppendOnlyMapSuite.spilling with compression
  • [ ​​SPARK-25164​​ ] - Parquet阅读器为每列构建一次完整的列列表
  • [ ​​SPARK-25167​​ ] - R sql测试的小修复(在开发环境中失败的测试)
  • [ ​​SPARK-25174​​ ] - 当从RM取消注册时,ApplicationMaster会暂停,并具有极大的诊断消息
  • [ ​​SPARK-25175​​ ] - 如果ORC原生阅读器存在歧义,则场分辨率应该失败
  • [ ​​SPARK-25176​​ ] - Kryo无法序列化参数化类型层次结构
  • [ ​​SPARK-25181​​ ] - 块管理器主从线程池无限制
  • [ ​​SPARK-25183​​ ] - Spark HiveServer2使用JVM注册shutdown hook,而不是ShutdownHookManager; 竞争条件可能会出现
  • [ ​​SPARK-25204​​​ ] - 率源测试是​​不稳定的​​
  • [ ​​SPARK-25205​​ ] - spark.network.crypto.keyFactoryIteration中的拼写错误
  • [ ​​SPARK-25206​​ ] - 当Hive Metastore模式和镶木地板模式处于不同的字母情况时,会返回错误的记录
  • [ ​​SPARK-25214​​ ] - 当“failOnDataLoss”为“false”时,Kafka v2源可能会返回重复记录
  • [ ​​SPARK-25218​​ ] - TransportServer和SocketAuthHelper中潜在的资源泄漏
  • [ ​​SPARK-25221​​ ] - [DEPLOY]一致的尾随空格处理conf值
  • [ ​​SPARK-25231​​ ] - 运行大型作业并进行猜测导致执行器心跳超时在驱动程序上
  • [ ​​SPARK-25237​​ ] - 选择具有限制的数据源表时,FileScanRdd的inputMetrics错误
  • [ ​​SPARK-25240​​ ] - ALTER TABLE RECOVER PARTITIONS中的死锁
  • [ ​​SPARK-25264​​ ] - 修复传递给PythonRunner和RRunner的逗号描述的参数
  • [ ​​SPARK-25266​​ ] - 修复屏障执行模式下的内存泄漏
  • [ ​​SPARK-25268​​ ] - runParallelPersonalizedPageRank抛出序列化异常
  • [ ​​SPARK-25278​​ ] - 视图并集的输出行度量值乘以它们的出现次数
  • [ ​​SPARK-25283​​ ] - 在UnionRDD陷入僵局
  • [ ​​SPARK-25288​​​ ] - 卡夫卡交易测试很​​不稳定​​
  • [ ​​SPARK-25289​​ ] - 空集合中的ChiSqSelector max
  • [ ​​SPARK-25291​​ ] - 执行程序内存测试的片段性(SecretsTestSuite)
  • [ ​​SPARK-25295​​ ] - 如果之前的提交不是干净关闭,则Pod在客户端模式下命名冲突。
  • [ ​​SPARK-25306​​ ] - 避免使用倾斜的滤镜树来加速ORC中的“createFilter”
  • [ ​​SPARK-25307​​ ] - ArraySort函数可能在代码生成阶段返回错误。
  • [ ​​SPARK-25308​​​ ] - ​​ArrayContains​​函数可能会在代码生成阶段返回错误。
  • [ ​​SPARK-25310​​ ] - ArraysOverlap可能抛出CompileException
  • [ ​​SPARK-25313​​ ] - 修复FileFormatWriter输出模式中的回归
  • [ ​​SPARK-25314​​ ] - 无效的PythonUDF - 需要来自多个子节点的属性 - 处于“on”连接条件
  • [ ​​SPARK-​​ 25317] - MemoryBlock性能回归
  • [ ​​SPARK-25330​​ ] - 将hadoop版本升级到2.7.7后的权限问题
  • [ ​​SPARK-25352​​ ] - 当限制数量大于topKSortFallbackThreshold时,执行有序全局限制
  • [ ​​SPARK-25357​​ ] - 向SparkPlanInfo添加元数据以将更多信息(如文件路径)转储到事件日志
  • [ ​​SPARK-25363​​ ] - 如果在where子句中使用嵌套列,则模式修剪不起作用
  • [ ​​SPARK-25368​​ ] - 不正确的约束推断返回错误的结果
  • [ ​​SPARK-25371​​ ] - 没有输入列的矢量汇编程序导致不透明错误
  • [ ​​SPARK-25387​​ ] - 格式错误的CSV会导致NPE
  • [ ​​SPARK-25389​​ ] - INSERT OVERWRITE DIRECTORY STORED AS应防止重复字段
  • [ ​​SPARK-25398​​ ] - 比较不相关类型的小错误
  • [ ​​SPARK-25399​​ ] - 从微连续流的连续处理中重用执行线程可能导致正确性问题
  • [ ​​SPARK-25402​​ ] - BooleanSimplification中的空值处理
  • [ ​​SPARK-25406​​ ] - Parquet架构修剪测试套件中的withSQLConf方法的错误使用掩盖了测试失败
  • [ ​​SPARK-25416​​ ] - 当右表达式被隐式下调时,ArrayPosition函数可能返回不正确的结果。
  • [ ​​SPARK-25417​​​ ] - 当右表达式被隐式向下转换时,​​ArrayContains​​函数可能返回不正确的结果
  • [ ​​SPARK-25425​​ ] - 额外选项必须覆盖会话选项
  • [ ​​SPARK-25427​​ ] - 添加BloomFilter创建测试用例
  • [ ​​SPARK-25431​​ ] - 修复功能示例并统一示例结果的格式。
  • [ ​​SPARK-25438​​ ] - 修复FilterPushdownBenchmark以使用相同的内存假设
  • [ ​​SPARK-25439​​ ] - TPCHQuerySuite customer.c_nationkey应该是bigint而不是string
  • [ ​​SPARK-25443​​​ ] - 修复在​​docker中​​使用发布脚本构建文档时出现的问题
  • [ ​​SPARK-25450​​ ] - PushProjectThroughUnion规则对每个Union子项中的项目表达式使用相同的exprId,导致常量传播中的错误
  • [ ​​SPARK-25471​​ ] - 使用Pandas 0.23+修复Python 3.6的测试
  • [ ​​SPARK-25495​​ ] - FetchedData.reset不会重置_nextOffsetInFetchedData和_offsetAfterPoll
  • [ ​​SPARK-25502​​ ] - 当页码超过reatinedTask大小时,[Spark作业历史]空页面
  • [ ​​SPARK-25503​​ ] - [Spark作业历史]阶段页面中的总任务消息不明确
  • [ ​​SPARK-25505​​ ] - Pivot中分组列的输出顺序与输入顺序不同
  • [ ​​SPARK-25509​​ ] - 在Windows中无法启用SHS V2,因为不支持POSIX权限。
  • [ ​​SPARK-25519​​ ] - 当隐式降低右表达式时,ArrayRemove函数可能返回错误的结果。
  • [ ​​SPARK-25521​​ ] - 插入命令Job时,作业ID显示为空。
  • [ ​​SPARK-25522​​ ] - 改进elementAt函数输入参数的类型提升
  • [ ​​SPARK-25533​​ ] - 当作业失败时,JobUI中已完成作业的消息不一致,与spark2.2相比
  • [ ​​SPARK-25536​​ ] - executorSource.METRIC读取Executor.scala Line444中的错误记录
  • [ ​​SPARK-25538​​ ] - distinct()后的行数不正确
  • [ ​​SPARK-25542​​ ] - 片状测试:OpenHashMapSuite
  • [ ​​SPARK-25543​​ ] - 在K8s模式下以DEBUG级别混淆日志消息。
  • [ ​​SPARK-25546​​ ] - RDDInfo在初始化之前使用SparkEnv
  • [ ​​SPARK-25568​​ ] - 无法更新一个累加器时,继续更新剩余的累加器
  • [ ​​SPARK-25570​​ ] - 在HiveExternalCatalogVersionsSuite中将2.3.1替换为2.3.2
  • [ ​​SPARK-25572​​ ] - Java 10上的CRAN上的SparkR测试失败
  • [ ​​SPARK-25578​​ ] - 更新到Scala 2.12.7
  • [ ​​SPARK-25579​​ ] - 如果需要,则在推送的ORC谓词中使用带引号的属性名称
  • [ ​​SPARK-25591​​ ] - 具有多个PythonUDF的PySpark累加器
  • [ ​​SPARK-25602​​ ] - SparkPlan.getByteArrayRdd在不需要时不应使用输入
  • [ ​​SPARK-25636​​ ] - 当连接到主​​站时出错时,spark-submit会吞下失败原因
  • [ ​​SPARK-25644​​ ] - 修复java foreachBatch API
  • [ ​​SPARK-25646​​ ] - docker-image-tool.sh不适用于开发人员构建
  • [ ​​SPARK-25660​​ ] - 无法使用反斜杠作为CSV字段分隔符
  • [ ​​SPARK-25669​​ ] - 仅在存在时检查CSV标头
  • [ ​​SPARK-25671​​ ] - 在Jenkins Test中构建外部/ spark-ganglia-lgpl
  • [ ​​SPARK-25674​​ ] - 如果记录一次增加1个以上,则字节数可能很少更新
  • [ ​​SPARK-25677​​ ] - 在JDBC中配置zstd压缩抛出IllegalArgumentException异常
  • [ ​​SPARK-25697​​ ] - 当正在进行zstd压缩时,应用程序在UI中抛出错误
  • [ ​​SPARK-25704​​ ] - 由于配置默认配置错误,> 2GB块的复制失败
  • [ ​​SPARK-25708​​ ] - 没有GROUP BY的情况意味着全球汇总
  • [ ​​SPARK-25714​​ ] - 优化器规则BooleanSimplification中的空处理
  • [ ​​SPARK-25726​​ ] - Flaky测试:SaveIntoDataSourceCommandSuite .simpleString被编辑
  • [ ​​SPARK-25727​​ ] - 在InMemoryRelation中makeCopy失败
  • [ ​​SPARK-25738​​ ] - 如果hdfs conf包含端口,则LOAD DATA INPATH不起作用
  • [ ​​SPARK-25741​​ ] - 在Web UI中无法正确呈现长URL
  • [ ​​SPARK-25768​​ ] - 期望Hive UDAF的常量参数不起作用
  • [ ​​SPARK-25793​​ ] - 在BisectingKMeans中加载模型错误
  • [ ​​SPARK-25795​​ ] - 修复CSV SparkR SQL示例
  • [ ​​SPARK-25797​​ ] - 通过2.1创建的视图无法通过2.2+读取
  • [ ​​SPARK-25801​​ ] - pandas_udf grouped_map失败,输入数据帧超过255列
  • [ ​​SPARK-25803​​​ ] - ​​docker-image-tool.sh​​的-n选项会导致忽略其他选项
  • [ ​​SPARK-25816​​ ] - 功能无法正确解析列
  • [ ​​SPARK-25822​​ ] - 在释放Python工作者时修复竞争条件
  • [ ​​SPARK-25832​​ ] - 删除新添加的地图相关功能
  • [ ​​SPARK-25835​​ ] - 在k8s集成测试中传播scala 2.12配置文件
  • [ ​​SPARK-25840​​ ] - 由于缺少LICENSE-binary,`make-distribution.sh`不会失败
  • [ ​​SPARK-25854​​ ] - mvn帮助程序脚本总是退出w / 1,导致mvn构建失败

New Feature(新特性)

  • [ ​​SPARK-10697​​ ] - 关联规则挖掘中的提升计算
  • [ ​​SPARK-14682​​ ] - 为spark.ml GBT提供evaluateEachIteration方法或等效方法
  • [ ​​SPARK-15064​​ ] - StopWordsRemover中的语言环境支持
  • [ ​​SPARK-15784​​ ] - 为spark.ml添加Power Iteration Clustering
  • [ ​​SPARK-19480​​ ] - SQL中的高阶函数
  • [ ​​SPARK-21274​​ ] - 实施除外全部和全部交叉
  • [ ​​SPARK-22119​​ ] - 向KMeans添加余弦距离
  • [ ​​SPARK-22880​​ ] - 如果数据库支持,则添加级联jdbc截断选项(PostgreSQL和Oracle)
  • [ ​​SPARK-23010​​ ] - 将Kubernetes后端的集成测试添加到apache / spark存储库中
  • [ ​​SPARK-23146​​ ] - 支持Kubernetes集群后端的客户端模式
  • [ ​​SPARK-23235​​ ] - 将执行程序Threaddump添加到api
  • [ ​​SPARK-23541​​ ] - 允许Kafka源读取比主题分区数更大的并行度的数据
  • [ ​​SPARK-23751​​ ] - 在pyspark.ml中的Kolmogorov-Smirnoff测试Python API
  • [ ​​SPARK-23846​​ ] - 用于CSV数据源的模式推断的samplingRatio
  • [ ​​SPARK-23856​​ ] - Spark jdbc setQueryTimeout选项
  • [ ​​SPARK-23948​​ ] - 在submitMissingTasks中触发mapstage的作业监听器
  • [ ​​SPARK-23984​​ ] - K8S的PySpark绑定
  • [ ​​SPARK-24027​​ ] - 通过from_json支持MapType(StringType,DataType)作为根类型
  • [ ​​SPARK-24193​​ ] - 在TakeOrderedAndProjectExec中,当限制数量很大时按磁盘排序
  • [ ​​SPARK-24231​​ ] - Python API:为spark.ml GBT提供evaluateEachIteration方法或等效方法
  • [ ​​SPARK-24232​​ ] - 允许将kubernetes的秘密称为env变量
  • [ ​​SPARK-24288​​ ] - 启用防止谓词下推
  • [ ​​SPARK-24371​​ ] - 在Scala和Java的DataFrame API中添加了isInCollection。
  • [ ​​SPARK-24372​​ ] - 创建用于准备RC的脚本
  • [ ​​SPARK-24396​​ ] - 为python添加结构化流ForeachWriter
  • [ ​​SPARK-24397​​ ] - 在Python中添加TaskContext.getLocalProperties
  • [ ​​SPARK-24411​​ ] - 为`isInCollection`添加本机Java测试
  • [ ​​SPARK-24412​​ ] - 在`isin`和`isInCollection` API中添加有关自动类型转换的文档
  • [ ​​SPARK-24433​​ ] - K8S的R结合
  • [ ​​SPARK-24435​​ ] - 支持用户提供的YAML,可以与k8s pod描述合并
  • [ ​​SPARK-​​ 24465] - LSHModel应该支持结构化流转换
  • [ ​​SPARK-24479​​ ] - 在Spark Conf中注册StreamingQueryListener
  • [ ​​SPARK-24499​​ ] - 将sql-programming-guide.html的页面拆分为多个单独的页面
  • [ ​​SPARK-24542​​ ] - Hive UDF系列UDFXPathXXXX允许用户通过精心设计的XML来访问任意文件
  • [ ​​SPARK-24662​​ ] - 结构化流媒体应支持LIMIT
  • [ ​​SPARK-24730​​ ] - 添加策略以在流式查询具有多个水印时选择max作为全局水印
  • [ ​​SPARK-24768​​ ] - 具有内置的AVRO数据源实现
  • [ ​​SPARK-24795​​ ] - 实施屏障执行模式
  • [ ​​SPARK-24802​​ ] - 优化规则排除
  • [ ​​SPARK-24817​​ ] - 实施BarrierTaskContext.barrier()
  • [ ​​SPARK-24819​​ ] - 在提交作业时没有足够的插槽启动障碍阶段时失败
  • [ ​​SPARK-24820​​ ] - 提交的作业在屏障阶段包含PartitionPruningRDD时失败
  • [ ​​SPARK-24821​​ ] - 在屏障阶段的所有分区的子集上提交作业计算时快速失败
  • [ ​​SPARK-24822​​ ] - Python支持屏障执行模式
  • [ ​​SPARK-24918​​ ] - Executor Plugin API
  • [ ​​SPARK-25468​​ ] - 突出显示历史记录服务器中的当前页面索引

Story

  • [ ​​SPARK-24124​​ ] - Spark历史服务器应该创建spark.history.store.path并正确设置权限
  • [ ​​SPARK-24852​​ ] - 让spark.ml培训使用更新的`Instrumentation` API。
  • [ ​​SPARK-25234​​ ] - SparkR ::: parallelize不能正确处理整数溢出
  • [ ​​SPARK-25248​​ ] - Spark 2.4的审计障碍API
  • [ ​​SPARK-25345​​ ] - 从ImageSchema弃用readImages API
  • [ ​​SPARK-25347​​ ] - doc站点中的文档图像数据源

Improvement(改进)

  • [ ​​SPARK-3159​​ ] - 检查可还原的DecisionTree
  • [ ​​SPARK-4502​​ ] - Spark SQL从Parquet中读取不必要的嵌套字段
  • [ ​​SPARK-7132​​ ] - 将验证设置添加到spark.ml GBT
  • [ ​​SPARK-9312​​ ] - OneVsRest模型不提供rawPrediction
  • [ ​​SPARK-11630​​ ] - ClosureCleaner错误地警告基于类的闭包
  • [ ​​SPARK-13343​​ ] - 未提交的投机任务不应标记为成功
  • [ ​​SPARK-14712​​ ] - spark.ml LogisticRegressionModel.toString应该总结模型
  • [ ​​SPARK-15009​​ ] - PySpark CountVectorizerModel应该能够从词汇表中构建
  • [ ​​SPARK-16406​​ ] - 大量列的参考分辨率应该更快
  • [ ​​SPARK-​​ 16501] - 在UI和命令行上公开spark.mesos.secret
  • [ ​​SPARK-16617​​​ ] - 升级到Avro ​​1.8.x.​​
  • [ ​​SPARK-16630​​ ] - 如果执行程序无法在其上启动,则将节点列入黑名单。
  • [ ​​SPARK-18057​​ ] - 将结构化流媒体kafka从0.10.0.1更新为2.0.0
  • [ ​​SPARK-18230​​ ] - 当用户不存在时,MatrixFactorizationModel.recommendProducts会抛出NoSuchElement异常
  • [ ​​SPARK-19018​​ ] - spark csv writer charset支持
  • [ ​​SPARK-19602​​ ] - 无法使用表单的完全限定列名进行查询(<DBNAME>。<TABLENAME>。<COLUMNNAME>)
  • [ ​​SPARK-19724​​ ] - 使用现有的默认位置创建托管表应该抛出异常
  • [ ​​SPARK-​​ 19947] - RFormulaModel总是在使用NULL或看不见的标签转换数据时抛出异常
  • [ ​​SPARK-​​ 20087] - 将TaskKilled发送到onTaskEnd侦听器时包含accumulators / taskMetrics
  • [ ​​SPARK-20168​​ ] - 启用kinesis以从时间戳指定的初始位置开始流
  • [ ​​SPARK-20538​​ ] - Dataset.reduce运算符应该使用withNewExecutionId(作为foreach或foreachPartition)
  • [ ​​SPARK-20659​​ ] - 删除StorageStatus,或将其设为私有。
  • [ ​​SPARK-20937​​ ] - 在Spark SQL,DataFrames和Datasets Guide中描述spark.sql.parquet.writeLegacyFormat属性
  • [ ​​SPARK-21318​​ ] - `lookupFunction`抛出的异常消息不明确。
  • [ ​​SPARK-21351​​ ] - 根据优化逻辑计划中儿童的输出更新可空性
  • [ ​​SPARK-21590​​ ] - 结构化流媒体窗口开始时间应支持负值以调整时区
  • [ ​​SPARK-21687​​ ] - Spark SQL应为Hive分区设置createTime
  • [ ​​SPARK-21741​​ ] - 基于DataFrame的多变量摘要生成器的Python API
  • [ ​​SPARK-21783​​ ] - 默认打开ORC过滤器下推
  • [ ​​SPARK-21860​​ ] - 在'HeapMemoryAllocator`中改进堆内存的内存重用
  • [ ​​SPARK-21960​​ ] - Spark Streaming动态分配应尊重spark.executor.instances
  • [ ​​SPARK-22068​​ ] - 减少putIteratorAsValues和putIteratorAsBytes之间的重复代码
  • [ ​​SPARK-22144​​ ] - ExchangeCoordinator不会组合0大小的预洗牌的分区
  • [ ​​SPARK-22210​​ ] - 在线LDA variationalTopicInference应使用随机种子来保持稳定行为
  • [ ​​SPARK-22219​​ ] - Refector“spark.sql.codegen.comments”
  • [ ​​SPARK-22269​​ ] - 应该在Jenkins中运行Java样式检查
  • [ ​​SPARK-22666​​ ] - 图像格式的Spark数据源
  • [ ​​SPARK-22683​​ ] - DynamicAllocation通过分配几乎不会使用的容器来浪费资源
  • [ ​​SPARK-22751​​ ] - 改进ML RandomForest shuffle性能
  • [ ​​SPARK-22814​​ ] - JDBC支持日期/时间戳类型为partitionColumn
  • [ ​​SPARK-22839​​ ] - 重构Kubernetes代码,用于配置驱动程序/执行程序窗格以使用一致且更清晰的抽象
  • [ ​​SPARK-22856​​ ] - 为codegen输出和可空性添加包装器
  • [ ​​SPARK-22941​​ ] - 允许SparkSubmit抛出异常而不是退出/打印错误。
  • [ ​​SPARK-22959​​ ] - 在PySpark中为守护程序和工作程序选择模块的配置
  • [ ​​SPARK-23024​​​ ] - 关于表单内容的Spark ui需要有隐藏和显示功能,当表记录非常​​多时​​。
  • [ ​​SPARK-23031​​ ] - 合并脚本应允许任意受让人
  • [ ​​SPARK-23034​​ ] - 在UI中显示“HiveTableScan”节点的表名
  • [ ​​SPARK-23040​​ ] - 如果指定了聚合器或订购,则BlockStoreShuffleReader的返回Iterator不可中断
  • [ ​​SPARK-23043​​ ] - 将json4s-jackson升级到3.5.3
  • [ ​​SPARK-23085​​​ ] - ​​mllib.linalg.Vectors.sparse的​​ API奇偶校验
  • [ ​​SPARK-23159​​ ] - 更新Cloudpickle以匹配版本0.4.3
  • [ ​​SPARK-23161​​ ] - 向Python GBTClassifier添加缺少的API
  • [ ​​SPARK-23162​​ ] - PySpark ML LinearRegressionSummary缺少r2adj
  • [ ​​SPARK-23166​​ ] - 将maxDF参数添加到CountVectorizer
  • [ ​​SPARK-23167​​ ] - 从v1.4更新TPCDS查询到v2.7(最新)
  • [ ​​SPARK-23174​​ ] - 修复pep8到最新的官方版本
  • [ ​​SPARK-23188​​ ] - 使矢量化columar阅读器批量大小可配置
  • [ ​​SPARK-23202​​ ] - 在DataSourceWriter中添加新API:onDataWriterCommit
  • [ ​​SPARK-23217​​ ] - 将余弦距离度量添加到ClusteringEvaluator
  • [ ​​SPARK-23228​​ ] - 能够跟踪Python在JVM中创建SparkSession
  • [ ​​SPARK-23247​​ ] - 在扫描数据源中结合不安全操作和统计操作
  • [ ​​SPARK-23253​​ ] - 只有在没有现有索引文件时才写入随机索引文件
  • [ ​​SPARK-23259​​ ] - 清除hive外部目录周围的遗留代码
  • [ ​​SPARK-23285​​ ] - 允许spark.executor.cores为小数
  • [ ​​SPARK-23295​​ ] - 在make-distribution.sh中生成版本时排除Waring消息
  • [ ​​SPARK-23303​​ ] - 改进数据源v2关系的解释结果
  • [ ​​SPARK-23318​​ ] - FP-growth:WARN FPGrowth:不缓存输入数据
  • [ ​​SPARK-23336​​ ] - 将snappy-java升级到1.1.7.1
  • [ ​​SPARK-23359​​ ] - 在Scala的StructType中添加'fieldNames'的别名'names'
  • [ ​​SPARK-23366​​ ] - 改进ReadAheadInputStream中的热读取路径
  • [ ​​SPARK-23372​​ ] - 在镶木地板中写入空结构在执行期间失败。它应该在分析过程中提前失败。
  • [ ​​SPARK-23375​​ ] - 优化程序应删除不需要的排序
  • [ ​​SPARK-23378​​ ] - 将setCurrentDatabase从HiveExternalCatalog移至HiveClientImpl
  • [ ​​SPARK-23379​​ ] - 如果当前数据库名称相同,则删除冗余的Metastore访问
  • [ ​​SPARK-23382​​​ ] - 关于表单内容的Spark Streaming ui需要有隐藏和显示功能,当表记录非常​​多时​​。
  • [ ​​SPARK-23383​​ ] - 在检测到错误选项时,应在退出时使用
  • [ ​​SPARK-23389​​ ] - 当shuffle依赖项指定聚合,并且`dependency.mapSideCombine = false`时,我们应该能够使用序列化排序。
  • [ ​​SPARK-23412​​ ] - 向BisectingKMeans添加余弦距离测量
  • [ ​​SPARK-23424​​ ] - 在评论中添加codegenStageId
  • [ ​​SPARK-23445​​ ] - ColumnStat重构
  • [ ​​SPARK-23447​​ ] - Literal的清理codegen模板
  • [ ​​SPARK-23455​​ ] - ML中的默认参数应单独保存
  • [ ​​SPARK-23456​​ ] - 默认启用`native` ORC实现
  • [ ​​SPARK-23466​​ ] - 通过GenerateUnsafeProjection删除生成的Java代码中的冗余空值检查
  • [ ​​SPARK-23500​​ ] - named_structs上的过滤器可以推送到扫描中
  • [ ​​SPARK-23510​​ ] - 支持从Hive 2.2和Hive 2.3 Metastore读取数据
  • [ ​​SPARK-23518​​ ] - 当用户只想读取和存储数据帧时,避免使用Metastore
  • [ ​​SPARK-23528​​ ] - 将数字添加到ClusteringSummary
  • [ ​​SPARK-23529​​ ] - 指定主机路径卷并在Kubernetes中的Spark驱动程序和执行程序窗格中装入卷
  • [ ​​SPARK-23538​​ ] - 简化https客户端的SSL配置
  • [ ​​SPARK-23550​​ ] - 清除Utils对象中未使用/冗余的方法
  • [ ​​SPARK-23553​​ ] - 测试不应采用`spark.sql.sources.default`的默认值
  • [ ​​SPARK-23562​​ ] - RFormula handleInvalid应处理非字符串列中的无效值。
  • [ ​​SPARK-23564​​ ] - 关于左反连接的优化逻辑计划应进一步优化
  • [ ​​SPARK-23565​​ ] - 改进了查询源数量变化时的错误消息
  • [ ​​SPARK-23568​​​ ] - 如果可用,Silhouette应从元数据中获取​​要素​​数量
  • [ ​​SPARK-23572​​ ] - 更新security.md以涵盖新功能
  • [ ​​SPARK-23573​​​ ] - 创建​​linter​​规则以防止在SQL模块中滥用SparkContext.hadoopConfiguration
  • [ ​​SPARK-23604​​ ] - ParquetInteroperabilityTest时间戳测试应该使用Statistics.hasNonNullValue
  • [ ​​SPARK-23624​​ ] - 修改方法pushFilters的文档
  • [ ​​SPARK-23627​​ ] - 在DataSet中提供isEmpty()函数
  • [ ​​SPARK-23628​​ ] - WholeStageCodegen可以生成包含太多参数的方法
  • [ ​​SPARK-23644​​ ] - 带代理的SHS不显示应用程序
  • [ ​​SPARK-23645​​ ] - 无法使用关键字参数调用pandas_udf
  • [ ​​SPARK-23654​​ ] - 将jets3t剪切为spark-core的依赖项
  • [ ​​SPARK-23656​​ ] - 在大端平台上不执行XXH64Suite.testKnownByteArrayInputs()中的断言
  • [ ​​SPARK-23672​​ ] - 文档支持返回Arrow UDF中的列表
  • [ ​​SPARK-23675​​ ] - 标题添加火花徽标,使用火花徽标图像
  • [ ​​SPARK-23683​​ ] - FileCommitProtocol.instantiate需要3-arg构造函数进行动态分区覆盖
  • [ ​​SPARK-23691​​ ] - 尽可能在PySpark测试中使用sql_conf util
  • [ ​​SPARK-23695​​ ] - PySpark的Kinesis测试在其jar丢失但启用时出现混乱错误消息
  • [ ​​SPARK-23699​​ ] - 当禁用箭头回退时,PySpark应该引发相同的错误
  • [ ​​SPARK-23700​​ ] - 清理未使用的进口产品
  • [ ​​SPARK-23708​​ ] - ShutdownHookManager.addShutdownHook的评论错误
  • [ ​​SPARK-23769​​ ] - 删除不必要的scalastyle检查禁用
  • [ ​​SPARK-23770​​ ] - 在SparkR中显示repartitionByRange
  • [ ​​SPARK-23772​​ ] - 在JSON模式推断期间提供忽略所有空值列或空映射/数组的选项
  • [ ​​SPARK-23776​​ ] - 当缺少组件时,pyspark-sql测试应显示构建说明
  • [ ​​SPARK-23803​​ ] - 支持铲斗修剪以优化对柱状柱的过滤
  • [ ​​SPARK-23820​​ ] - 允许在日志中记录长形式的呼叫站点
  • [ ​​SPARK-23822​​ ] - 改进Parquet模式不匹配的错误消息
  • [ ​​SPARK-23828​​ ] - PySpark StringIndexerModel应该有标签的构造函数
  • [ ​​SPARK-23830​​ ] - 当Spark应用程序是Scala类而不是对象时,集群部署模式下的YARN上的Spark失败并显示NullPointerException
  • [ ​​SPARK-​​ 23838] - SparkUI:在SQL选项卡中显示为“已完成”的SQL查询
  • [ ​​SPARK-23841​​ ] - NodeIdCache应该取消最后一个缓存的nodeIdsForInstances
  • [ ​​SPARK-23861​​ ] - 使用和不使用orderBy子句澄清默认窗口框架边界的行为
  • [ ​​SPARK-23867​​ ] - 日志消息中的com.codahale.metrics.Counter输出没有toString方法
  • [ ​​SPARK-23873​​ ] - 在解释的LambdaVariable中使用访问器
  • [ ​​SPARK-23874​​ ] - 将apache / arrow升级到0.10.0
  • [ ​​SPARK-​​ 23875] - 为ArrayData创建IndexedSeq包装器
  • [ ​​SPARK-23877​​ ] - 仅元数据查询不会降低过滤条件
  • [ ​​SPARK-23880​​ ] - 表缓存应该是懒惰的,不要触发任何作业
  • [ ​​SPARK-23892​​ ] - 改进覆盖率并修复与UTF8String相关的套件中的lint错误
  • [ ​​SPARK-23896​​ ] - 改进PartitioningAwareFileIndex
  • [ ​​SPARK-23944​​ ] - 将Param集函数添加到LSHModel类型
  • [ ​​SPARK-23947​​ ] - 为哈希类添加hashUTF8String便捷方法
  • [ ​​SPARK-23956​​ ] - 在AM注册中使用有效的RPC端口
  • [ ​​SPARK-23957​​ ] - 子查询中的排序是多余的,可以删除
  • [ ​​SPARK-23960​​ ] - Mark HashAggregateExec.bufVars为瞬态
  • [ ​​SPARK-23962​​ ] - 来自SQLMetricsTestUtils.currentExecutionIds的Flaky测试
  • [ ​​SPARK-23963​​ ] - 随着列数的增加,基于文本的Hive表的查询速度不成比例地增长
  • [ ​​SPARK-23966​​ ] - 在公共接口中重构所有检查点文件写入逻辑
  • [ ​​SPARK-23972​​ ] - 升级至Parquet 1.10
  • [ ​​SPARK-23973​​ ] - 删除连续排序
  • [ ​​SPARK-23979​​ ] - MultiAlias不应该是CodegenFallback
  • [ ​​SPARK-24003​​ ] - 添加支持以App Id和/或Executor Id提供spark.executor.extraJavaOptions
  • [ ​​SPARK-24005​​ ] - 删除Scala并行集合的使用
  • [ ​​SPARK-24014​​ ] - 将onStreamingStarted方法添加到StreamingListener
  • [ ​​SPARK-24017​​ ] - 将ExternalCatalog重构为接口
  • [ ​​SPARK-24024​​ ] - 修复GLM中的偏差计算以处理拐角情况
  • [ ​​SPARK-24029​​ ] - 在侦听套接字上设置“重用地址”标志
  • [ ​​SPARK-24035​​ ] - Pivot的SQL语法
  • [ ​​SPARK-24057​​ ] - 将实际数据类型放入AssertionError消息中
  • [ ​​SPARK-24058​​ ] - ML中的默认参数应单独保存:Python API
  • [ ​​SPARK-24072​​ ] - 清楚地定义推送过滤器
  • [ ​​SPARK-24083​​​ ] - 未捕获异常的诊断消息应包括​​堆栈跟踪​​
  • [ ​​SPARK-24094​​ ] - 更改v2流媒体源的描述字符串以反映更改
  • [ ​​SPARK-24111​​ ] - 在TPCDSQueryBenchmark中添加TPCDS v2.7(最新)查询
  • [ ​​SPARK-24117​​ ] - 统一getSizePerRow
  • [ ​​SPARK-24121​​​ ] - 用于处理表达式​​codegen中的​​表达式代码生成的API
  • [ ​​SPARK-24126​​ ] - PySpark测试在/ tmp中留下了大量垃圾
  • [ ​​SPARK-24127​​ ] - 支持连续模式的文本套接字源
  • [ ​​SPARK-​​ 24128] - 在隐式笛卡尔积错误信息中提及spark.sql.crossJoin.enabled
  • [ ​​SPARK-24129​​ ] - 添加选项以将--build-arg传递给docker-image-tool.sh
  • [ ​​SPARK-24131​​ ] - 将majorMinorVersion API添加到PySpark以确定Spark版本
  • [ ​​SPARK-24136​​ ] - 如果记录可用,MemoryStreamDataReader.next应该跳过睡眠状态
  • [ ​​SPARK-24149​​ ] - HDFS联合中的自动命名空间发现
  • [ ​​SPARK-24156​​ ] - 启用无数据微批次以获得更加热切的流式清理
  • [ ​​SPARK-24160​​ ] - 如果收到零大小的块,ShuffleBlockFetcherIterator将失败
  • [ ​​SPARK-24161​​ ] - 在结构化流媒体上启用调试包功能
  • [ ​​SPARK-24172​​ ] - 我们不应多次将操作员下推应用于数据源v2
  • [ ​​SPARK-24181​​ ] - 用于编写已排序数据的更好的错误消息
  • [ ​​SPARK-24182​​ ] - 在AM失败时改善客户端模式的错误消息
  • [ ​​SPARK-24188​​ ] - / api / v1 /版本无效
  • [ ​​SPARK-24204​​ ] - 验证Json / Orc / ParquetFileFormat中的写入模式
  • [ ​​SPARK-24206​​ ] - 改进用于读取和下推的DataSource基准代码
  • [ ​​SPARK-24209​​ ] - 0配置SHS中的Knox网关支持
  • [ ​​SPARK-24215​​ ] - 对DataFrame API实施热切评估
  • [ ​​SPARK-24242​​ ] - RangeExec应具有正确的outputOrdering
  • [ ​​SPARK-24244​​ ] - 仅解析所需的CSV文件列
  • [ ​​SPARK-24246​​ ] - 通过在可用时设置原因来改进AnalysisException
  • [ ​​SPARK-24248​​ ] - [K8S]使用Kubernetes群集作为pod状态的后备存储
  • [ ​​SPARK-24250​​ ] - 支持访问SQLConf内部任务
  • [ ​​SPARK-24262​​ ] - 修复UDF错误消息中的拼写错误
  • [ ​​SPARK-24268​​ ] - 错误消息中的DataType不一致
  • [ ​​SPARK-24275​​ ] - 修改InputPartition中的文档注释
  • [ ​​SPARK-24277​​ ] - SQL模块中的代码清理:HadoopMapReduceCommitProtocol / FileFormatWriter
  • [ ​​SPARK-24303​​ ] - 将cloudpickle更新为v0.4.4
  • [ ​​SPARK-24305​​ ] - 避免在新集合表达式中序列化私有字段
  • [ ​​SPARK-24308​​ ] - 处理DataReaderFactory到InputPartition在左侧类中重命名
  • [ ​​SPARK-24312​​ ] - Hive Metastore Client 2.3升级到2.3.3
  • [ ​​SPARK-24321​​ ] - 从Divide / Remainder中提取公共代码到基本特征
  • [ ​​SPARK-24326​​ ] - 在mesos集群模式下为app jar添加local:// scheme支持
  • [ ​​SPARK-24327​​ ] - 根据JDBC解析的模式验证并规范化分区列名称
  • [ ​​SPARK-24329​​ ] - 在解析CSV文件之前删除注释过滤
  • [ ​​SPARK-24330​​ ] - 使用DataWriter(V2)在FileFormatWriter中重构ExecuteWriteTask
  • [ ​​SPARK-24332​​ ] - 将读取'spark.network.timeout'的位置修复为毫秒
  • [ ​​SPARK-24337​​ ] - 改进无效SQL conf值的错误消息
  • [ ​​SPARK-24339​​ ] - spark sql无法在transform / map / reduce查询中修剪列
  • [ ​​SPARK-24356​​ ] - 由FileSegmentManagedBuffer管理的File.path中的重复字符串
  • [ ​​SPARK-24361​​ ] - 波兰语代码块操作API
  • [ ​​SPARK-24365​​ ] - 添加数据源写入基准
  • [ ​​SPARK-24366​​ ] - 改进Catalyst类型转换器的错误消息
  • [ ​​SPARK-24367​​ ] - Parquet:使用JOB_SUMMARY_LEVEL而不是弃用标志ENABLE_JOB_SUMMARY
  • [ ​​SPARK-24381​​ ] - 改进NOT IN子查询的单元测试覆盖率
  • [ ​​SPARK-24408​​ ] - 将abs函数移动到math_funcs组
  • [ ​​SPARK-24423​​ ] - 为JDBC源添加新选项`query`
  • [ ​​SPARK-24424​​ ] - 支持GROUPING SET的ANSI-SQL兼容语法
  • [ ​​SPARK-24428​​ ] - 删除未使用的代码并修复K8s模块中的任何相关文档
  • [ ​​SPARK-24441​​ ] - 在HDFSBackedStateStoreProvider中显示状态的总估计大小
  • [ ​​SPARK-24454​​ ] - ml.image没有明确定义__all__
  • [ ​​SPARK-24455​​ ] - 修复TaskSchedulerImpl评论中的拼写错误
  • [ ​​SPARK-24470​​ ] - RestSubmissionClient可以抵抗404和非json响应
  • [ ​​SPARK-24477​​ ] - 默认情况下,在pyspark.ml下导入子模块
  • [ ​​SPARK-24485​​ ] - 在HDFSBackedStateStoreProvider中测量和记录文件系统操作所用的时间
  • [ ​​SPARK-24490​​ ] - 在Web UI中使用WebUI.addStaticHandler
  • [ ​​SPARK-24505​​ ] - 将codegen中的字符串转换为块:Cast和BoundAttribute
  • [ ​​SPARK-24518​​ ] - 使用Hadoop凭据提供程序API存储密码
  • [ ​​SPARK-24519​​ ] - MapStatus有2000个硬编码
  • [ ​​SPARK-24525​​ ] - 提供限制MemorySink内存使用的选项
  • [ ​​SPARK-24534​​ ] - 如果没有传递spark cmd,请添加绕过entrypoint.sh脚本的方法
  • [ ​​SPARK-24543​​ ] - 支持任何DataType作为from_json模式的DDL字符串
  • [ ​​SPARK-24547​​ ] - Spark on K8s docker-image-tool.sh改进
  • [ ​​SPARK-24551​​ ] - 为Secrets添加集成测试
  • [ ​​SPARK-24555​​ ] - KNans / BiKM / GMM / AFT / NB中的logNumExamples
  • [ ​​SPARK-24557​​ ] - ClusteringEvaluator支持数组输入
  • [ ​​SPARK-24558​​ ] - 当保存cacheBlock的执行程序为IDLE时,驱动程序在日志中输出错误的信息。显示的超时值不是按配置值。
  • [ ​​SPARK-24565​​ ] - 在结构化流中添加API,以将每个微量分片的输出行公开为DataFrame
  • [ ​​SPARK-24566​​ ] - 修复spark.storage.blockManagerSlaveTimeoutMs默认配置
  • [ ​​SPARK-24571​​ ] - 支持具有Char类型值的文字
  • [ ​​SPARK-​​ 24574] - 改进sql组件的array_contains函数来处理Column类型
  • [ ​​SPARK-24575​​ ] - 禁止在WHERE和HAVING子句中使用窗口表达式
  • [ ​​SPARK-24576​​ ] - 将Apache ORC升级到1.5.2
  • [ ​​SPARK-24596​​ ] - 非级联缓存失效
  • [ ​​SPARK-24605​​ ] - size(null)应返回null
  • [ ​​SPARK-24609​​ ] - PySpark / SparkR doc没有很好地解释RandomForestClassifier.featureSubsetStrategy
  • [ ​​SPARK-24614​​ ] - PySpark - 修复tests.py上的SyntaxWarning
  • [ ​​SPARK-24626​​ ] - 在Analyze Table命令中并行化大小计算
  • [ ​​SPARK-24635​​ ] - 删除Blocks类
  • [ ​​SPARK-24636​​ ] - 为array_join函数输入数组强制
  • [ ​​SPARK-24637​​ ] - 向dropwizard指标添加有关状态和水印的指标
  • [ ​​SPARK-24646​​ ] - 支持通配符'*'表示spark.yarn.dist.forceDownloadSchemes
  • [ ​​SPARK-24658​​ ] - 删除ANTLR错误的解决方法
  • [ ​​SPARK-24665​​ ] - 在PySpark中添加SQLConf来管理所有sql配置
  • [ ​​SPARK-24673​​ ] - scala sql函数from_utc_timestamp第二个参数可能是Column而不是String
  • [ ​​SPARK-24675​​ ] - 重命名表:验证新位置的存在
  • [ ​​SPARK-24678​​ ] - 我们应首先使用'PROCESS_LOCAL'进行Spark-Streaming
  • [ ​​SPARK-24683​​ ] - SparkLauncher.NO_RESOURCE不适用于Java应用程序
  • [ ​​SPARK-24685​​ ] - 调整发行脚本以构建旧版本的所有版本
  • [ ​​SPARK-24688​​ ] - 澄清关于LabeledPoint的评论(标签,功能)对而不是(功能,标签)
  • [ ​​SPARK-24691​​ ] - 在FileFormat中添加新的API`supportDataType`
  • [ ​​SPARK-24692​​ ] - 改进FilterPushdownBenchmark
  • [ ​​SPARK-24696​​ ] - ColumnPruning规则无法删除额外的Project
  • [ ​​SPARK-24697​​ ] - 修复流式查询进度中报告的起始偏移量
  • [ ​​SPARK-24709​​​ ] - 从JSON字符串文字中​​推断​​模式
  • [ ​​SPARK-24722​​ ] - 用于旋转的基于列的API
  • [ ​​SPARK-24727​​​ ] - ​​CodeGenerator中​​的缓存100太小,无法进行流式传输
  • [ ​​SPARK-24732​​​ ] - 在​​MapTypes​​之间键入强制。
  • [ ​​SPARK-24737​​ ] - 在StructTypes之间键入强制。
  • [ ​​SPARK-24747​​ ] - 使spark.ml.util.Instrumentation类更加灵活
  • [ ​​SPARK-24757​​ ] - 改进广播超时的错误消息
  • [ ​​SPARK-24759​​ ] - 无广播散列连接的重新排序键
  • [ ​​SPARK-24761​​ ] - 检查配置参数的可修改性
  • [ ​​SPARK-24763​​ ] - 从流聚合中的值中删除冗余密钥数据
  • [ ​​SPARK-24782​​ ] - 简化表达式中的conf访问
  • [ ​​SPARK-24785​​ ] - 确保REPL打印Spark UI信息,然后打印欢迎消息
  • [ ​​SPARK-24790​​ ] - 允许在数据透视表中使用复杂的聚合表达式
  • [ ​​SPARK-24801​​ ] - spark.network.sasl.SaslEncryption中的空byte []数组$ EncryptedMessage会浪费大量内存
  • [ ​​SPARK-24807​​ ] - 两次添加文件/罐子:输出警告并添加注释
  • [ ​​SPARK-24849​​ ] - 将StructType转换为DDL字符串
  • [ ​​SPARK-24858​​ ] - 避免不必要的镶木地板页脚读取
  • [ ​​SPARK-24860​​ ] - 每次写入操作公开动态分区覆盖
  • [ ​​SPARK-24865​​ ] - 删除AnalysisBarrier
  • [ ​​SPARK-24868​​ ] - 在Python中添加序列函数
  • [ ​​SPARK-24871​​ ] - 重构Concat和MapConcat以避免为每一行创建连锁对象。
  • [ ​​SPARK-24890​​ ] - 当`trueValue`和`falseValue`相同时,短路`if`条件
  • [ ​​SPARK-24893​​ ] - 如果所有输出都是语义等价的,则删除整个Case
  • [ ​​SPARK-24926​​ ] - 确保在所有网络配置(驱动程序和执行程序)中始终使用numCores
  • [ ​​SPARK-24929​​ ] - 合并脚本吞下KeyboardInterrupt
  • [ ​​SPARK-24940​​ ] - SQL查询的合并和重新分区提示
  • [ ​​SPARK-24943​​ ] - 将SQL结构转换为StructType
  • [ ​​SPARK-24945​​ ] - 切换到uniVocity> = 2.7.2
  • [ ​​SPARK-24951​​ ] - 表值函数应抛出AnalysisException而不是IllegalArgumentException
  • [ ​​SPARK-24952​​ ] - 支持Avro数据源的LZMA2压缩
  • [ ​​SPARK-24954​​ ] - 如果在启用动态资源分配的情况下运行障碍阶段,则在作业提交时快速失败
  • [ ​​SPARK-24956​​ ] - 将maven从3.3.9升级到3.5.4
  • [ ​​SPARK-24959​​ ] - 不要为空架构调用CSV / JSON解析器
  • [ ​​SPARK-​​ 24960] - k8s:显式公开驱动程序容器上的端口
  • [ ​​SPARK-24962​​​ ] - 重构​​CodeGenerator.createUnsafeArray​​
  • [ ​​SPARK-24978​​ ] - 添加spark.sql.fast.hash.aggregate.row.max.capacity以配置快速聚合的容量。
  • [ ​​SPARK-24979​​ ] - 添加AnalysisHelper#resolveOperatorsUp
  • [ ​​SPARK-24982​​​ ] - ​​UDAF​​解析不应抛出java.lang.AssertionError
  • [ ​​SPARK-24992​​ ] - 火花应随机选择纱线局部方向
  • [ ​​SPARK-24993​​ ] - 让Avro再次快速
  • [ ​​SPARK-24996​​ ] - 使用DSL简化DeclarativeAggregate
  • [ ​​SPARK-24999​​ ] - 减少不必要的“新”内存操作
  • [ ​​SPARK-25001​​ ] - 修复构建杂项警告
  • [ ​​SPARK-25018​​ ] - 在`merge_spark_pr.py`中使用`Co-Authored-By` git预告片
  • [ ​​SPARK-25025​​ ] - 删除INTERSECT / EXCEPT中isAll的默认值
  • [ ​​SPARK-25043​​ ] - spark-sql应该在启动时打印appId和master
  • [ ​​SPARK-25045​​ ] - 使`RDDBarrier.mapParititions`类似于`RDD.mapPartitions`
  • [ ​​SPARK-25069​​ ] - 使用UnsafeAlignedOffset使8字节项的整个记录​​对齐,如在UnsafeExternalSorter中使用的那样
  • [ ​​SPARK-25073​​ ] - 关于纱线任务的Spark-submit:当yarn.nodemanager.resource.memory-mb和/或yarn.scheduler.maximum-allocation-mb不足时,Spark总是报告错误请求以调整yarn.scheduler 。最大分配-MB
  • [ ​​SPARK-25077​​ ] - 在WindowExec中删除未使用的变量
  • [ ​​SPARK-25088​​ ] - Rest Server默认和doc更新
  • [ ​​SPARK-25093​​ ] - CodeFormatter可以避免一次又一次地创建正则表达式对象
  • [ ​​SPARK-25105​​ ] - 导入所有pyspark.sql.functions也应该带上PandasUDFType
  • [ ​​SPARK-25108​​ ] - Dataset.show()为Unicode字符生成不正确的填充
  • [ ​​SPARK-25111​​ ] - 增加kinesis客户端/生产者lib版本和aws-sdk以匹配
  • [ ​​SPARK-25113​​ ] - 当任何生成的方法的字节码大小超过HugeMethodLimit时,向CodeGenerator添加日志记录
  • [ ​​SPARK-25115​​ ] - 当使用由> 1 ByteBuffer支持的ByteBuf时,消除额外的内存复制。
  • [ ​​SPARK-25117​​ ] - 在R中添加EXEPT ALL和INTERSECT ALL支持。
  • [ ​​SPARK-25122​​ ] - 支持的重复数据删除等于代码
  • [ ​​SPARK-25140​​ ] - 当UnsafeProjection.create回退到解释模式时,添加可选的日志记录
  • [ ​​SPARK-25142​​ ] - 当Python worker无法在`_load_from_socket`中打开套接字时添加错误消息。
  • [ ​​SPARK-25170​​ ] - 在文档中添加任务度量标准描述
  • [ ​​SPARK-25178​​ ] - 直接发送keyXchema / valueSchema的StructType对象,用于xxxHashMapGenerator
  • [ ​​SPARK-25208​​ ] - 为DecimalType松开Cast.forceNullable。
  • [ ​​SPARK-​​ 25209] - 针对DataFrames的Dataset.apply进行优化
  • [ ​​SPARK-25212​​ ] - 在ConvertToLocalRelation中支持过滤器
  • [ ​​SPARK-25228​​ ] - 添加执行程序CPU时间度量标准
  • [ ​​SPARK-25233​​ ] - 当使用带背压的kafka direct API时,为用户提供为每批次指定固定最小消息的选项
  • [ ​​SPARK-25235​​ ] - 合并Scala 2.11和2.12分支中的REPL代码
  • [ ​​SPARK-25241​​ ] - 读取/写入CSV文件时可配置的空值
  • [ ​​SPARK-25252​​​ ] - 支持​​to_json​​中任何类型的数组
  • [ ​​SPARK-25253​​ ] - 重构pyspark连接和身份验证
  • [ ​​SPARK-25260​​ ] - 修复SchemaConverters.toAvroType中的命名空间处理
  • [ ​​SPARK-25275​​ ] - 要求轮子中的成员运行'su'(在dockerfiles中)
  • [ ​​SPARK-25286​​ ] - 删除危险的parmap
  • [ ​​SPARK-25287​​ ] - 在merge_spark_pr.py中预先检查JIRA_USERNAME和JIRA_PASSWORD
  • [ ​​SPARK-25300​​ ] - 统一配置参数`spark.shuffle.service.enabled`
  • [ ​​SPARK-25318​​ ] - 在获取或阶段重试期间包装输入流时添加异常处理以响应损坏的块
  • [ ​​SPARK-25335​​ ] - 如果已安装在系统中,则跳过Zip下载
  • [ ​​SPARK-25375​​ ] - 重新启用合格烫发。UDFSuite中的函数检查
  • [ ​​SPARK-​​ 25384] - Clarify fromJsonForceNullableSchema将在Spark 3.0中删除
  • [ ​​SPARK-25400​​ ] - 在schedulerIntegrationSuite中增加超时
  • [ ​​SPARK-25445​​ ] - 使用Spark 2.4发布scala 2.12版本
  • [ ​​SPARK-25469​​ ] - Concat,Reverse和ElementAt的Eval方法应该只使用一次模式匹配
  • [ ​​SPARK-25639​​ ] - 添加有关foreachBatch的文档和多个水印策略
  • [ ​​SPARK-25754​​ ] - 更改MathJax的CDN
  • [ ​​SPARK-25859​​ ] - 为PrefixSpan添加scala / java / python示例和doc

Test

  • [ ​​SPARK-16139​​ ] - 审计泄漏线程的测试
  • [ ​​SPARK-22882​​ ] - StructuredStreaming的ML测试:spark.ml.classification
  • [ ​​SPARK-22883​​ ] - StructuredStreaming的ML测试:spark.ml.feature,AM
  • [ ​​SPARK-22884​​ ] - StructuredStreaming的ML测试:spark.ml.clustering
  • [ ​​SPARK-22885​​ ] - StructuredStreaming的ML测试:spark.ml.tuning
  • [ ​​SPARK-22886​​ ] - StructuredStreaming的ML测试:spark.ml.recommendation
  • [ ​​SPARK-22915​​ ] - 结构化流的ML测试:spark.ml.feature,NZ
  • [ ​​SPARK-23169​​ ] - 对lint -r脚本和.lintr配置的更改运行lintr
  • [ ​​SPARK-23392​​ ] - 为图像功能添加一些测试用例
  • [ ​​SPARK-23849​​ ] - 测试json模式推断的samplingRatio选项
  • [ ​​SPARK-23881​​ ] - 片状测试:JobCancellationSuite。“shuffle reader的可中断迭代器”
  • [ ​​SPARK-24044​​ ] - 从unittest模块中明确打印出跳过的测试
  • [ ​​SPARK-24502​​ ] - 片状测试:UnsafeRowSerializerSuite
  • [ ​​SPARK-24521​​ ] - 修复CachedTableSuite中的无效测试
  • [ ​​SPARK-24562​​ ] - 允许在SQLQueryTestSuite中使用多个配置运行相同的测试
  • [ ​​SPARK-24564​​ ] - 为RecordBinaryComparator添加测试套件
  • [ ​​SPARK-24740​​ ] - PySpark测试未通过NumPy 0.14.x +
  • [ ​​SPARK-24840​​ ] - 不要使用虚拟过滤器来打开/关闭codegen
  • [ ​​SPARK-24861​​ ] - 在RateSourceSuite中创建更正的临时目录
  • [ ​​SPARK-24886​​ ] - 增加Jenkins的构建时间
  • [ ​​SPARK-25141​​ ] - 修改高阶函数的测试以检查绑定方法。
  • [ ​​SPARK-25184​​​ ] - ​​Flaky​​测试:FlatMapGroupsWithState“流处理时间超时”
  • [ ​​SPARK-25238​​ ] - Lint-Python:升级到当前版本的pycodestyle失败
  • [ ​​SPARK-25249​​ ] - 为OpenHashMap添加单元测试
  • [ ​​SPARK-25267​​ ] - 在sql / core和sql / hive的测试用例中禁用ConvertToLocalRelation
  • [ ​​SPARK-25290​​ ] - BytesToBytesMapOnHeapSuite randomizedStressTest可能导致OutOfMemoryError
  • [ ​​SPARK-25296​​ ] - 创建ExplainSuite
  • [ ​​SPARK-25422​​ ] - 片状测试:org.apache.spark.DistributedSuite.caching在磁盘上,已复制(encryption = on)(以复制为流)
  • [ ​​SPARK-25453​​ ] - OracleIntegrationSuite IllegalArgumentException:时间戳格式必须为yyyy-mm-dd hh:mm:ss [.fffffffff]
  • [ ​​SPARK-25456​​ ] - PythonForeachWriterSuite失败
  • [ ​​SPARK-25673​​ ] - 删除Travis CI,启用Java lint检查
  • [ ​​SPARK-25736​​ ] - 添加测试以验证多列计数的行为
  • [ ​​SPARK-25805​​ ] - 片状测试:DataFrameSuite.SPARK-25159单元测试失败

Wish

  • [ ​​SPARK-23131​​ ] - 在序列化GLR模型期间,Kryo引发了StackOverflow
  • [ ​​SPARK-25258​​ ] - 将kryo软件包升级到4.0.2版

Task

  • [ ​​SPARK-20220​​ ] - 在调度文档中添加thrift调度池配置
  • [ ​​SPARK-23092​​ ] - 将MemoryStream迁移到DataSource V2
  • [ ​​SPARK-23451​​ ] - 弃用KMeans computeCost
  • [ ​​SPARK-23501​​ ] - 重构AllStagesPage以避免冗余代码
  • [ ​​SPARK-23533​​ ] - 添加对更改ContinuousDataReader的startOffset的支持
  • [ ​​SPARK-23601​​ ] - 从发行版中删除.md5文件
  • [ ​​SPARK-24392​​ ] - 将pandas_udf标记为实验
  • [ ​​SPARK-24533​​ ] - typesafe已经重新命名为lightbend。将build / mvn端点从downloads.typesafe.com更改为downloads.lightbend.com
  • [ ​​SPARK-24654​​ ] - 更新,修复LICENSE和NOTICE,并专门针对源与二进制
  • [ ​​SPARK-25063​​ ] - 将类KnowNotNull重命名为KnownNotNull
  • [ ​​SPARK-25095​​ ] - 对BarrierTaskContext的Python支持
  • [ ​​SPARK-25213​​ ] - DataSourceV2似乎不会产生不安全的行
  • [ ​​SPARK-25336​​ ] - 恢复SPARK-24863和SPARK-24748
  • [ ​​SPARK-25836​​ ] - (暂时)禁用kubernetes-integration-tests的自动构建/测试

Dependency upgrade

  • [ ​​SPARK-20395​​ ] - 将Scala更新为2.11.11,将锌更新为0.3.15
  • [ ​​SPARK-23509​​ ] - 将公共网络从2.2升级到3.1

Request

  • [ ​​SPARK-21607​​ ] - dropTempView函数可以像dropTempView一样添加一个参数(viewName:String,dropSelfOnly:Boolean)

Umberlla

  • [ ​​SPARK-14220​​ ] - 针对Scala 2.12构建和测试Spark
  • [ ​​SPARK-23899​​ ] - 内置SQL函数改进
  • [ ​​SPARK-24090​​ ] - Spark 2.4的Kubernetes后端热门列表
  • [ ​​SPARK-25319​​ ] - Spark MLlib,GraphX 2.4 QA伞
  • [ ​​SPARK-25419​​ ] - 镶木地板谓词下推式改进

Documention

  • [ ​​SPARK-21261​​ ] - SparkSQL regexpExpressions示例
  • [ ​​SPARK-23231​​ ] - 为用户指南添加字符串索引器排序文档(也适用于RFormula指南)
  • [ ​​SPARK-23254​​ ] - 为DataFrame多变量摘要添加用户指南条目
  • [ ​​SPARK-23256​​ ] - 将columnSchema方法添加到PySpark图像阅读器
  • [ ​​SPARK-23329​​ ] - 使用三角函数的参数和返回值更新函数描述
  • [ ​​SPARK-23566​​​ ] - ​​争论​​名称修复
  • [ ​​SPARK-23642​​ ] - 用于LongAccumulator的isZero scaladoc描述了错误的方法
  • [ ​​SPARK-23792​​ ] - 日期时间功能的文档改进
  • [ ​​SPARK-24134​​ ] - 文档“Tuning Spark”中缺少一个完整的句号
  • [ ​​SPARK-24191​​ ] - Spark ML示例中用于Power Iteration Clustering的Scala示例代码
  • [ ​​SPARK-24224​​ ] - spark.ml中Power Iteration Clustering的Java示例代码
  • [ ​​SPARK-24378​​ ] - spark 2.3.0中date_trunc函数的错误示例
  • [ ​​SPARK-24444​​ ] - 改进pandas_udf GROUPED_MAP文档以解释列分配
  • [ ​​SPARK-24507​​ ] - “Spark Streaming Programming Guide”中“数据接收中的并行度级别”部分中的描述与最近的Kafka直接应用程序无关
  • [ ​​SPARK-24628​​ ] - docs / mllib-data-types.md中示例代码的错别字
  • [ ​​SPARK-25082​​ ] - Spark函数expm1的文档不完整
  • [ ​​SPARK-25273​​ ] - 如何安装testthat v1.0.2
  • [ ​​SPARK-25583​​ ] - 在文档中添加新添加的与历史服务器相关的配置
  • [ ​​SPARK-25656​​ ] - 添加有关如何使用Parquet / ORC库选项的示例部分
  • ​​https://databricks.com/blog/2018/11/08/introducing-apache-spark-2-4.html​​
  • ​​http://spark.apache.org/releases/spark-release-2-4-0.html​​

继续阅读