Java HashSet LinkedHashSet TreeSet类源码解析

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介: Set集合中不含有重复的元素,插入重复的元素会失败。常用的有HashSet LinkedHashSet TreeSet。HashSet是无序的集合,LinkedHashSet中的排序和插入成功的顺序一致重复插入,TreeSet中元素是有序排列的,排序的依据是自身的comparator如果为null则根据key从小到大排序。

Set集合中不含有重复的元素,插入重复的元素会失败。常用的有HashSet LinkedHashSet TreeSet。HashSet是无序的集合,LinkedHashSet中的排序和插入成功的顺序一致重复插入,TreeSet中元素是有序排列的,排序的依据是自身的comparator如果为null则根据key从小到大排序。HashSet和LinkedHashSet都是支持插入null的,TreeSet是否支持视comparator的情况,如果comparator不支持比较null的大小或者没有自定义的comparator则不支持插入null


HashSet

HashSet是基于HashMap实现的Set集合,所以支持插入null,但是不保持任何顺序。add成功时返回true,add已有元素时返回false。remove已有元素成功时返回true,remove不存在的元素时失败返回false。和HashMap一样是非线程安全类

    public static void main(String args[]){
        Set<String> set = new HashSet<>();
        System.out.println(set.add("123"));//true
        System.out.println(set.add("123"));//false
        System.out.println(set.add(null));//true
        System.out.println(set.remove(null));//true
        System.out.println(set.remove(null));//false
    }

定义与构造函数

首先从定义上来看,HashSet实现的是Set接口,Set是一种没有重复元素的集合,比如HashMap的KeySet就是一种Set集合

public class HashSet<E>
    extends AbstractSet<E>
    implements Set<E>, Cloneable, java.io.Serializable

从属性中可以看出,他是基于HashMap来实现的,PRESENT是Map跟底层Map相关联的虚拟值,实际上所有对HashSet的操作底层都可以理解为value=PRESENT的对HashMap的操作,后面几个方法中会用到

    private transient HashMap<E,Object> map;

    private static final Object PRESENT = new Object();

然后来看构造函数,无参构造默认构建一个大小为16,负载因子为0.75的HashMap;复制构造时取c/0.75+1和16中的较大值作为大小,负载因子0.75;可以单独设定初始大小,负载因子取默认的0.75,也可以同时指定负载因子;最后一种HashSet(int initialCapacity, float loadFactor, boolean dummy)是内部方法只有LinkedHashSet使用,构建一个链表式HashSet,底层是LinkedHashMap。

    public HashSet() {
        map = new HashMap<>();
    }

    public HashSet(Collection<? extends E> c) {
        map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
        addAll(c);
    }

    public HashSet(int initialCapacity, float loadFactor) {
        map = new HashMap<>(initialCapacity, loadFactor);
    }

    public HashSet(int initialCapacity) {
        map = new HashMap<>(initialCapacity);
    }

    HashSet(int initialCapacity, float loadFactor, boolean dummy) {
        map = new LinkedHashMap<>(initialCapacity, loadFactor);
    }

对集合的操作函数

上面提到了,HashSet底层是基于HashMap的KeySet,所有value都是PRESENT,所以只需要增加参数后复用HashMap的操作即可完成大部分对HashSet的操作

    //返回迭代器
    public Iterator<E> iterator() {
        return map.keySet().iterator();
    }
    //返回元素个数
    public int size() {
        return map.size();
    }
    //返回集合是否为空
    public boolean isEmpty() {
        return map.isEmpty();
    }
    //返回Set中是否含有某个对象,底层通过HashMap.containKey实现
    public boolean contains(Object o) {
        return map.containsKey(o);
    }
    //添加元素e,对于底层来说相等于添加键值对(e,PRESENT),因为map.put会返回旧元素值,而set中不含有重复值,所以若直接map中不存在e则返回null此时函数返回true;而已有e时返回的是e,函数返回值为false
    public boolean add(E e) {
        return map.put(e, PRESENT)==null;
    }
    //移除某个对象,map.remove方法移除了已有的键值对返回的是value的值,对于Set来说也就是PRESENT,所以返回PRESENT相当于移除成功返回true
    public boolean remove(Object o) {
        return map.remove(o)==PRESENT;
    }
    //直接清除map中的所有对象
    public void clear() {
        map.clear();
    }

clone方法就是先复制一个空的HashSet,然后通过map.clone复制map,但是元素本身没有复制,也就是说引用是相同的对象

    public Object clone() {
        try {
            HashSet<E> newSet = (HashSet<E>) super.clone();
            newSet.map = (HashMap<E, Object>) map.clone();
            return newSet;
        } catch (CloneNotSupportedException e) {
            throw new InternalError(e);//因为HashSet和HashMap都实现了clone接口,这个错误理论上不会出现
        }
    }

spliterator基于HashMap.KeySpliterator生成一个初始大小为空的分裂器

    public Spliterator<E> spliterator() {
        return new HashMap.KeySpliterator<E,Object>(map, 0, -1, 0, 0);
    }

序列化函数

writeObject基本上就是HashMap的基础上去掉了value值的写入。readObject先读取基本参数,并调整大小保证集合至少有0.25的负载率,最后新建底层的Map并读取元素插入集合。

    private void writeObject(java.io.ObjectOutputStream s)
        throws java.io.IOException {
        // 写入隐藏的序列化对象
        s.defaultWriteObject();

        // 写入HashMap的大小和负载因子
        s.writeInt(map.capacity());
        s.writeFloat(map.loadFactor());

        // 写入元素个数
        s.writeInt(map.size());

        // 依次写入所有元素
        for (E e : map.keySet())
            s.writeObject(e);
    }

    private void readObject(java.io.ObjectInputStream s)
        throws java.io.IOException, ClassNotFoundException {
        // 读取隐藏的序列化对象
        s.defaultReadObject();

        // 读取大小并检验不是负值
        int capacity = s.readInt();
        if (capacity < 0) {
            throw new InvalidObjectException("Illegal capacity: " +
                                             capacity);
        }

        // 读取负载因子,并检验是正数且不是NaN
        float loadFactor = s.readFloat();
        if (loadFactor <= 0 || Float.isNaN(loadFactor)) {
            throw new InvalidObjectException("Illegal load factor: " +
                                             loadFactor);
        }

        // 读取元素个数并检验是非负数
        int size = s.readInt();
        if (size < 0) {
            throw new InvalidObjectException("Illegal size: " +
                                             size);
        }

        // 重设大小,HashMap的大小需要至少有25%的负载率
        capacity = (int) Math.min(size * Math.min(1 / loadFactor, 4.0f),
                HashMap.MAXIMUM_CAPACITY);

        // 创建底层HashMap,若本身是LinkedHashSet则创建LinkedHashSet
        map = (((HashSet<?>)this) instanceof LinkedHashSet ?
               new LinkedHashMap<E,Object>(capacity, loadFactor) :
               new HashMap<E,Object>(capacity, loadFactor));

        // 从流中顺序读取所有元素,并以map.put(e, PRESENT)的方式加入到map中
        for (int i=0; i<size; i++) {
            @SuppressWarnings("unchecked")
                E e = (E) s.readObject();
            map.put(e, PRESENT);
        }
    }

LinkedHashSet

LinkedHashSet是基于LinkedHashMap实现的,所以也支持插入null并且可以保持元素的顺序一定和插入顺序是一致的,同时插入同一个元素而失败时不会影响排序。整个集合完全是基于其他类实现的,所以代码非常少。先看一下关键的构造函数部分,基本上如前面HashSet中提到,这个true的参数除了鉴别重载类型外没有实际意义,而LinkedHashMap在新建时没有给出accessOrder参数所以默认是插入顺序。复制构造这里有些不同,初始大小是c的元素个数2倍和11中的较大值,而不是一般的16

    public LinkedHashSet(int initialCapacity, float loadFactor) {
        super(initialCapacity, loadFactor, true);
    }

    public LinkedHashSet(int initialCapacity) {
        super(initialCapacity, .75f, true);
    }

    public LinkedHashSet() {
        super(16, .75f, true);
    }

    public LinkedHashSet(Collection<? extends E> c) {
        super(Math.max(2*c.size(), 11), .75f, true);
        addAll(c);
    }

    HashSet(int initialCapacity, float loadFactor, boolean dummy) {
        map = new LinkedHashMap<>(initialCapacity, loadFactor);
    }

分裂器是重写过的,Spliterator.DISTINCT | Spliterator.ORDERED代表这个分裂器的集合是不重复的且有序的

    public Spliterator<E> spliterator() {
        return Spliterators.spliterator(this, Spliterator.DISTINCT | Spliterator.ORDERED);
    }

TreeSet

TreeSet是一个排序Set,并且他在没有重写过支持null的comparator的情况下是不支持插入null的

    public static void main(String args[]){
        Set<String> set = new TreeSet<>();
        System.out.println(set.add("123"));//true
        System.out.println(set.add("123"));//false
        //System.out.println(set.add(null));报错
        //System.out.println(set.remove(null));报错
        System.out.println(set.remove("123"));//true
        System.out.println(set.remove("123"));//false
    }

定义与构造函数

首先我们可以看到TreeSet实现的接口就和HashSet不同,是NavigableSet说明这是一个有序排列的Set,底层基于TreeMap实现的NavigableMap接口,同时也是使用一个内存中共享的PRESENT作为虚假的value值。

public class TreeSet<E> extends AbstractSet<E>
    implements NavigableSet<E>, Cloneable, java.io.Serializable
    
    private transient NavigableMap<E,Object> m;

    private static final Object PRESENT = new Object();

之前在TreeMap解析中提到过比较器的问题,如果不在构造时给出新的构造器,则默认根据key的大小来排序,此时若key是不能比较类或抛出错误。构造函数可以看出除非在构造时直接给出comparator或者根据SortedSet进行复制构造,否则都是按key自身来进行排序

    TreeSet(NavigableMap<E,Object> m) {
        this.m = m;
    }    

    public TreeSet() {
        this(new TreeMap<E,Object>());
    }

    public TreeSet(Comparator<? super E> comparator) {
        this(new TreeMap<>(comparator));
    }

    public TreeSet(Collection<? extends E> c) {
        this();
        addAll(c);
    }

    public TreeSet(SortedSet<E> s) {
        this(s.comparator());
        addAll(s);
    }

集合操作函数

TreeSet除了可以返回升序的迭代器外,还可以返回降序的迭代器和降序的Set,在TreeMap中分析过,这里的遍历是对红黑树的中序遍历,而降序迭代器只是改变了指针移动的顺序,对于descendingSet来说因为TreeMap.descendingMap()是返回的自身而新建的TreeSet中只是将这个返回结果设为m,所以对descendingSet的操作会直接反映到原本的TreeSet上面

    public Iterator<E> iterator() {
        return m.navigableKeySet().iterator();
    }

    public Iterator<E> descendingIterator() {
        return m.descendingKeySet().iterator();
    }

    public NavigableSet<E> descendingSet() {
        return new TreeSet<>(m.descendingMap());
    }

add和remove操作和HashSet的设计一样以PRESENT作为虚假的value值进行操作,由于TreeMap在使用key默认排序时不支持以null作为key,所以对于没有设置comparator时插入null会抛出java.lang.NullPointerException错误

    public boolean add(E e) {
        return m.put(e, PRESENT)==null;
    }

    public boolean remove(Object o) {
        return m.remove(o)==PRESENT;
    }

然后是addAll方法,在自身的底层集合为空,c不为空,c是SortedMap,自身的底层集合是TreeMap时可以通过addAllForTreeSet调用buildFromSorted来完成线性时间的构建,否则只能一个个插入树中,一次插入时间复杂度为O(lgn),n是size大小

    public  boolean addAll(Collection<? extends E> c) {
        // Use linear-time version if applicable
        if (m.size()==0 && c.size() > 0 &&
            c instanceof SortedSet &&
            m instanceof TreeMap) {//自身的底层集合为空,c不为空,c是SortedMap,自身的底层集合是TreeMap
            SortedSet<? extends E> set = (SortedSet<? extends E>) c;
            TreeMap<E,Object> map = (TreeMap<E, Object>) m;
            Comparator<?> cc = set.comparator();
            Comparator<? super E> mc = map.comparator();
            if (cc==mc || (cc != null && cc.equals(mc))) {//双方的comparator相等
                map.addAllForTreeSet(set, PRESENT);
                return true;
            }
        }
        return super.addAll(c);
    }
    //仅供TreeSet使用
    void addAllForTreeSet(SortedSet<? extends K> set, V defaultVal) {
        try {
            buildFromSorted(set.size(), set.iterator(), null, defaultVal);
        } catch (java.io.IOException cannotHappen) {
        } catch (ClassNotFoundException cannotHappen) {
        }
    }

下边几个子集函数,参数中int的XXElement都是下标类参数,Inclusive代表这个下标元素本身是否包含在截取范围内,因为TreeMap中所有子集操作都是基于自身而没有复制元素,所以对于以下这些子集的修改都会反映到TreeSet上面

    //截取fromElement到toElement间,Inclusive为true时为下标自身包含在范围内
    public NavigableSet<E> subSet(E fromElement, boolean fromInclusive,
                                  E toElement,   boolean toInclusive) {
        return new TreeSet<>(m.subMap(fromElement, fromInclusive,
                                       toElement,   toInclusive));//fromElement、toElement是截取的下标范围,Inclusive为true时本身也包括在内
    }
    //截取小于(inclusive为true时为小于等于)toElement的子集
    public NavigableSet<E> headSet(E toElement, boolean inclusive) {
        return new TreeSet<>(m.headMap(toElement, inclusive));
    }
    //截取大于(inclusive为true时为小于等于)fromElement的子集
    public NavigableSet<E> tailSet(E fromElement, boolean inclusive) {
        return new TreeSet<>(m.tailMap(fromElement, inclusive));
    }
    //截取包含从fromElement开始到不含toElement结束的子集
    public SortedSet<E> subSet(E fromElement, E toElement) {
        return subSet(fromElement, true, toElement, false);
    }
    //截取小于toElement的子集
    public SortedSet<E> headSet(E toElement) {
        return headSet(toElement, false);
    }
    //截取大于等于fromElement的子集
    public SortedSet<E> tailSet(E fromElement) {
        return tailSet(fromElement, true);
    }

下面几个都是查询方法,直接通过TreeMap对应的函数来寻找指定的值

    public E first() {
        return m.firstKey();//返回最小的元素
    }

    public E last() {
        return m.lastKey();//返回最大的元素
    }

    public E lower(E e) {
        return m.lowerKey(e);//返回大于e的元素中最小的
    }

    public E floor(E e) {
        return m.floorKey(e);//返回小于e的元素中最大的
    }

    public E ceiling(E e) {
        return m.ceilingKey(e);//返回大于等于e的元素中最小的
    }

    public E higher(E e) {
        return m.higherKey(e);//返回小于等于e的元素中最大的
    }

poll在查询的基础上如果查找成功会删除对应的元素,只能从最小和最大的开始删除

    public E pollFirst() {
        Map.Entry<E,?> e = m.pollFirstEntry();//删除最小的结点
        return (e == null) ? null : e.getKey();
    }

    public E pollLast() {
        Map.Entry<E,?> e = m.pollLastEntry();//删除最大的结点
        return (e == null) ? null : e.getKey();
    }

TreeMap的clone方法复制了底层的集合但没有复制元素本身,也就是说对树的操作相互之间不影响,但是对相同元素的操作是相互影响的。比如说Set中的元素是一个bean,将原TreeSet中第一个元素的某个属性修改了,clone出的TreeSet中的第一个元素也会改变,这点前面两个Set类也是同样的。

    public Object clone() {
        TreeSet<E> clone;
        try {
            clone = (TreeSet<E>) super.clone();
        } catch (CloneNotSupportedException e) {
            throw new InternalError(e);
        }

        clone.m = new TreeMap<>(m);//复制出一个新的TreeMap
        return clone;
    }

序列化

writeObject比较容易看懂,就是依次写入比较器、元素个数和每个元素,元素的顺序是树的中序遍历顺序

    private void writeObject(java.io.ObjectOutputStream s)
        throws java.io.IOException {
        // 写入任何隐藏的部分
        s.defaultWriteObject();

        // 写入比较器
        s.writeObject(m.comparator());

        // 写入元素个数
        s.writeInt(m.size());

        // 根据迭代器的顺序也就是key从小到大写入所有元素
        for (E e : m.keySet())
            s.writeObject(e);
    }

readObject先读取比较器和大小,然后通过TreeMap.readTreeSet从流中读取构建一个TreeMap

    private void readObject(java.io.ObjectInputStream s)
        throws java.io.IOException, ClassNotFoundException {
        // 读入隐藏部分
        s.defaultReadObject();

        // 读入比较器
        @SuppressWarnings("unchecked")
            Comparator<? super E> c = (Comparator<? super E>) s.readObject();

        // 创建一个TreeMap设为m
        TreeMap<E,Object> tm = new TreeMap<>(c);
        m = tm;

        // 读入元素个数
        int size = s.readInt();

        tm.readTreeSet(size, s, PRESENT);
    }
    //只有TreeSet.readObject调用
    void readTreeSet(int size, java.io.ObjectInputStream s, V defaultVal)
        throws java.io.IOException, ClassNotFoundException {
        buildFromSorted(size, null, s, defaultVal);//从流中读取构建一个TreeMap
    }
相关文章
|
23天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
60 2
|
27天前
|
Java
轻松上手Java字节码编辑:IDEA插件VisualClassBytes全方位解析
本插件VisualClassBytes可修改class字节码,包括class信息、字段信息、内部类,常量池和方法等。
77 6
|
1月前
|
存储 Java 编译器
Java内存模型(JMM)深度解析####
本文深入探讨了Java内存模型(JMM)的工作原理,旨在帮助开发者理解多线程环境下并发编程的挑战与解决方案。通过剖析JVM如何管理线程间的数据可见性、原子性和有序性问题,本文将揭示synchronized关键字背后的机制,并介绍volatile关键字和final关键字在保证变量同步与不可变性方面的作用。同时,文章还将讨论现代Java并发工具类如java.util.concurrent包中的核心组件,以及它们如何简化高效并发程序的设计。无论你是初学者还是有经验的开发者,本文都将为你提供宝贵的见解,助你在Java并发编程领域更进一步。 ####
|
1月前
|
安全 Java 测试技术
🎉Java零基础:全面解析枚举的强大功能
【10月更文挑战第19天】本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&订阅!持续更新中,up!up!up!!
116 60
|
8天前
|
存储 算法 Java
Java内存管理深度解析####
本文深入探讨了Java虚拟机(JVM)中的内存分配与垃圾回收机制,揭示了其高效管理内存的奥秘。文章首先概述了JVM内存模型,随后详细阐述了堆、栈、方法区等关键区域的作用及管理策略。在垃圾回收部分,重点介绍了标记-清除、复制算法、标记-整理等多种回收算法的工作原理及其适用场景,并通过实际案例分析了不同GC策略对应用性能的影响。对于开发者而言,理解这些原理有助于编写出更加高效、稳定的Java应用程序。 ####
|
14天前
|
数据采集 存储 Web App开发
Java爬虫:深入解析商品详情的利器
在数字化时代,信息处理能力成为企业竞争的关键。本文探讨如何利用Java编写高效、准确的商品详情爬虫,涵盖爬虫技术概述、Java爬虫优势、开发步骤、法律法规遵守及数据处理分析等内容,助力电商领域市场趋势把握与决策支持。
|
18天前
|
存储 安全 Java
Java多线程编程中的并发容器:深入解析与实战应用####
在本文中,我们将探讨Java多线程编程中的一个核心话题——并发容器。不同于传统单一线程环境下的数据结构,并发容器专为多线程场景设计,确保数据访问的线程安全性和高效性。我们将从基础概念出发,逐步深入到`java.util.concurrent`包下的核心并发容器实现,如`ConcurrentHashMap`、`CopyOnWriteArrayList`以及`BlockingQueue`等,通过实例代码演示其使用方法,并分析它们背后的设计原理与适用场景。无论你是Java并发编程的初学者还是希望深化理解的开发者,本文都将为你提供有价值的见解与实践指导。 --- ####
|
24天前
|
存储 算法 Java
Java Set深度解析:为何它能成为“无重复”的代名词?
Java的集合框架中,Set接口以其“无重复”特性著称。本文解析了Set的实现原理,包括HashSet和TreeSet的不同数据结构和算法,以及如何通过示例代码实现最佳实践。选择合适的Set实现类和正确实现自定义对象的hashCode()和equals()方法是关键。
26 4
|
27天前
|
Java 编译器 数据库连接
Java中的异常处理机制深度解析####
本文深入探讨了Java编程语言中异常处理机制的核心原理、类型及其最佳实践,旨在帮助开发者更好地理解和应用这一关键特性。通过实例分析,揭示了try-catch-finally结构的重要性,以及如何利用自定义异常提升代码的健壮性和可读性。文章还讨论了异常处理在大型项目中的最佳实践,为提高软件质量提供指导。 ####
|
1月前
|
存储 设计模式 分布式计算
Java中的多线程编程:并发与并行的深度解析####
在当今软件开发领域,多线程编程已成为提升应用性能、响应速度及资源利用率的关键手段之一。本文将深入探讨Java平台上的多线程机制,从基础概念到高级应用,全面解析并发与并行编程的核心理念、实现方式及其在实际项目中的应用策略。不同于常规摘要的简洁概述,本文旨在通过详尽的技术剖析,为读者构建一个系统化的多线程知识框架,辅以生动实例,让抽象概念具体化,复杂问题简单化。 ####