一个花费几小时排除问题的教训

前言

业务中使用 golang+gin+gorm 开发,最近新上线了一个版本,发现在日活用户数只有几百的时候数据库频繁出现too many connections 的错误,执行show processlist;查看数据库进程都在干嘛,发现了大量连接处于 sleep 的状态。

排查

  • 首先想到的是不是事务没提交,检查了一遍代码没有发现未提交的情况

  • show variables like '%max_connections%';查看数据库最大连接数为 2000 多,不是数据库设置的问题

  • 使用 gorm设置空闲连接数,并发数和连接超时

    1
    2
    3
    
    	mysql.DB.DB().SetMaxIdleConns(50)
    	mysql.DB.DB().SetMaxOpenConns(50)
    	mysql.DB.DB().SetConnMaxLifetime(time.Minute)
    

    重启服务观望了一会,发现连接数并没有减少。

  • 由于 gorm 每次执行完会自动释放连接的,有点怀疑是这里出问题了,在本地测试了一下,疯狂发起请求多次之后发现连接数没有涨,不是 gorm 的问题

  • 走到这里,只能想到还是代码出问题了。。仔细查找连接数上涨的同时用户调用的具体接口,查看具体的业务代码,发现好几处查询使用了 db.Where(xxx).Rows()

    1
    2
    3
    4
    5
    6
    7
    8
    
    	rows, err := db.Select("abs(sum(money)) as money").Rows()
    	if err != nil {
    		return
    	}
    
    	if rows.Next() {
    		err = rows.Scan(&totalMoney)
    	}
    

    由于 gorm 无法 scan接收一个基础类型,这里用 rows 来处理单个值的查询结果。

    这里用了if rows.Next() 会导致roew 结果集没有被取完,而且最后也没用主动关闭,造成连接数无法释放

    修改为正确的姿势,解决了问题

    1
    2
    3
    4
    5
    6
    7
    8
    9
    
    	rows, err := db.Select("abs(sum(money)) as money").Rows()
    	if err != nil {
    		return
    	}
    	defer rows.Close()
    
    	for rows.Next() {
    		err = rows.Scan(&totalMoney)
    	}
    

    测试中发现如果只使用 for rows.Next() ,不主动rows.CLose(),gorm 也会主动帮你 close 掉连接的

###小结

还是太年轻,对数据库操作不够仔细,使用这种需要close 的 api 一定要注意 close。