如有问题
欢迎沟通

前端,网站等内容分享

咨询QQ:717788272

曾遭受DDoS攻击、宕机之扰友谊时光出海路上趟过哪些IT运维的坑

ID:97 / 打印

  提到女性向游戏公司,许多人会想到友谊时光。作为女性向游戏第一股,友谊时光旗下拥有《熹妃传》、《熹妃Q传》、《浮生为卿歌》、《凌云诺》等热门产品,且产品影响力辐射到境外多个市场。

  财报显示,2021年全年,友谊时光海外收入约为4.85亿,占整体收入的30%。这份亮眼成绩单的一大“功臣”是《浮生为卿歌》。2021年,该游戏在境外市场表现良好,在中国港澳台市场最高曾获得iOS游戏畅销榜第4、第1和第9的成绩,在韩国市场最高获得iOS游戏畅销榜第13名的成绩。

  友谊时光境外表现优异背后,不仅得益于其优秀的产品和运营,还跟他们在2021年的一项业务决策息息相关——将海外发行的游戏从本地机房迁移到海外公有云。这一决定,解决了一直困扰他们的IT运维难题。

  近日,在Google Cloud官网上发表的一篇文章中,友谊时光运维总监熊浩分享了关于他们在海外发行中遭遇的IT运维问题以及解决方案,其内容详实,可为出海厂商提供一定的经验参考。

  友谊时光称得上是一家出海老牌公司。成立于2010年的它,在2012年开始尝试出海。或许跟许多出海厂商一样,他们一开始选择和本地运营商合作,将游戏部署在本地机房的服务器上,但随着时间的推移,问题逐渐显现,并发展到严重影响他们业务的地步。总结来看,他们共面临三大难题:

  网络攻击是游戏行业乃至互联网行业的一大难题。其中,游戏行业是DDoS攻击的重灾区,而新游发布时,正处于流量高峰,更是多发期。据熊浩透露,此前他们在中国台湾发行的游戏经常遭遇DDoS攻击,在2018年一款游戏就因为DDoS攻击造成了几个游戏服数小时的中断,重要的登录充值服务也断断续续受到波及,严重损害了玩家的用户体验。

  事后熊浩总结道:“当前的DDoS攻击类型多样,海外的攻击流量虽然小于国内,但对当地来说依然很大。一般我们会选择主流的几家出海的公有云厂商进行防护,但在海外有很多的小运营商是不具备封堵的能力,而大的运营商出现封堵故障时,解决的时间又不可控;这就造成了防护的效果抓大放小,有部分的用户会受到影响;而我们使用的是当地的机房,在带宽有限,缺乏安全机制保障的情况下,防护方案变得形同虚设;最佳的防范方案是将业务部署在Google Cloud 上,借助GCP全球网络的能力既做到高质量的访问,又能防御UDP等非法请求,当攻击流量非常大时再借助专业防护厂商的能力保障业务安全。”

  面对愈发高昂的获客成本,如何留住玩家、避免玩家流失,变得尤为重要,但行业里时常会发生一些劝退玩家的事件,比如不符合预期的内容更新、不合理的运营活动或者是频繁宕机等等。

  由于服务器硬件故障和设备老化等原因,友谊时光最初用来部署在中国台湾和新加坡发行游戏的本地机房服务器,极端情况甚至两到三次宕机,造成游戏服务中断。熊浩直言:“频繁宕机是一个很严重的问题。”

  不仅频繁宕机,且处理时间长。修复故障、完成质检验收并重启服务,友谊时光的运维团队通常需要耗费将近一个小时的时间。“玩家几乎不可能接受这么长的等待时间”,熊浩表示。

  网络游戏成为当今的主流游戏,加之竞技元素在各大游戏中盛行,玩家对网络的快速进入和稳定畅玩,也有了更高的要求。

  对于友谊时光而言,由于刚开始他们使用中国香港节点IDC机房为海外各个国家/地区用户提供账户和更新服务,因此当海外用户想要管理账户或下载游戏更新时,数据需要通过本地网络传送到香港的服务器。数据传输距离很长,不同地区的网络质量也参差不齐,经常出现连线缓慢或错误的情况。而且一旦发生连线中断,用户就无法登录游戏账户或下载完整的更新数据,严重影响用户的游戏体验。

  出海正当时,大家都在关注产品研发、营销打法,而往往会忽略保障玩家游戏体验的IT运维。那该如何做好部署呢?友谊时光的解决方案,或许可以给行业一些参考。

  根据Google Cloud菁英合作伙伴MeshCloud脉时云针对系统架构提供的技术建议,友谊时光将在中国台湾和新加坡发行的四款游戏,以及其为海外用户提供的账户和更新服务,成功地迁移到Google Cloud上。

  “为了解决服务中断的问题,并提升运维效率,我们需要将在海外发行的游戏迁移到具备高性能的计算资源,以及强大全球网络的云基础架构上。”熊浩解释,“Google Cloud符合我们的所有需求。”

  对于迁移至Google Cloud后的成果,可用一个词来总结,即“降本增效”,真正帮友谊时光做到了提高效率的同时降低了成本。

  此前,友谊时光的游戏服务器每天会收到至少一个恶意存取请求,但迁移到Google Cloud后,只有少数黑客送出的存取请求能接触到友谊时光的服务器,友谊时光的游戏服务也未曾因DDoS攻击而中断。

  迁移到Google Cloud后,友谊时光使用Compute Engine上的虚拟机作为海外游戏服务器。Compute Engine的高性能虚拟机极大地提高了设备的稳定性,即使遇到故障,也能在极短的时间内恢复。

  迁移到Google Cloud之后,友谊时光在Compute Engine上的虚拟机从未出现过技术问题,因而提升了其游戏的可用性和用户体验。按照熊浩的说法,Compute Engine的高性能虚拟机大幅降低了故障频率,恢复故障所需的时间也很短,有效地协助友谊时光提供更可靠的服务。

  Google Cloud全球网络支持的Cloud Load Balancing和Cloud CDN为友谊时光提供账户管理和发送游戏更新服务。由于数据可以通过Google Cloud的内网传输,Cloud Load Balancing和Cloud CDN又使用单一anycast IP,从离终端用户最近的服务器分发内容,友谊时光的内容分发速度有了显著提升,数据传输错误的情况也不再出现。

  因为Cloud Load Balancing和Cloud CDN保证内容分发的高速度和高可靠性,所以现在友谊时光的游戏体验不会因为档案传送效率而受到影响。“整体而言,我们游戏服务的网络稳定性从低于99%提高到99.99%。”熊浩说。

  之前选择地域的IDC,当游戏上线快速增长时,无法合理的评估服务器规模和带宽,成本不可控;而且服务器采购和上线流程繁杂,周期特别长,无法满足新游推广的需求。友谊时光在国内发行服务部署上云已运作多年,但在中国台湾地区,能在成本和性能上都兼顾,且满足多方位业务诉求的公有云厂商并不多。

  Google Cloud 的管理后台提供每个虚拟机利用率的详细信息,同时会提出关于如何以更具成本效益方式使用虚拟机的建议,方便合作伙伴优化虚拟机的利用率。另外对于网络数据的上传,Google Cloud 是完全免费的,这极大的降低了网络带宽运营成本,因此迁移后友谊时光整体基础设施的成本降低了20%。

  为了确保云基础架构的高性能表现,友谊时光使用Cloud Monitoring来侦测错误并高效除错。熊浩指出,Cloud Monitoring提供流量来源、流量在游戏服务器间的分发路径等详细系统运行信息,让友谊时光的团队得以建立不同维度的告警机制。以前,他们需要一到两位程序员随时监控他们自建的告警系统,而且因为他们没有所有的系统运营信息,导致错误出现时有时候无法及时反应。而现在友谊时光的程序员只需在收到告警的时候再查看系统,且能快速除错。

  在取得这些成果后,接下来,友谊时光计划与MeshCloud脉时云深入交流,使用数据分析等更多Google Cloud产品来进一步优化游戏体验。

  比如,友谊时光计划将自建的游戏数据库迁移到Cloud SQL上,并将Cloud SQL与BigQuery连接,分析与广告和用户行为相关的数据。和从头开始搭建数据分析平台相比,BigQuery的成本更低,友谊时光能够以更经济的成本结构大规模分析数据,改善游戏服务的质量。

  再比如,友谊时光将把即将在2022年底在一些海外地区推出的新游戏部署在Google Cloud上。

  IT运维非小事。游戏厂商布局出海业务需要具备全球化IT运维部署思维,与优质的合作伙伴合作亦为重要。在友谊时光与Google Cloud合作案例中,MeshCloud脉时云协助友谊时光制定「迁移项目实施路线图」并完成迁移部署,扮演着重要角色。

  MeshCloud脉时云,是领先的出海云服务商,同时也是Google Cloud Premier 级别合作伙伴,向中国出海企业提供云解决方案。凭借一整套产品化、智能化的运维服务工具,7*24小时的线上和线下服务体系,一批具备丰富的 Goolge Cloud 部署和实施经验的云架构师保驾护航,MeshCloud脉时云协助出海企业客户提升业务灵活性,并有效降低用云成本,保障业务发展中 IT 支出的财务指标健康度。

标签: 服务器运维怎么样 
上一篇: NTT Ltd岱凯基于思科SDA实现全景深运维
下一篇: IT运维完美蜕变后将走向何方

作者:遇梦 @ 遇梦前端   2024-03-07