前段时间,小编去珠海参加了一个技术开放日,百无聊赖之际,突然听到台上传来一个中气十足的声音:
一个成熟的办公软件,应该学会自己做PPT。
猛地把思绪从四面八方拉回来,凝神聚焦:“咦、好大的口气!这是用的什么武林秘诀?”一看,来者正是金山办公副总裁、AI 中台负责人姚冬。
久闻姚冬是知乎大V,粉丝高达16万,C++等话题的优秀答主,连田渊栋都关注了他。金山软件在三十多年前成立,一个老牌公司,能有什么大动静?
然后,小编就被台上的展示打脸了!
看看人家这多图自动排版:
看看人家这自动文字配图:
基于WPS高清图库,AI 算法自动识别文案中的“关键词”,然后检索与该词相关的图片,根据匹配度从高到低展示,供你任意挑选!
比如,PPT上写的内容是围绕“海洋保护”,AI 算法会自动匹配与“海洋”、“海洋生物”有关的图片,且图片质量高雅脱俗:
还有表格美化:
全文美化:
不用 PS 就能 3 秒钟抠图:
看到这里,小编已经惊呆了!果然是资深办公软件开发商呀,看得我心服口服。
原来,作为一家积极进取的互联网企业,金山办公在2019年就发布了搭配人工智能引擎的 WPS Office 2019。WPS Office 所引入的智能技术,例如 OCR、文字识别、文字理解、图片检索等等,都是基础的机器学习模型,但一搭配办公场景,立刻变得高大上!
在Docs时代,人们在计算机上处理的文档内容主要是文字,于是金山起了“Word Processing System”(WPS,即“字处理系统”)这个名字。随着时间的发展,WPS 已成长为一个综合性的办公软件,开发出了一系列让办公更加高效、有趣的功能,减轻都市人的工作负担,让写字楼里各行各业的打工人能早点下班!
7月22日,金山办公在珠海举办了首个技术开放日,展示了人工智能算法在办公场景的应用场景。除了智能办公,该开放日还有三大亮点:
-
WPS 四代核心程序员对话(PC-移动-云-AI);
-
华南理工大学金连文教授从OCR技术出发,谈 AI 时代的文字识别技术;
-
国内首个面向办公的深度学习框架 KSAI-Lite 开源。
WPS 四代程序员对话
在金山,你可以当一辈子程序员。
作为一家已有33年历史的办公软件开发商,金山办公经过了PC、移动、云三个时代,如今又紧跟人工智能潮流,进入“AI赋能办公”的时代。立足当下,展望未来,金山办公高级副总裁庄湧的描述十分朴素:
「我们都很有信心,金山办公还能再活30年。」
图注:金山办公高级副总裁庄湧
从WPS 2000 到 2021,金山办公屹立不倒的背后是一群特别的程序员。他们的特别之处是什么呢?
也许是坐落在节奏悠闲、生活舒适的广东珠海,与一线城市的大厂技术人员相比,金山办公的程序员都长着一张张“没有被欺负过”的脸:步伐悠闲,姿态散漫,迎面走来便有着不谙世事般的纯粹与天真,结伴吃饭,结伴散步,基本不加班。
不懂得享受生活的程序员,造不出“能偷懒”的办公软件。从 WPS 的 PPT 制作来看,我们就能领略到他们的思维魅力:一键替换、一键美化、一键配图、一键翻译、一键写作……什么都是追求“一步到位”。
也正是他们的“一阳指”功夫,敲出了5000万行金山办公代码,敲出了承载4.94亿月活量的WPS Office。
在7月22日的技术开放日上,金山办公的四代资深程序员(PC、移动、云、AI)同台对话,进一步展示了金山办公的技术氛围:简单,朴素,悠闲,一双运动鞋,加一件黑色T恤、一条牛仔裤,就是少年。
这四位程序员分别是朱熠锷、黄嘉宁、黄传通与姚冬。他们是最早加入金山办公的一群人,当时都是冲着雷军与求伯君的名声而去,之后十多年,一路见证了金山办公的成长。
比如,毕业于南开大学化学系的姚冬是1988年加入金山软件担任程序员的,当时负责金山词霸、金山快译与金山游侠的开发,中途曾离开金山一段时间,又在2017年重返金山办公,负责人工智能相关的开发工作;
黄嘉宁与朱熠锷是2003年加入金山办公,两个人都参与过 WPS 2005 版本(内部代号“V6”)的开发。WPS 2005的发布是一个著名的里程碑:当时,在微软办公的包围下,WPS 2005 凭借“兼容”与“免费”两大特性突围而出,三个月总下载量超过 3800 万,重新杀出一片天。如今,朱熠锷主要负责WPS PDF的底层研发,黄嘉宁负责在线多人协同文档编辑;
黄传通是其中最年轻的程序员,在2009年加入金山办公,先是参加金山快盘的研发,之后参加云文档的研发,目前在负责 WPS 全球云服务的推广与研发。
图注:由左到右分别是姚冬(AI)、黄传通(云)、黄嘉宁(移动)与朱熠锷(PC)
每一个时代都有独特的精彩:PC时代的关键词是“绝地重生”,凭借 WPS 2005 突围而出;移动时代的关键词是“弯道超车”,在手机端可用的办公文档app寥寥无几时,金山办公先于微软推出了 WPS 的移动版本,大幅提升了市场占有率;云时代的关键词是“云端一体”,实现多屏、多设备之间文件存储与相通;而 AI 时代的关键词是“轻松办公”,注重效率,改善体验。
值得注意的是,金山办公从2005年开始就将“轻量”作为WPS的发展目标之一。金山办公开源的 KSAI-Lite 框架也是主打“轻量”,这与金山办公的“用户至上”宗旨有关。据朱熠锷介绍,在WPS 2005 版本里,当时金山办公的团队是从零开始,采用全新的架构,在模块化、分层、接口的抽象与模块的复用上做了许多工作,最终成功使 WPS 2005 版本的安装包压缩到只有 16 MB。
“在2005年那会,上网的速度没有那么快,所以安装包的大小关乎到普通用户的使用与体验。同期微软发布的安装包超过100 MB,我们大约是它的 1/10 规模,所以得到了很多用户的好评。”朱熠锷回顾。
此外,自PC时代起,金山办公每发布一个版本,基本是一个月升级一个更新包。到了移动时代,金山办公强迫自己将“一月一更”的频率加速到“一星期一更”,也就是当时金山办公的团队每个星期都要敲下千万行准确的代码。
千万行代码是什么概念?姚冬解释:“一个比较优秀的程序员一年能写 5 万行,就算是很勤奋、很努力了。1000万行代码,大概需要一个优秀的程序员马不停蹄地写 200 年。”这一作风,打破了小编对金山办公程序员团队“身在红尘之外、与世无争”的印象。
可见虽毗邻珠海的阳光沙滩,享受海景办公室,金山办公一代又一代的程序员虽没有“卷”的痕迹,但一直在按照内部的轨迹前行,不然也打不出一家市值 300 亿美元的中国第一大软件企业。而要加入金山办公,据姚冬的知乎介绍,门槛不高:“只需掌握 C++,每年能写出 10000 行高质量的代码即可。”
后深度学习时代,再谈 OCR
为什么要再谈 OCR 技术?
OCR 的全称是“Optical Character Recognition”,即“光学字符识别”,是指对图像中的文字进行识别,然后以文本的形式返回,又称“扫描王”。
图注:经典的OCR技术路线
如今,OCR 技术的应用已经渗入生活的方方面面,最常见的例子就是小区门口对进出车辆的车牌号识别,对进出车辆进行自动管控:
OCR技术与常见的图像识别等人工智能技术相似,可以将非结构化的数据(比如文档)转换为结构化的信息,从而支撑各类智能应用。
金山办公也采用了OCR技术,其中一个明显的优势是:针对印刷文档,金山的文字识别软件可以在提取文字的基础上,保持原文的排版格式,包括段落、字体、字号、颜色、间距、对齐、表格等等。
除了在线 OCR,他们还针对用户隐私考虑,开发了离线 OCR,可以在客户端的电脑与手机上运作,无需联网也能保证相当高的识别率与出色性能。
但是,我们知道,如果只是“识别”,那么也仅仅是停留在感知阶段。技术开放日下午,来自华南理工大学的金连文教授从 OCR 的文字识别出发,展开了一个话题的讨论与畅想:AI 时代的文字识别技术,不仅是感知识别,还有认知理解。
图注:华南理工大学电子与信息学院教授、广东省琶洲实验室OCR中心主任金连文
金连文教授提出,文字识别是最具有落地应用价值的人工智能技术之一。比如,在智能办公的场景中,OCR 或其他识别技术可以将一张图片的信息快速转换为可编辑的文档,可以大大提高办公的效率;出国旅游,只需手机扫一扫,就能快速将外文转换为清晰可读的中文,打破语言隔阂,等等。
但是,金连文教授介绍:“我们不仅要教会计算机认字,还要教会计算机去理解文字背后的语义信息,掌握知识。”这也是后深度学习时代,人工智能领域常说的“认知发展”。文字作为人类思想与知识的载体,当文字识别的精确度已经达到 99%,计算机理解文字的能力也要跟上。
一个常见的观点是:人工智能有三要素,即数据、算法与算力。而金连文教授认为,人工智能的发展除了这“三驾马车”,还要加上一项重要的因素:知识。如此,才有希望解决机器在认知层面的问题。所谓“知识”,指的是物理常识、领域知识、语义知识,以及从大量无监督数据中学到的知识等等。
无疑,OCR技术的应用已经十分广泛,但正如金教授所说,OCR的发展空间不仅局限于办公领域,还可以应用在许多复杂的场景,比如曲线文本识别、街景招牌文字识别、手写数学公式识别、混合教育试卷文档理解、文档的视觉问答等等。
“OCR技术虽然古老,但非常底层。”金教授认为,下一代 OCR 的发展要结合更好的文字理解技术,才能进一步实现“文档智能”。金山办公除了文字编辑,还有辅助写作等有趣的应用,虽是“低配版的GPT-3”,但不难发现,在 WPS 的海量数据加持下,OCR如虎添翼。
OCR是一个代表,但不是全部;是一个较好理解的起点,但不是终点。我们很少会将 OCR 技术归类为人工智能,但事实上,早在上世纪80年代,LeCunn就在NIPS 1989上发表了第一篇应用神经网络进行手写字符识别的文章:
论文地址:https://papers.nips.cc/paper/1989/file/53c3bce66e43be4f209556518c2fcb54-Paper.pdf
此后,将NN、CNN与RNN等深度学习技术用于OCR提升的工作也不胜枚举。在办公场景,OCR技术让人工智能更“接地气”。
甚至大胆一点:基于 WPS 多年来高质量的文字数据,不仅是文字识别,也许金山办公在下一个三十年会成为引领 AI 认知的新巨头。
KSAI-Lite框架开源
除了四代程序员对话与金连文教授的演讲,金山办公技术开放日还宣布了一个重磅消息:开源国内首个面向办公的深度学习框架 KSAI-Lite!
金山办公从 2017 年开始布局人工智能底层技术。在过去的三十年里,金山办公积累了包括端到端推理引擎在内的技术,覆盖了所有操作系统、设备与指令集。在技术开放日召开前夕,他们决定将技术开源出来,公布了基于 TensorFlow 架构的轻量级深度学习框架 KSAI-Lite。
姚冬介绍,现代办公的特点是跨端和多屏,用户会同时使用多种设备,在多种设备之间通过网络共享和协作,这就要求技术方案也可以在多种终端上有一致的功能和体验。金山办公的产品能适配几乎所有软硬件平台,因此,他们此次开源,是希望和业界分享这项能力。
KSAI-Lite具有免费、开源、跨端的特性,并且能够自适应国内外主流软硬件平台,包括国产信创环境,在OCR(光学字符识别)、机器翻译、智能校对等落地场景也具有显著优势。
借助 TensorFlow 和 TensorFlow Lite 在框架层的算法优化能力,移动版 WPS 有多个业务场景开始使用 AI 算法,来进行图片的处理和转换:
-
物体边缘检测。金山 WPS 设计的 CNN 文档检测网络,可以让安卓版用户快速检测结果,自动判断边缘并调整滤镜;
-
自动识别图片类型。金山 WPS 利用 TensorFlow Lite 实现了能够自动识别图片类型的 OCR 模型,提供对应的滤镜和 OCR 输出格式;
-
扫描件 OCR。采用 TensorFlow 部署模型,可以对文档实现旋转矫正、文本行检测等操作,节省大量文档编辑时间;
-
自然场景 OCR。利用 TensorFlow Lite 将自然场景 OCR 运行在手机上,使它能在短时间内从复杂场景中准确定位文字并获得理想的识别结果;
-
图片转文档的布局分析。金山 WPS 结合 TensorFlow 与 scikit-learn 框架一起进行图文布局分析算法,大幅度降低了算法的研发成本。
据介绍,在立项时,KSAI-Lite 就确立了四个目标:通用、高性能、轻量和专业。在后续的技术实践中,KSAI-Lite团队围绕这四个目标进行了技术方案的设计和研发,在多框架支持、适配、性能、功耗、内存等方面都进行了专门优化。
此外,金山办公还同步发布了KSAI OCR开源模型。OCR模型以及库文件大小不超过9MB,可轻量化部署,在文本检测、文本分类和文本识别上都表现出了较好的性能。
目前,KSAI-Lite框架已在 GitHub 上发布。
写在最后
事实上,除了雷军与求伯君,金山办公江山不改,但人才辈出。
从金山走出来的技术大牛,有七牛云的创始人许式伟,是 WPS 2005 的首席架构师,著有《Go语言编程》一书,姚冬称,“Go语言在中国这么流行,有一半是许式伟的功劳”;有现任B站董事长的陈睿,原先在金山词霸担任总经理,负责毒霸的安全卫士;360负责手机卫士的姚彤,等等。在如今的BAT里,也有不少曾经的金山人身影。
姚冬举了一个有趣的事例:他之前在 YY 工作时,一个项目大概要写100多万行 C++ 代码。当时新进来的小朋友一看:“100多万行?一脸懵逼。”有几个从 WPS 出来的同事后来去了YY,他们的反应是:“才100万行?小项目。”他因此感慨:
WPS的工程师都是见过大世面的人呀。
大约是金山办公人的骨子里热爱挑战,所以这家企业才没有被时代抛弃。从PC、移动到云、AI,金山办公的核心项目虽然一直都是 WPS,但不难发现,这个团队总在不断地审时度势,追求创新。
也正因为金山办公与时俱进、不断创新的精神,截至 2021 年 3 月 31 日,WPS office PC 版的月度活跃用户数达到了 1.94 亿,移动版月度活跃用户数达到 2.94 亿,可以说,“每 5 个中国人,就有 1 个是 WPS 用户。”
人们常说,温室里培养出来的都是花朵,逆境更容易出人才。但在金山办公看来,打造顺境从不意味逃避逆境,也不等同于人云亦云、亦步亦趋。至少就“智能办公”来看,“懒惰”不羞于成为产品的核心,基于历久弥坚的技术所进行的有序创新,也许才是当代打工人的福音所在。
0 条评论