标签归档：AI

一个AI公司需要多少人

Stable Diffusion 和 ChatGPT 的大火，让沉寂已久的AI世界再次翻红。又开始有人在问，在AI越来越成熟的今天，程序员是否有必要去学算法，投身AI行业。在我看来对程序员而言AI带来的机会更多是如何利用AI带来的能力而不是去创造一个AI。

曾在AI公司待过一段时间，这段经历给我最大的感觉是： AI 行业是一个资本密集型产业，对普通程序员来说没太多的机会。AI的发展对普通程序员带来的最大变化是出现来一批很好用的 API ，可以实现一些以前实现不了的想法。另外就是如何利用新出现的一批AI工具提高自己的工作效率。

为什么不建议普通程序员进入AI行业

简单来说AI行业需要的专业算法人员非常少，且门槛非常高。非算法相关的人员，相对而言门槛又太低。

常规应用，通用模型已经很成熟了。对于 99.9%人根本不可能构建出一个比开源模型更好的模型。
模型的性能优化是个体力活，而且随着技术的发展，以后可能不需要手动的性能优化。
模型的调优需要大量的数据和硬件。数据清洗是和 AI 没关系的纯体力活。参数调优又需要大量的硬件，¥成本普通人（公司）根本承担不起（据说 ChatGPT 训练一次的成本就高达 1 千万美元）。

一个AI公司需要多少人

前面说到AI公司需要的人少，但具体少到什么程度可能会超乎很多人的想象。

OpenAI

OpenAI（ChatGPT 的母公司），仅2022年，就花费了约5.44亿美元。而与之对应的是”今年1月，OpenAI创始人透露公司员工人数为375人“。关键是这375人里包含了行政等支持人员及数据收集整理人员。

Midjourney

相比 OpenAI ，AI绘图领域的巨头 Midjourney 在人力方面更是做到了极致。Midjourney 总共只有11人：1创始人，1财务，1法务，8研发（其中4人为本科实习生）。

参考

Midjourney：伟大的公司只需要十一人

使用AI修复将画像还原成照片

GFPGAN 是一个使用 AI 进行人脸修复的工具，即使对非常模糊的人脸也可起到不错的修复效果。Hugging Face 提供了AI应用Demo的快速部署。我 Fork 了一份 GFPGAN 的 Demo 并做了少量的调整以加强对图片的支持。

在线体验地址 https://huggingface.co/spaces/vicalloy/GFPGAN

AI技术在图片生成领域有了不错的进展，现在已经可以通过文字生成质量不错的图片了。之前就一直想尝试用AI人脸修复将画中的人脸修复成照片，只是迫于拖延症一直未能真正动手。这些天试了一下，发现这个想法切实可行，就是修复出的效果算不上出色。

Tips

AI 照片修复实际上是让 AI 对图片进行自行“脑补”的一个过程，所以原图细节一定不能过多（图片一定要小，或是），不然不利于 AI 软件的自行发挥。
樱木花道的输出效果不太好，再小丢失的细节又过多，因此加了个高斯模糊。注：理论上加高斯模糊比单纯的缩小图片效果要好，大家可以对其他图片试试。
应当是缺少样本，外加人脸检测时，如果胡子过长截取人脸时会丢失部分胡子。古人的长须无法完整修复。
过于“漫画化”的图片是无法识别到人脸的。

效果

樱木花道

唐太宗李世民

乾隆

韩熙载

宋太祖赵匡胤

将OpenVINO预训练模型转为为ONNX，并使用TVM进行优化

OpenVINO是Intel推出的一款深度学习工具套件。OpenVINO带来大量的预训练模型，使用这些预训练模型可以快速的开发出自己的AI应用。

不过既然是Intel出的东西，自然少不了和Intel平台深度绑定。OpenVINO主要针对Intel的CPU进行优化。虽然也可以支持GPU，但支持的是Intel家的GPU。Intel家的GPU，应当不用报太多期待了。

为了支持更丰富的硬件类型，可以将OpenVINO自带的预训练模型转为ONNX格式，然后在做其他处理。

OpenVINO模型导出为ONNX

OpenVINO优化后的预训练模型无法直接转换为ONNX。不过好在Intel有提供模型的训练和导出工具，利用OpenVINO的训练工具导出ONNX

OpenVINO用于训练和导出的库为： https://github.com/openvinotoolkit/training_extensions 。

具体的操作方式参见项目的具体说明文档。

对照人脸检测的文档，导出人脸检测对应ONNX模型： https://github.com/openvinotoolkit/training_extensions/tree/develop/models/object_detection/model_templates/face-detection

注：导出目录里有 export/，export/alt_ssd_export/ 两种模型。其中 export/alt_ssd_export/ 包含了OpenVINO特有的实现，在转换为其他推理引擎模型时会失败，因此后续工作使用 export/ 中的模型。

使用TVM对ONNX模型进行优化

针对TVM的VM进行优化

对于存在动态shape的模型，TVM无法进行编译。很不幸的是OpenVINO中物体检测相关的模型都存在动态shape。在TVM无法编译的情况下，可使用TVM的VM进行执行。

注：
- 关于VM的相关内容请阅读： https://tvm.apache.org/docs/dev/virtual_machine.html
- TVM的文档比较欠缺（特别是VM相关的内容）。不过好在项目还在快速迭代过程中，提交的issue很快就可以得到回复。
- 根据测试，使用VM模式，在CPU上TVM的速度甚至比用 ONNXRuntime 还要慢不少。不知道是否是跑在虚拟机上的关系。

import onnx
import time
import tvm
import numpy as np
import tvm.relay as relay
target = 'llvm -mcpu=skylake'
model_path = 'face-detection-0200.onnx'
onnx_model = onnx.load(model_path)
shape = [1,3,256,256]
input_name = "image"
shape_dict = {
        input_name: shape,
        }
mod, params = relay.frontend.from_onnx(onnx_model, shape_dict)
print(relay.transform.DynamicToStatic()(mod))
with tvm.transform.PassContext(opt_level=3):
    executable = relay.vm.compile(mod, target="llvm", target_host=None, params=params)
code, lib = executable.save()
with open("code.ro", "wb") as fo:
    fo.write(code)
lib.export_library("lib.so")

针对TVM进行编译和优化

如果你的模型可以正常编译，那就没必要采用VM模式了。直接编译理论上优化效果要好很多。这里采用的是TVM范例中给出的图片分类模型。

一个完整的模型优化和执行可以参考官方文档：Compiling and Optimizing a Model with the Python AutoScheduler

import onnx
import time
import tvm
import numpy as np
import tvm.relay as relay
target = 'llvm'
model_name = 'mobilenetv2'
model_path = f'{model_name}.onnx'
onnx_model = onnx.load(model_path)
mod, params = relay.frontend.from_onnx(onnx_model)
with relay.build_config(opt_level=3):
    graph, lib, params = relay.build(mod, target, params=params)
path_lib = f"./{model_name}.so"
lib.export_library(path_lib)
fo=open(f"./{model_name}.json","w")
fo.write(graph)
fo.close()
fo=open("./{model_name}.params","wb")
fo.write(relay.save_param_dict(params))
fo.close()

VM模式下加载和运行优化好的模型

加载前面导出的模型，并执行。


import onnx
import time
import tvm
import numpy as np
import tvm.relay as relay
def vmobj_to_array(o, dtype=np.float32):
    if isinstance(o, tvm.nd.NDArray):
        return [o.asnumpy()]
    elif isinstance(o, tvm.runtime.container.ADT):
        result = []
        for f in o:
            result.extend(vmobj_to_array(f, dtype))
        return result
    else:
        raise RuntimeError("Unknown object type: %s" % type(o))
shape = [1, 3, 224, 224]
model_path = 'face-detection-0200'
loaded_lib = tvm.runtime.load_module(f"{model_path}.tvm.so")
loaded_code = bytearray(open(f"{model_path}.tvm.code", "rb").read())
exe = tvm.runtime.vm.Executable.load_exec(loaded_code, loaded_lib)
ctx = tvm.cpu()
vm = tvm.runtime.vm.VirtualMachine(exe, ctx)
data = np.random.uniform(size=shape).astype("float32")
out = vm.run(data)
out = vmobj_to_array(out)
print(out)

天地一沙鸥

to be continue….

标签归档：AI

一个AI公司需要多少人

为什么不建议普通程序员进入AI行业

一个AI公司需要多少人

OpenAI

Midjourney

参考

使用AI修复将画像还原成照片

Tips

效果

将OpenVINO预训练模型转为为ONNX，并使用TVM进行优化

OpenVINO模型导出为ONNX

使用TVM对ONNX模型进行优化

针对TVM的VM进行优化

针对TVM进行编译和优化

VM模式下加载和运行优化好的模型

归档