【Python+C#】手把手搭建基於Hugging Face模型的離線翻譯系統,並通過C#代碼進行訪問
前言:目前翻譯都是在線的,要在C#開發的程序上做一個可以實時翻譯的功能,好像不是那麼好做。而且大多數處於局域網內,所以訪問在線的api也顯得比較尷尬。於是,就有了以下這篇文章,自己搭建一套簡單的離線翻譯系統。以下內容採用python提供基礎翻譯服務+ C#訪問服務的功能,歡迎圍觀。
系統環境: WIN10
開發環境:VS2022 + VS CODE
開發語言環境: Python3.8 + .NET 6
以下正文:
1、由於本地環境沒有python,所以先安裝python有關環境先。
2、安裝好以後,控制台下輸入 python,進入如下終端內容,就代表安裝成功了。建議安裝時候,選擇自動添加到環境變量裏面,這樣不需要自己配置了。
3、由於翻譯功能,會使用到一些已有的模型進行計算,所以以下需要安裝幾個包。第一個是pytorch, 輸入 pip install torch 即可安裝。如果安裝比較慢,在後面設置一個鏡像,可以加速,例如此處我使用的清華的加速器://pypi.tuna.tsinghua.edu.cn/simple
4、然後安裝flask: pip install flask
5、接着需要安裝 gevent: pip install gevent
6、接着是 transformers
7、安裝transformers時候,有的會自動安裝sentencepiece包,有的時候不會。如果上面查找沒有,就手動安裝一下:
8、以上包安裝完畢,打開VS CODE,創建一個python語言文件
9、此處文件命名為 MyTranslate.py 然後引入可能所需要的包
10、接着,上 //huggingface.co/Helsinki-NLP 上面,查找需要的語言翻譯模型。此處使用的離線翻譯,使用的該項目下的。
11、Models裏面有上千個語言模型,選擇自己需要的名稱,記住就行。
12、此處,我選了四個模型,分別是英漢/漢英 以及德漢/漢德的翻譯模型。有關代碼實現如下所示。
13、接着定義一個api接口,用於提供給外部訪問(畢竟主業不是python,提供api就可以跨語言來訪問該服務了)。有關代碼如下所示。
14、VS CODE上運行程序,可以看到終端控制台上面打印出一些下載進度。這是因為本地現在還沒有模型,我們選擇的四個模型,會被下載到本地來,這樣下次就不需要再下載模型了。
15、 模型加載完畢,啟動服務。此處0.0.0.0代表本機ip都可以被訪問,我們正常使用時候,本機就127.0.0.1即可;如果是局域網或者外網,那就提供真實IP即可。
16、下載的模型,會自動下載到當前用戶文件夾下,具體效果如下圖所示。所以如果某個服務器沒有外網,也可以直接拷貝該.cache文件夾到指定服務器下面的某用戶下,也可以被識別。
17、打開postman,做個簡單的測試。可以看到,服務是可以被成功訪問的,說明代碼可以跑,問題不是很大。
18、換一種翻譯模式再試一下:
19、再試一試另類點的,看看效果:
20、看不懂德文,把德文搞到百度在線翻譯上面反翻譯回來,看來語意好像差不多。
【中途插播,防止被惡意轉載抹除個人出處使用】 該博客原創作者 Wesky,公眾號:Dotnet Dancer 博客原地址://www.cnblogs.com/weskynet/p/16740041.html
21、程序這樣運行不是事兒,所以我們可以把它打包為exe程序來運行,這樣就可以在不安裝python環境的電腦也可以跑了。安裝 pyinstaller:
22、在MyTranslate.py同文件夾下,新建一個py文件,名稱不能改:hook-ctypes.macholib.py 該文件用於提供虛擬環境使用。
23、該文件下,需要導入所有可能用到的依賴的包。不然打包可能出錯;或者打包完畢以後,運行可能出錯。
24、打包應用的內容,根據個人實際情況來選擇,pip 下載時候,有一個 Collecting提示,提示後面就是安裝的依賴包,不曉得哪些需要的,就全部搞進去,減少錯誤幾率。
25、執行打包命名 pyinstaller -F xxx.py –additional-hooks-dir=. 如果不需要有控制台提示,可以加個 -w
26、打包安裝成功了
27、打包成功的exe文件,自動放在 dist文件夾下
28、生成的exe文件,如圖。
29、直接運行走一波,看看效果。為了避免看不到錯誤提示,所以我在控制台內運行,如圖
30、由於模型被下載過,所以第二次啟動,不會重複下載模型。
31、現在再用 Postman 走一波,看看效果。
32、直接運行的程序,難免被人不小心誤操作給關閉了,所以我們還可以把他丟到Windows服務上面,這樣服務器重啟也不擔心了。使用NSSM工具進行操作。如果想知道如何使用,也可以參考我的另一篇博客。博客地址://www.cnblogs.com/weskynet/p/14961565.html
33、設置描述,備註為 離線翻譯服務。安裝為服務 TranslateService(名字可以隨意)
34、安裝以後,可以看到已經生成一個對應的Windows服務了。
35、服務啟動,可以等待一小會兒,加載模型要一丟丟時間。一小會兒以後,使用Postman進行測試一下,看看效果。
36、接下來,創建一個基於.NET的webapi程序,用來通過代碼來訪問翻譯服務,看看能不能訪問到。
37、創建一個控制器,搭建個基礎模子先。
38、注入IHttpClientFactory(用來訪問webapi使用的,實際上就是提供HttpClient)。然後寫個簡單的測試功能,直接看以下代碼:
39、通過自帶的swagger,走一波。輸入有關參數,走一個看看,嘿,可以使用,bingo~
40、後記:如果需要源碼的,可以微信搜索 Dotnet Dancer 或者掃描以下二維碼,在公眾號窗口發送 【離線翻譯神器】,即可下載。