August 12, 2025

Shisa.ai 如何用 3 人團隊打造最懂日文的大語言模型?專訪創辦人 Jia Shen

在東京街頭的一間餐廳裡,一名外國旅客指著菜單,試著用英文詢問:「Hi, just wondering—does this contain any nuts? I’m allergic.」(你好,這道菜有含堅果嗎?我會過敏)店員一愣,聽不懂對方的話,只能連聲鞠躬說「すみません」,一邊緊張地比手畫腳。旅客一時語塞,不確定對方是不是沒聽懂,只好尷尬地笑了笑,氣氛陷入凝結——彼此站在同一張餐桌前,卻像隔著一層厚玻璃。

這樣的場景,在日本的便利店、餐廳、車站等地方每天上演。每年,多達 3,600 萬名國際觀光客造訪這個國家,語言不通不只是旅途中的小困擾,更逐漸成為壓力巨大的產業痛點——不只影響觀光體驗,更牽動整體國家的競爭力。

這個痛點,正是日本新創 Shisa.ai 極力解決的。創辦人沈佳(Jia Shen)與核心團隊一共 3 人,試圖用 AI 改變人與人之間的交流方式,他和團隊打造了即時語音翻譯產品 Chotto.chat:只要打開手機,無論在藥妝店、餐廳還是計程車上,用戶都能用母語自然說話,Chotto 會即時翻譯成流暢的日語,同時保留語氣與情緒,讓交流順暢而真實。「語音比文字更能展現人類的情感和語氣,只有讓交流聽起來自然,人們才會願意放心開口。」沈佳說。

支撐 Chotto 的背後,是 Shisa.ai 自行訓練的大型日語語言模型——Shisa V2-405B。這款模型擁有高達 4,050 億參數,並以社群授權形式釋出,開放研究與非商業用途使用,成為目前表現最好的日文語言模型之一。

Shisa.ai 推出自行訓練的大型日語語言模型 Shisa V2-405B。(圖 / Shisa.ai)

根據團隊的評測結果,Shisa V2-405B 在多項日語任務上——包含指令理解、角色扮演對話、日英翻譯、語意推理與文本生成等——展現出與 OpenAI 的 GPT-4o 和中國的 DeepSeek-V3 旗鼓相當的實力。

令人驚訝的是,這樣能與科技巨頭匹敵的成果,竟是由一支僅有 3 人的奈米團隊所打造。模型上線後短短一個月內,便在 Hugging Face 社群累積超過百萬次下載,受到全球關注。

Shisa V2-405B 在多項日語任務上展現出與 OpenAI 的 GPT-4o 和中國的 DeepSeek-V3 相當的表現。(圖/Shisa.ai)

為什麼日本需要自己的大語言模型?

對沈佳來說,這是文化、經濟與國安等三層面的結構性挑戰。

首先,從語言本身說起。日語是一種高度倚賴「語境」(context)的語言。許多「潛台詞」,日本人不會直接說出來,而是藏在語氣、關係與社交默契之中。沈佳舉例:「在日本,拒絕往往不會明說。像是對方會說『那天不太方便』,聽起來客氣,其實就是明確的拒絕。」

類似地,一句「愛してる(Aishiteru)」沒有明確主詞與受詞,根據上下文,可能是「我愛你」、「我愛她」,甚至「她愛他」。如果大語言模型無法理解前後語境,就無法正確推論意思——這樣的語言特性,對 AI 來說是極大的挑戰。

這一點,也讓跨文化交流變得格外困難——特別是在服務業的第一線場景中。2025 年僅 4 月,日本便迎來 390 萬名觀光客,創下單月歷史新高。然而,零售與餐飲業正面臨前所未有的人力短缺,語言障礙更導致日本錯失大量商機。

日本每年迎來3,600萬名國際旅客,但語言仍是一大阻礙。圖 / 心元資本)

而更長遠來看,生成式 AI 正從商業工具,快速成為地緣政治的戰略資產。如果美中任一方限制 GPT 模型出口,嚴重依賴海外基礎模型的國家,恐面臨無法自主應對的風險。在這樣的脈絡下,擁有能理解在地語言與文化的自有模型,不只是提升效率,更關乎數位主權與國家韌性。

Shisa.ai 選擇將自家模型以社群授權形式釋出,開放研究與非商業使用。他們認為,語言模型不應被少數科技巨頭壟斷,而應成為全民共享的基礎設施。這不只是技術突破,更是一種態度宣言:讓更多有志投入在地 AI 的開發者與企業,有機會參與並壯大這套真正理解日本語言文化的 AI。

從「聲音」解決文化隔閡

Shisa.ai 的第一款產品,是一套從「聲音」出發的即時語音翻譯系統——Chotto.chat。

「我們聊到現在,你應該發現我講話很快了吧!」沈佳笑說。他選擇從即時語音翻譯切入,打造一套能跟上語速、適應自然對話節奏的系統。「Chotto.chat 就是為了像我這樣講話快、需要即時交流的人設計的。」

與一般翻譯工具不同,Chotto.chat 專門為日本人的說話習慣做了優化。不管是講話語速很快,還是在公共場合習慣壓低音量、貼著手機小聲說,它都能即時辨識、自然回應,不讓對話因為技術卡住。

「我們做的不是單純的翻譯,而是讓 AI 聽得懂語氣和情境,講出來的話要像真人一樣自然、有感情。」沈佳解釋,「就像幫戲劇選配音員,不只是念對台詞,還要講得有情緒、有層次。」

目前 Chotto.chat 尚未正式推出 app,卻已每天吸引超過 6,000 名用戶使用,平均每人停留時間達 27 分鐘。除了在購物、點餐能用以外,也能用在不同文化的情侶、朋友之間,讓彼此都能用母語自然交流。

從餐廳到車站:Shisa.ai 成為企業現場的「隱形翻譯員」

除了日常生活對話,Shisa.ai 的語音技術也悄悄走進日本的實體場域,成為接待外籍顧客的重要幫手。

在餐廳,Shisa.ai 成為店員的語言輔助工具,協助回應外國顧客的過敏原詢問,也能支援新進員工的「邊做邊學」。在零售門市,Shisa.ai 則處理免稅規則、尺寸換算與退換貨等常見問題,讓第一線人員能流暢應對、不需中斷工作。

Shisa.ai 正在為日本補上語言與勞動力的空缺。圖 /ISOREPUBLIC

這樣的即時支援,也擴展到公共空間。橫濱車站內,Shisa.ai 已設置支援 17 種語言的 AI kiosk,讓旅客能即時詢問洗手間、車票、商店方位,就像是一塊「會說話的導覽牌」,補上語言與資訊的空缺。

接下來,Shisa.ai 也計畫延伸語音應用,打造結合聊天、提醒與陪伴功能的虛擬寵物,作為日本高齡社會的未來對策之一。

讓每一種文化,都有留下聲音的權利

Shisa.ai 的三位創辦人皆為移民,選擇在日本落腳創業。他們相信,AI 主權必須從在地語言與文化出發,打造本土模型,不只是為了保留多樣性,更關乎資料隱私、地緣政治韌性與國家的數位自主權。

執行長 Jia Shen 與技術長 Leonard Lin 是共同創辦人,其中 Shisa 模型由 Leonard 領銜開發,是他的代表作。而團隊中的 AI 研究員 Adam Lensenmayer,則有著截然不同的背景——他是日本動畫迷耳熟能詳的字幕翻譯家,曾參與《進擊的巨人》、《鋼彈》、《名偵探柯南》(劇場版)、《銀河鐵道999》、《櫻桃小丸子》、《宇宙戰艦大和號》,以及在便利商店都能買到的《宇宙兄弟》等作品。對語感與語氣的極致講究,讓他在模型的訓練中扮演關鍵角色,也讓 Shisa.ai 更貼近日語世界的深層語境與文化細節。

對沈佳來說,Shisa.ai 的核心不僅僅只是打造「最強的 AI」, 而是想回答一個更深的問題:科技能否拉近我們與家人、與文化的距離?

這個想法來自他對家人的一份掛念。

「我爸爸在十年前過世,而我女兒現在五歲,從來沒有見過爺爺,」沈佳說。「但透過語言模型,我可以保留他的聲音、語氣和人生哲學。未來,我女兒或許能和爺爺說說話,聽他講家裡流傳的笑話。」

這不只是記憶的保存,更是文化的延續。他稱之為「文化捕捉」(cultural capture):記錄那些不會自動留在網路上的聲音與情感。像是長輩的生活對話、地方方言、Z 世代約會時的語氣變化,或是那些不上網、不發文的族群裡,悄悄流動的文化記憶。這些細碎卻深刻的語言,如果沒有人聽見、留下,往往轉瞬即逝。

接下來,Shisa.ai 計畫觸及更多使用者,並將語音翻譯延伸至實體場域,讓車站、商場、餐廳等日常空間,都能悄悄多一個「懂你說話的人」。

畢竟,最動人的科技,有時候並不一定是最顯眼的那一種。它存在於一次句子被聽懂、情緒被理解的瞬間,悄悄發揮力量——讓人與人之間,靠得更近一點。

近期文章

查看全部文章