创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
顶级伦理片 实时语音识别接口诠释 - VR视角
栏目分类
PRODUCT CENTER

快播伦理电影下载

你的位置:VR视角 > 快播伦理电影下载 > 顶级伦理片 实时语音识别接口诠释

顶级伦理片 实时语音识别接口诠释

发布日期:2024-11-01 12:26    点击次数:97

对长工夫的语音数据流进行识别顶级伦理片,适用于会议演讲、视频直播等长工夫不隔断识别的场景。

维持的输入面目:单声说念(mono)、16 bit采样位数,包括PCM、PCM编码的WAV、OGG封装的OPUS、OGG封装的SPEEX、AMR、MP3、AAC。

维持的音频采样率:8000 Hz、16000 Hz。

维持缔造复返拆伙:是否复返中间识别拆伙,在后处理中添加标点,将汉文数字转为阿拉伯数字输出。

维持缔造多言语识别:在限度台裁剪神志中进行模子礼聘,确定请参见经管神志。

当今维持的语种和方言模子如下:

就近地域智能接入

实时语音识别维持就近地域智能接入,域名为nls-gateway.aliyuncs.com。

保举结尾用户使用就近地域接入域名。字据调用接口时客户端场所的地舆位置,系统会自动理会到最近的某个具体地域的劳动器。例如在北京地域发起苦求,系统会自动理会到北京地域的劳动器,与指定域名nls-gateway-cn-beijing.aliyuncs.com的拆伙成果一致。

劳动地址

拜谒类型

诠释

URL

外网拜谒(默许上海地域)

扫数劳动器均可使用外网拜谒URL(SDK中默许缔造了外网拜谒URL)。

上海:wss://nls-gateway-cn-shanghai.aliyuncs.com/ws/v1

北京:wss://nls-gateway-cn-beijing.aliyuncs.com/ws/v1

深圳:wss://nls-gateway-cn-shenzhen.aliyuncs.com/ws/v1

ECS内网拜谒

使用阿里云上海、北京、深圳ECS(即ECS地域为华东2(上海)、华北2(北京)、华南1(深圳)),可使用内网拜谒URL。 ECS的经典集聚不可拜谒AnyTunnel,即不可在内网拜谒语音劳动;若是但愿使用AnyTunnel,需要创建独到集聚在其里面拜谒。

上海:ws://nls-gateway-cn-shanghai-internal.aliyuncs.com:80/ws/v1

北京:ws://nls-gateway-cn-beijing-internal.aliyuncs.com:80/ws/v1

深圳:ws://nls-gateway-cn-shenzhen-internal.aliyuncs.com:80/ws/v1

交互历程image1. 鉴权

客户端与劳动端开采WebSocket结合时,使用Token进行鉴权。对于Token获得请参见获得Token详尽。

2. 驱动识别

客户端发起苦求,劳动端证据苦求有用。其中在苦求音书中需要进行参数缔造,各参数由SDK中SpeechTranscriber对象的set才调缔造,各参数含义如下:

参数

类型

是否必选

诠释

appkey

String

管控台创建的神志Appkey。获得Appkey请前去限度台。

format

String

音频面目,包括PCM、WAV、OPUS、SPEEX、AMR、MP3、AAC。

sample_rate

Integer

音频采样率,默许是16000 Hz,字据音频采样率在管控台对应神志中确立维持该采样率及场景的模子。

enable_intermediate_result

Boolean

是否复返中间识别拆伙,默许是false。

enable_punctuation_prediction

Boolean

是否在后处理中添加标点,默许是false。

enable_inverse_text_normalization

Boolean

ITN(逆文本inverse text normalization)汉文数字调治阿拉伯数字。缔造为True时,汉文数字将转为阿拉伯数字输出,默许值:False。

customization_id

String

自学习模子ID。

vocabulary_id

String

定制泛热词ID。

max_sentence_silence

Integer

语音断句检测阈值,静音时长超越该阈值会被觉得断句,参数范围200ms~6000ms,默许值800ms。

开启语义断句enable_semantic_sentence_detection后,此参数无效。

enable_words

Boolean

是否开启复返词信息,默许是false。

disfluency

Boolean

过滤口吻词,即声息顺滑,默许值false(关闭)。

speech_noise_threshold

Float

杂音参数阈值,参数范围:[-1,1]。取值诠释如下:

取值越趋于-1,杂音被判定为语音的概率越大。

取值越趋于+1,语音被判定为杂音的概率越大。

enable_semantic_sentence_detection

Boolean

是否开启语义断句,可选,默许是False。语义断句参数需要和开启中间拆伙谐和使用,即开启该语义断句参数需将中间拆伙参数同期怒放:enable_intermediate_result=true。

special_word_filter

String(结构为JSON面目)

敏锐词过滤功能,维持开启或关闭,维持自界说敏锐词。该参数可拆伙:

不处理(默许,即展示原文)、过滤、替换为*。

具体调用诠释请见下文的自界说过滤词调用示例。

自界说过滤词调用示例如下:

            // 以实时转写为例,
            JSONObject root = new JSONObject();
            root.put("system_reserved_filter", true);

            // 将以下词语替换成空
            JSONObject root1 = new JSONObject();
            JSONArray array1 = new JSONArray();
            array1.add("驱动");
            array1.add("发生");
            root1.put("word_list", array1);

            // 将以下词语替换成*
            JSONObject root2 = new JSONObject();
            JSONArray array2 = new JSONArray();
            array2.add("测试");
            root2.put("word_list", array2);

						// 不错一起缔造,也不错部分缔造
            root.put("filter_with_empty", root1);
            root.put("filter_with_signed", root2);

            transcriber.addCustomedParam("special_word_filter", root);

3. 摄取识别拆伙

客户端轮回发送语音数据,捏续摄取识别拆伙:

SentenceBegin事件示意劳动端检测到了一句话的驱动。实时语音识别劳动的智能断句功能会判断出一句话的驱动与拆伙,例如如下:

{
        "header": {
                "name顶级伦理片space": "SpeechTranscriber",
                "name": "SentenceBegin",
                "status": 20000000,
                "message_id": "a426f3d4618447519c9d85d1a0d1****",
                "task_id": "5ec521b5aa104e3abccf3d361822****",
                "status_text": "Gateway:SUCCESS:Success."
        },
        "payload": {
                "index": 1,
                "time": 0
        }
}

header对象参数诠释:

参数

类型

诠释

namespace

String

音书所属的定名空间。

name

String

音书称呼,SentenceBegin示意一个句子的驱动。

status

Integer

气象码,示意苦求是否得手,见劳动气象码。

status_text

String

气象音书。

task_id

String

任务全局独一ID,请纪录该值,便于排查问题。

message_id

String

本次音书的ID。

payload对象参数诠释:

参数

类型

诠释

index

Integer

句子编号,从1驱动递加。

time

Integer

面前已处理的音频时长,单元是毫秒。

TranscriptionResultChanged事件示意识别解发放生了变化。仅当enable_intermediate_result取值为true时会屡次复返此音书,即一句话的中间识别拆伙,例如如下:

{
        "header": {
                "namespace": "SpeechTranscriber",
                "name": "TranscriptionResultChanged",
                "status": 20000000,
                "message_id": "dc21193fada84380a3b6137875ab****",
                "task_id": "5ec521b5aa104e3abccf3d361822****",
                "status_text": "Gateway:SUCCESS:Success."
        },
        "payload": {
                "index": 1,
                "time": 1835,
                "result": "北京的天",
                "confidence": 1.0,
                "words": [{
                        "text": "北京",
                        "startTime": 630,
                        "endTime": 930
                }, {
                        "text": "的",
                        "startTime": 930,
                        "endTime": 1110
                }, {
                        "text": "天",
                        "startTime": 1110,
                        "endTime": 1140
                }]
        }
}       

header对象参数同上述表格诠释,name为TranscriptionResultChanged:示意句子的中间识别拆伙。

payload对象参数诠释:

参数

类型

诠释

index

Integer

句子编号,从1驱动递加。

time

Integer

面前已处理的音频时长,单元是毫秒。

result

String

面前句子的识别拆伙。

words

List< Word >

面前句子的词信息,需要将enable_words缔造为true。

confidence

Double

面前句子识别拆伙的置信度,取值范围:[0.0,1.0]。值越大示意置信度越高。

SentenceEnd事件示意劳动端检测到了一句话的拆伙,并附带复返该句话的识别拆伙,例如如下:

{
        "header": {
                "namespace": "SpeechTranscriber",
                "name": "SentenceEnd",
                "status": 20000000,
                "message_id": "c3a9ae4b231649d5ae05d4af36fd****",
                "task_id": "5ec521b5aa104e3abccf3d361822****",
                "status_text": "Gateway:SUCCESS:Success."
        },
        "payload": {
                "index": 1,
                "time": 1820,
                "begin_time": 0,
                "result": "北京的天气。",
                "confidence": 1.0,
                "words": [{
                        "text": "北京",
                        "startTime": 630,
                        "endTime": 930
                }, {
                        "text": "的",
                        "startTime": 930,
                        "endTime": 1110
                }, {
                        "text": "天气",
                        "startTime": 1110,
                        "endTime": 1380
                }]
        }
}

header对象参数同上述表格诠释,name为SentenceEnd示意识别到句子的拆伙。

payload对象参数诠释:

参数

类型

诠释

index

Integer

句子编号,从1驱动递加。

time

Integer

面前已处理的音频时长,单元是毫秒。

begin_time

Integer

面前句子对应的SentenceBegin事件的工夫,单元是毫秒。

result

String

面前的识别拆伙。

words

List< Word >

面前句子的词信息,需要将enable_words缔造为true。

confidence

Double

面前句子识别拆伙的置信度,取值范围:[0.0,1.0]。值越大示意置信度越高。

Words对象参数诠释:

参数

类型

诠释

text

String

文本。

startTime

Integer

词驱动工夫,单元为毫秒。

endTime

Integer

词解短工夫,单元为毫秒。

4. 拆伙识别

见告劳动端语音数据发送完成,劳动端识别拆伙后见告客户端识别收场。

劳动气象码

在劳动的每一次反应中,齐包含status字段,即劳动气象码,此处列举通用失实码、网关失实码、确立失实码表格,如下表所示。

通用失实码

气象码

气象音书

原因

处理决策

40000000

默许的客户端失实码,对应了多个失实音书。

用户使用了不对理的参数轻率调用逻辑。

请参考官网文档示例代码进行对比测检会证。

40000001

The token 'xxx' has expired;

The token 'xxx' is invalid

用户使用了不对理的参数轻率调用逻辑。通用客户端失实码,延续是波及Token联系的不正确使用,例如Token逾期轻率罪犯。

请参考官网文档示例代码进行对比测检会证。

40000002

Gateway:MESSAGE_INVALID:Can't process message in state'FAILED'!

无效轻率失实的报文音书。

请参考官网文档示例代码进行对比测检会证。

40000003

PARAMETER_INVALID;

Failed to decode url params

用户传递的参数有误,一般常见于RESTful接口调用。

请参考官网文档示例代码进行对比测检会证。

40000005

Gateway:TOO_MANY_REQUESTS:Too many requests!

并发苦求过多。

若是是试用版调用,残忍您升级为商用版块以增大并发。

若是已是商用版,可购买并发资源包,扩张您的并发额度。

40000009

Invalid wav header!

失实的音书头。

若是您发送的是WAV语音文献,且缔造format为wav,请预防查抄该语音文献的WAV头是否正确,不然可能会被劳动端断绝。

40000009

Too large wav header!

传输的语音WAV头不对法。

残忍使用PCM、OPUS等面目发送音频流,若是是WAV,残忍照看语音文献的WAV头信息是否为正确的数据长度大小。

40000010

Gateway:FREE_TRIAL_EXPIRED:The free trial has expired!

试用期已拆伙,何况未通畅商用版、或账号欠费。

请登录限度台证据劳动通畅气象以及账户余额。

40010001

Gateway:NAMESPACE_NOT_FOUND:RESTful url path illegal

不维持的接口或参数。

请查抄调用时传递的参数内容是否和官网文档条款的一致,并聚集失实信息对比排查,缔造为正确的参数。

比如您是否通过curl敕令本质RESTful接口苦求, 拼接的URL是否正当。

40010003

Gateway:DIRECTIVE_INVALID:[xxx]

客户端侧通用失实码。

示意客户端传递了不正确的参数或提示,在不同的接口上有对应的顾惜报错信息,请参考对应文档进行正确缔造。

40010004

Gateway:CLIENT_DISCONNECT:Client disconnected before task finished!

在苦求处理完成前客户端主动拆伙。

无,轻率请在劳动端反应完成后再关闭畅达。

40010005

Gateway:TASK_STATE_ERROR:Got stop directive while task is stopping!

客户端发送了面前不维持的音书提示。

请参考官网文档示例代码进行对比测检会证。

40020105

Meta:APPKEY_NOT_EXIST:Appkey not exist!

使用了不存在的Appkey。

请证据是否使用了不存在的Appkey,Appkey不错通过登录限度台后稽察神志确立。

40020106

Meta:APPKEY_UID_MISMATCH:Appkey and user mismatch!

调用时传递的Appkey和Token并非归并个账号UID所创建,导致不匹配。

请查抄是否存在两个账号混用的情况,幸免使用账号A名下的Appkey和账号B名下生成的Token搭配使用。

403

Forbidden

使用的Token无效,例如Token不存在轻率已逾期。

请缔造正确的Token。Token存在有用期为止,请实时在逾期前获得新的Token。

41000003

MetaInfo doesn't have end point info

无法获得该Appkey的路由信息。

请查抄是否存在两个账号混用的情况,幸免使用账号A名下的Appkey和账号B名下生成的Token搭配使用。

41010101

夏娃的诱惑

UNSUPPORTED_SAMPLE_RATE

不维持的采样率面目。

面前实时语音识别只维持8000 Hz和16000 Hz两种采样率面目的音频。

41040201

Realtime:GET_CLIENT_DATA_TIMEOUT:Client data does not send continuously!

获得客户端发送的数据超时失败。

客户端在调用实时语音识别时请保捏实时速度发送,发送完成后实时关闭畅达。

50000000

GRPC_ERROR:Grpc error!

受机器负载、集聚等身分导致的相称,延续为偶发出现。

一般重试调用即可还原。

50000001

GRPC_ERROR:Grpc error!

受机器负载、集聚等身分导致的相称,延续为偶发出现。

一般重试调用即可还原。

52010001

GRPC_ERROR:Grpc error!

受机器负载、集聚等身分导致的相称,延续为偶发出现。

一般重试调用即可还原。

实时语音识别失实码

气象码

气象音书

原因

处理决策

40000004

Gateway:IDLE_TIMEOUT:Websocket session is idle for too long time

苦求开采畅达后,长工夫莫得发送任何数据,超越10s后,劳动端会复返此失实信息。

请在开采畅达后和劳动端保捏交互,比如捏续发送语音流,您不错在集聚音频的同期进行发送, 发送拆伙后实时关闭畅达。

40010004

Gateway:CLIENT_DISCONNECT:Client disconnected before task finished!

在苦求处理完成前客户端主动拆伙。

无,轻率请在劳动端反应完成后再关闭畅达。

40270003

DECODE_ERROR

音频解码失败。

请字据本体音频面目,缔造对应的format参数。

41000002

APPKEY_KEY_IS_NULL

莫得正确缔造appkey。

请参考官网文档及示例代码顶级伦理片。



创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False