El primer borrador de este artículo lo completé mientras pescaba en el día de descanso de finales de agosto, luego de publicarlo apresuradamente recibí muchos consejos, por lo que el autor agregó, cambió y eliminó algunos contenidos para evitar hacer reír a la gente.
El contenido de este artículo es principalmente evaluar la situación actual de la industria de la IA desde la perspectiva de la inversión, reflexionar y conjeturar sobre las rutas de tecnología / productos de diferentes empresas y abstraer las estrategias de las empresas en la IA. industria. Por lo tanto, es inevitable que haya algunas omisiones cuando se trata de tecnologías específicas, así que tengan paciencia.
Pero en última instancia, varias grandes empresas que pueden publicar artículos todavía están destrozadas y nadie parece poder evaluar la exactitud del contenido de este artículo. Al igual que obtener GPT-3.5 con GPT-4, parece razonable, pero es un poco abstracto si lo piensas.
Por lo tanto, el autor recomienda que este artículo se considere como un "juicio" formado después de recopilar información sobre industrias inciertas. Dado que se trata de un juicio, la posición debe ser clara y la declaración debe tener sentido. En cuanto a si es correcto o no, deja que el tiempo lo pruebe.
El autor siempre cree que: la nueva industria es ruidosa, siempre es correcto usar el cerebro y atreverse a emitir juicios. Para las preguntas de verdadero o falso, la tasa correcta de adivinanzas a ciegas es del 50% y la probabilidad de adivinar incorrectamente tres veces seguidas es del 12,5%. Incluso hacer juicios al nivel de lanzar una moneda tiene sentido. No es terrible emitir un juicio, pero lo más terrible es que la precisión del juicio es menor que la de lanzar una moneda.
Antes de abrir oficialmente este artículo, me gustaría agradecer el siguiente trabajo, que proporcionó valiosa inspiración y fuentes de datos para este artículo. Por supuesto, dado que muchas inferencias en este artículo se basan en estos trabajos, si hay errores o la comprensión del autor es incorrecta, las inferencias en este artículo ya no serán sólidas y se pide a los lectores que juzguen por sí mismos. Este artículo no constituye un consejo de inversión y es difícil constituir un consejo de inversión.
Centro de cadena de pensamiento: un esfuerzo continuo para medir el rendimiento del razonamiento de los modelos de lenguaje grandes (
LIMA: Menos es más para la alineación(
Junio de 2023, revisión de la etapa de ajuste de instrucciones(
Arquitectura, infraestructura, conjunto de datos de capacitación, costos, visión, MoE de GPT-4 (
Bien, comencemos oficialmente este artículo.
Maqueta: Lanzamiento de un cibercohete
El primer paso para debatir la IA en 2023 es discutir si aún es posible emprender proyectos de gran modelo.
El modelo grande (preentrenamiento) ahora se ha transformado en el problema de lanzar un cohete: siempre que se pueda quemar y la dirección sea la correcta, cualquiera puede hacerlo. Se puede decir que entrenar un modelo grande es lanzar un cibercohete.
Algo contrario a la intuición es que los inversores subestiman la dificultad de entrenar modelos grandes, pero sobrestiman la dificultad de lanzar cohetes reales. Con el mismo coste de 60 millones de dólares, los inversores pensarán que existe una segunda oportunidad de que falle el lanzamiento de un cohete, mientras que no poder entrenar un modelo grande se considera una pérdida de dinero.
GPT-4 todavía consume 60 millones de dólares estadounidenses en eficiencia de utilización de GPU de OpenAI (se informa que es aproximadamente igual al 30%). Esta es una cuestión de {rendimiento = eficiencia × costo}, y el rendimiento es un muro. Si otras empresas emergentes no pueden lograr un efecto de rendimiento superior al 30% × 60 millones = 18 millones de dólares estadounidenses, los usuarios también podrían usar GPT-4. directamente.
En la actualidad, las rondas de financiación de muchas empresas que afirman fabricar modelos grandes oscilan entre 1 y 5 millones de dólares estadounidenses. Dicho esto, incluso las empresas con mayor financiación sólo tienen suficiente munición para un único lanzamiento. E incluso si la utilización de la GPU en este lanzamiento alcanza el 100%, es difícil superar el GPT-4.
Desde esta perspectiva, es mejor lanzar cohetes, porque la mayoría de los cohetes actuales son vehículos de lanzamiento que transportan satélites al cielo y la capacidad de carga única es limitada, por lo que las pequeñas empresas de cohetes pueden aceptar pedidos de satélites que otros no han tenido tiempo. lanzar.
Los modelos grandes son diferentes: el costo marginal de la expansión horizontal de los modelos grandes es solo el costo de la potencia informática, y el costo de la potencia informática se puede expandir elásticamente, lo que significa que para las grandes empresas modelo, el beneficio de cada pedido es el beneficio gratuito. Casi no hay costos adicionales y la capacidad de ejecución es muy grande. Es difícil para una empresa modelo a gran escala, nueva y de mala calidad, recibir una demanda excesiva.
A menos que se reduzca considerablemente el coste de la formación, incluso si se conoce la arquitectura completa de GPT-4, a muchas empresas les resultará difícil fabricar un modelo grande que pueda comercializarse en el corto plazo.
Personalización: frente al problema de que "el ganador se lo lleva todo"
En la industria del hardware, un fenómeno común es lograr ganancias tempranas a través de necesidades personalizadas y luego lograr avances tecnológicos (o igualación) a través de ganancias tempranas. Sin embargo, la personalización en la industria de los grandes modelos no es una salida para los nuevos participantes.
Con respecto a este juicio, la explicación es muy simple: la gran mayoría de los modelos ajustados no pueden alcanzar a GPT-4. Incluso si lo logran, usar GPT-4 directamente para la generalización es más barato, requiere menos personal y requiere menos suerte. Menos requisitos de datos. Mientras siga existiendo la brecha de rendimiento entre el GPT-4 y otros modelos, la personalización no puede ser la salida para las grandes empresas de modelos.
Un ejemplo muy típico es Jasper, que utiliza GPT-3 optimizado para atender a clientes empresariales. Sin embargo, después de que OpenAI lanzó ChatGPT (GPT-3.5), sus usuarios perdieron rápidamente. Porque el resultado de Jasper se puede obtener simplemente ingresando GPT-3.5, en lugar de usar una "versión anterior" que tiene capacidades de generalización deficientes y está limitada al uso interno dentro de la empresa.
En comparación con las nuevas empresas, Jasper tiene al menos un período de ventana de desarrollo de GPT-3 a GPT-3.5. Sin embargo, las nuevas empresas ahora deben enfrentarse a la extrusión de GPT-3.5 de bajo costo y alta velocidad y GPT-4 de alto rendimiento al mismo tiempo.
Por lo tanto, la probabilidad de supervivencia de esperar acumular ganancias mediante la personalización para lograr avances tecnológicos es muy baja.
Ajuste: necesario, no seas supersticioso
La actual industria de la IA tiene expectativas poco realistas de realizar ajustes finos, expectativas que están sobreestimadas en términos de implementación técnica específica y ritmo macrotécnico.
El ajuste que se discute actualmente en la industria se refiere principalmente a "basarse en modelos previamente entrenados, para que pueda generar respuestas consistentes con las intenciones humanas". Este tipo de ajuste se puede llamar "alineación", que consiste en alinear las respuestas con la intención humana, en lugar de agregar inteligencia al modelo grande.
Según los resultados de la investigación de muchos artículos, el conocimiento de modelos grandes debería provenir principalmente del entrenamiento previo, mientras que el ajuste fino se utiliza más para la alineación.
La explicación simple es que el entrenamiento previo determina la capacidad cerebral y el ajuste determina el idioma nativo. Afinar el modelo previamente entrenado es un proceso de “eliminar el analfabetismo”.
Sin embargo, el ajuste fino se ve a menudo en la industria como un método para "agregar inteligencia" al modelo, es decir, mejorar el rendimiento del modelo y aumentar el conocimiento del modelo mediante el ajuste fino. Se cree que de esta manera, el "Santo Grial de inteligencia artificial". Esta línea de pensamiento es algo sesgada.
En primer lugar, el rendimiento del modelo en sí no ha mejorado, pero puede alinear mejor las intenciones humanas. Si la complejidad de la tarea excede el rendimiento del modelo, el ajuste fino no producirá los resultados esperados. Es como hacer que el cerebro humano realice cálculos cuánticos: no es cuestión de educación si no se puede hacer.
En segundo lugar, el "suplemento de conocimientos" se realiza en la parte de "alineación de intenciones", y el efecto es más similar a "repetir como un loro". Es decir: el modelo simplemente imita lo que dicen los expertos sin entender el significado. Aunque muchas industrias han podido obtener buenas soluciones "repitiendo como loros" (después de todo, la mayoría de las industrias no son complicadas...), obviamente este no es el resultado que debemos perseguir a largo plazo.
Finalmente, el entrenamiento para "complementar conjuntos de datos adicionales, mejorar el rendimiento del modelo y aumentar el conocimiento del modelo" debe considerarse como un modelo que tiene la capacidad de "aprendizaje incremental/aprendizaje continuo", es decir, todos los parámetros del modelo se pueden procesar a través de Optimización incremental de conjuntos de datos. Este no es el mismo concepto que el llamado "ajuste de instrucciones".
En términos generales, el ajuste es muy importante, pero es incorrecto adoptar una actitud "supersticiosa" hacia el ajuste actual, especialmente aquellos que están ansiosos por llamar al ajuste actual el Santo Grial, que es una especie de "La física actual está en el edificio. Sólo hay dos nubes oscuras flotando".
Dando un paso atrás, si la demanda de "inteligencia creciente" realmente se puede resolver ajustando las instrucciones, realizando una búsqueda vectorial simple, colocando directamente el conocimiento en el contexto y luego simplemente escribiendo algunas plantillas, existe una alta probabilidad. que habrá el mismo o incluso mejor efecto.
A todo el mundo le gusta el ajuste fino, tal vez esto sea una especie de resurgimiento de las habilidades de alquimia en los tiempos modernos...
Perspectivas para modelos grandes: cuatro operaciones aritméticas
(Tenga en cuenta que esta parte del contenido se basa completamente en datos revelados por Dylan Patel y la confiabilidad aún no se puede verificar)
El entrenamiento de GPT-4 se basa en la serie A de tarjetas N. La eficiencia del entrenamiento es del 30%. El tiempo de entrenamiento es de aproximadamente 2 meses. El costo es de aproximadamente 60 millones. La cantidad total de parámetros es {1,7 billones = 110 mil millones × 16 modelos expertos}. Puede manejar un solo problema. Los parámetros son alrededor de 280 mil millones.
En otras palabras, existen varios parámetros clave que conducirán a cambios en el patrón de entrenamiento de modelos grandes.
Eficiencia de la capacitación: aumentar del 30% al 60% puede acortar directamente el tiempo una vez
Mayor intensidad de la potencia informática: después de cambiar de la serie A a la serie H y luego a la tarjeta dedicada a AI, la intensidad de la potencia informática aumenta y se pueden resolver muchos problemas arquitectónicos que afectan la eficiencia.
El costo de la potencia informática ha bajado: Lao Huang (el fundador de Nvidia) descontó la tarjeta gráfica y el costo ha bajado significativamente.
Mejora de la eficiencia de los parámetros: hay margen de mejora en la eficiencia de los parámetros del modelo. En referencia al modelo anterior, la eficiencia de los parámetros del modelo antiguo generalmente se puede aumentar muchas veces. Es posible utilizar el 30% de los parámetros de GPT-4 para lograr un efecto similar
En resumen, el costo de entrenar un modelo con rendimiento de nivel GPT-4 desde cero puede tener de 10 a 20 veces más espacio para la optimización, que se reduce a entre 3 y 6 millones de dólares, lo que es muy rentable para las empresas emergentes. y las grandes empresas son más aceptables.
Este cambio puede tardar unos 2 años en completarse.
En la actualidad, la tecnología principal de modelos grandes todavía se basa en transformadores, la infraestructura no ha cambiado y la idea de refinar la alquimia y agregar parámetros para crear milagros no se ha agotado. El entrenamiento de GPT-4 se lleva a cabo sobre la base de altas limitaciones de potencia informática y el tiempo de entrenamiento no es lo suficientemente largo.
Si los parámetros crecen linealmente con el tiempo de entrenamiento, el límite superior de parámetros para un modelo con una arquitectura similar a GPT-4 puede rondar los 10 billones, es decir: el doble de tiempo de entrenamiento (× 2) y el doble de tarjetas gráficas paralelas ( × 2), la eficiencia del entrenamiento es la mitad de rápida (× 1,5), la eficiencia de los parámetros es la mitad (× 1,5) y el resultado final es diez veces mejor. Según el estilo de apetito por el riesgo de Silicon Valley, lo más probable es que este parámetro se alcance en un año, independientemente de si el rendimiento ha mejorado.
Sin embargo, después de alcanzar los 10 billones de parámetros, se desconoce por completo si LLM todavía puede utilizar la idea de aumentar los parámetros para lograr milagros.
Si el número de parámetros mejora el rendimiento del modelo en un margen decreciente, entonces 10 billones probablemente sean un obstáculo. Sin embargo, también existe la conjetura de que la mejora del rendimiento del modelo por la cantidad de parámetros aumenta marginalmente, similar a "si una persona es lo suficientemente inteligente, puede aprender todo rápidamente". Lo primero está bien, pero si lo segundo se hace realidad, el rendimiento del modelo puede mejorar exponencialmente y lo que sucederá entonces será completamente impredecible.
Es difícil predecir el elixir, pero sí fácil predecir el ritmo estratégico de una empresa. Un modelo con un parámetro total de 10 billones es un punto final a nivel de hito para la mayoría de las empresas, ya sea un gigante como Google/MS/APPL o un OpenAI más pequeño, y es posible detenerse y hacer alguna exploración técnica.
La preferencia de la empresa/capital por el riesgo se puede convertir en un "tiempo de resistencia": si todo el tiempo de resistencia quema intensamente los gastos, es difícil superar los 6 meses. La artesanía humana no crece lo suficientemente rápido y un ciclo suele durar cinco años o más. Por lo tanto, dentro de cinco años, se podrá estimar la cantidad definitiva de parámetros del modelo, que debería ser de 20 a 50 billones. A menos que se produzca nuevamente un gran avance en tecnología/arquitectura, la probabilidad de exceder este orden de magnitud es muy baja.
Multimodal: El elefante en la habitación
La multimodalidad es el elefante en la habitación y puede impactar profundamente el paisaje de la pista de carreras.
La definición simple de multimodalidad es: soportar la entrada y salida de información modal múltiple. Esta definición es muy vaga: por ejemplo, algunos productos en el mercado que afirman poder realizar entradas multimodales son en realidad una capa de OCR fuera de ChatBot. También hay modelos que cumplen plenamente con la definición de multimodalidad, pero su desempeño es decepcionante. Incluso la capacidad de entrada de imágenes multimodal de GPT-4 aún no se ha abierto ampliamente y se puede ver que esta función no es muy estable.
Sin embargo, el lanzamiento de la multimodalidad no está lejos. Existe una alta probabilidad de que GPT-5 admita la multimodalidad de forma nativa, es decir, necesite rediseñar la estructura y volver a capacitarse. Según el razonamiento anterior, los parámetros del modelo grande todavía tienen espacio para crecer de 10 a 50 veces, y debería ser suficiente incorporarle capacidades multimodales. Por lo tanto, se puede esperar que los modelos multimodales con alta disponibilidad y alto rendimiento aparezcan dentro de 2 años y, con optimismo, será casi 1 año.
La multimodalidad es el elefante en la habitación, todo el mundo sabe que eventualmente existirá, pero tantos productos/investigaciones/estrategias ignoran su existencia que hay un error de cálculo en partes clave.
Por ejemplo, en teoría, los modelos de una sola imagen pueden verse severamente oprimidos por los modelos multimodales, pero la mayoría de las investigaciones/inversiones actualmente ignoran esta cuestión, lo que lleva a la sobrevaloración de algunas empresas centradas en la imagen. Es probable que estas empresas pierdan barreras técnicas y se transformen en proveedores de servicios en el futuro. Su sistema de valoración debería referirse a proveedores de servicios y no a empresas de tecnología.
Si quieres contar la historia de "la inversión depende de las personas, el mismo equipo puede transformar el negocio", finge que no lo dije. Las leyendas siempre están ahí, pero no puedes creer en ellas cuando investigas.
¿Quién puede entrenar GPT-4? Puedes, pero no es necesario.
Refinar los elixires no lleva tanto tiempo y las grandes empresas están comprando tarjetas gráficas. Una cosa que es muy obvia es que en un año las grandes empresas podrán entrenar modelos de nivel GPT-4. Pero entrenar o no es otra cuestión.
En el campo de los juegos, existe una propuesta clásica llamada "Yuanshin jugando a Yuanshen", es decir: cuando los jugadores pueden elegir jugar a Yuanshen o un producto competidor de Yuanshen, si el producto de la competencia no es tan bueno como Yuanshen, entonces juegue Original God. .
Este enfoque de "el ganador se lo lleva todo" también se aplica a la industria de modelos a gran escala. Si una empresa sigue OpenAI, después de medio año de investigación y desarrollo, lanza su propio modelo grande con un rendimiento del 90% comparable al GPT-4, con la esperanza de llevarlo al mercado. En este momento, la empresa enfrentará los siguientes problemas:
OpenAI tiene la ventaja de escala de los recursos en la nube y costos más bajos.
La API de OpenAI se ha utilizado ampliamente en códigos de productos y es difícil reemplazarla.
El rendimiento del producto de la empresa aún no supera el GPT-4
El producto de próxima generación de OpenAI (probablemente GPT-5) se lanzará pronto
Se puede observar que la presión sobre la empresa es considerable. En lugar de entrenar GPT-4, es mejor apostar directamente por el modelo de próxima generación (contra GPT-5). Entonces el problema pasará de "problema de productos competidores similares" a "problema de innovación tecnológica". Esta es una carga insoportable para las pequeñas empresas.
Por tanto, discutir "quién puede entrenar GPT-4" es una cuestión estratégicamente muerta: en lugar de pensar en este problema, es mejor encontrar una dirección con más certeza y oportunidades.
Consejos para nuevas empresas de IA: anteponga el rendimiento, evite quedarse
El autor ha escrito muchos artículos quejándose de langchain, la razón fundamental es que langchain no deja espacio para que los desarrolladores mejoren el rendimiento. Se llama "marco universal" y, para garantizar la generalidad, se han abandonado muchas mejoras de rendimiento de modelos grandes, como el control de formato logrado mediante múltiples rondas de diálogo y ajuste. Otros similares incluyen orientación/Auto-GPT/BabyAGI, etc., todos los cuales quieren construir un "marco que pueda durar toda la vida".
Un hecho objetivo es que OpenAI lanzó Function Calling en mayo, y muchos lugares problemáticos en el código tienen mejores soluciones de implementación, y el costo de implementar una mejor solución es refactorizar partes clave del código del producto. En agosto, OpenAI publicó permisos para ajustar GPT-3.5 y muchos enlaces que requieren un control preciso de la salida tienen nuevas soluciones potenciales.
Por lo tanto, las startups deben enfrentar una elección clave: ¿deberían elegir ① mejorar el rendimiento y refactorizar constantemente los productos, o ② reducir el uso de nuevas funciones y utilizar siempre funciones antiguas para el desarrollo?
Para el emprendimiento de aplicaciones de nuevas tecnologías, el “desarrollo” no sólo representa el proceso de escribir código, sino que también representa el “límite superior” de la funcionalidad/estrategia del producto. Cuanto mayor sea el rendimiento que se puede controlar, más funciones teóricas tendrá el producto y mayor será su flexibilidad estratégica.
El desarrollo de la tecnología es impredecible y las innovaciones tecnológicas menores pueden provocar cambios muy sensibles en el panorama competitivo. Las empresas emergentes deben tener capacidades antifrágiles para el desarrollo tecnológico.
——En palabras humanas: dé prioridad al rendimiento y evite detenerse. En el nivel de desarrollo, utilice más funciones nuevas; en el lado del producto, piense en qué funciones pueden realizar las nuevas funciones; en el lado estratégico, considere el impacto de las nuevas funciones en la estrategia.
En "Sobre el paso de Qin", se menciona que después del establecimiento de la dinastía Qin, las armas de metal de todo el mundo fueron confiscadas y moldeadas en doce figuras de bronce para eliminar la posibilidad de levantamientos civiles. Pero la dinastía Qin duró muy poco. Es más beneficioso prestar atención a los cambios que ignorarlos.
Consejos para nuevas empresas de IA: cree aplicaciones con confianza
Hay un peligro oculto muy común en la postulación de empresas de nueva creación: la entrada de grandes empresas. Las grandes empresas aquí incluyen no sólo los gigantes de las aplicaciones, como Meta/Byte/Tencent, sino también los upstream de la industria de la IA, como OpenAI.
Generalmente hay dos razones para que las grandes empresas entren en el mercado: desplegar oportunidades de productos y reducir las fases upstream y downstream.
"Desarrollar oportunidades de productos" es un significado literal: las grandes empresas sienten que vale la pena seguir esta dirección y lo hacen.
"Arriba y abajo" es en su mayor parte un movimiento impotente. Puede deberse a que he desarrollado un modelo grande que se compara con OpenAI, pero debido al problema del ganador del modelo grande, no hay usuarios, lo que genera costos elevados. sin ingresos y sin datos, lo que a su vez lleva a que el rendimiento se rezague gradualmente. En este momento, las únicas opciones son ir más allá, desarrollar aplicaciones específicas y utilizar su propia tecnología.
Según la experiencia histórica, debido a problemas de estructura organizacional, cuanto más cerca esté una empresa del downstream, más probable será que su tecnología se quede atrás, y cuanto más se retrase su tecnología, más tendrá que trabajar en el downstream. Estas llamadas empresas de tecnología eventualmente competirán por el mismo nicho ecológico que las empresas de capa de aplicación.
Sin embargo, en el campo de batalla de la capa de aplicación, debido al corto tiempo de la tecnología de IA, no existe una ventaja de escala efectiva y reutilizable, y el punto de partida de las grandes empresas y las nuevas empresas es similar. En comparación con las grandes empresas, las nuevas empresas son más eficientes y tienen conocimientos más profundos, lo que facilita su aprovechamiento.
Una cosa que vale la pena señalar es que casi todos los materiales promocionales de MS Azure ahora giran en torno a OpenAI, pero una empresa tan grande como Microsoft confía completamente en OpenAI como plataforma, lo que demuestra desde el lado que las startups tienen ventajas naturales en el campo de la IA.
Por supuesto, es posible que algunos proveedores de nube no puedan aceptar ser liderados por empresas emergentes y quieran comerse todo el mercado por sí mismos. Es caro, lento y no representa una amenaza inmediata.
El hecho es que, de hecho, existen algunas vías de corta duración para las aplicaciones de IA, pero todavía hay muchas vías de larga duración que no se han descubierto, y las aplicaciones de IA no son una opción en la que el ganador se lo lleva todo. Extenderse de aplicaciones a plataformas o tecnologías también es un camino más factible.
Por tanto, deberíamos adoptar una visión racional de la capacidad de las grandes empresas para invadir la capa de aplicaciones. Nuestra sugerencia es que las nuevas empresas de IA puedan crear aplicaciones con confianza.
Consejos para nuevas empresas de IA: preste atención a la línea de vida del producto
Como se mencionó anteriormente, las nuevas empresas de IA pueden desarrollar aplicaciones con confianza, pero deben considerar los problemas de rendimiento del modelo de IA y evitar estancarse. Esta situación se refleja directamente en el hecho de que los productos de IA pueden perder su base de demanda y marchitarse gradualmente en unos pocos meses, y esta situación puede ocurrir con frecuencia.
Las aplicaciones de IA necesitan utilizar los servicios de modelos grandes, y el rendimiento de los modelos grandes continúa mejorando. Esta mejora no es una mejora en una sola dimensión como la "velocidad", sino un cambio en todos los aspectos, como la calidad de la salida, la duración de la salida y la controlabilidad de la salida. Cada mejora significativa en la tecnología hará que los productos de la capa de aplicación existentes se queden atrás tecnológicamente y creen nuevas oportunidades y competidores.
**Nos referimos al momento en que la aplicación de IA mantiene las ventajas y la necesidad en estrategia/producto/tecnología como "salvavidas". **
A continuación se muestran algunos ejemplos de líneas de vida más cortas:
Cuando ChatGPT/Claude admita la carga de archivos, ChatPDF ya no será necesario
Cuando Office 365 admite Copilot, los productos que usan IA para dibujar PPT pierden su ventaja
*Cuando aparezca GPT-3.5, Jasper ya no será necesario
**Teniendo en cuenta el rápido desarrollo de la industria de la IA, la norma son líneas de vida limitadas. Por lo tanto, aceptar el hecho de que la línea de vida es limitada y tratar de elegir una dirección con una línea de vida más larga para el desarrollo conduce a mantener las ventajas a largo plazo y la necesidad del producto. **
Generalmente, la línea de vida se puede dividir simplemente en niveles de 3/6/12 meses.
3 meses: Funciones que las grandes empresas no han tenido tiempo de realizar (como funciones que office/ChatGPT no ha tenido tiempo de realizar)
6 meses: es difícil de implementar y no se puede integrar en las soluciones existentes, pero las ventajas/necesidades desaparecerán con la mejora del rendimiento de la IA (como el marco general de IA).
12 meses: Las ventajas/necesidades pueden existir durante mucho tiempo y no se ven fácilmente afectadas por las grandes empresas/desarrollos tecnológicos (como Hugging Face)
*El ciclo de vida de los productos de plataforma no es necesariamente largo. Después de todo, las tiendas también son plataformas.
Las empresas emergentes solo necesitan un salvavidas de 6 meses para determinar su dirección, y es difícil conseguir un salvavidas de 12 meses.
Cuando la línea de vida del producto llega a su fin, generalmente se dan dos situaciones. La primera situación es que las ventajas desaparecen y es necesario reconstruir la tecnología de actualización del producto; consulte el "rendimiento primero" anterior; la segunda situación es que la necesidad desaparece y el producto será reemplazado gradualmente. En este momento, Al producto todavía le quedan varios meses de "vida útil operativa", suficientes para que las empresas de nueva creación elijan la siguiente dirección.
Consejos para nuevas empresas de IA: Web3+AI puede hacerlo
En la actualidad, existen muchos proyectos empresariales en torno al tema de Web3+AI, pero considerando la incertidumbre del desarrollo tecnológico y la etapa inicial del mercado, el tema de Web3+AI todavía tiene muchas variables en el futuro.
Este artículo tiene como objetivo encontrar certezas con una alta probabilidad de ser correctas entre las incertidumbres, por lo que el autor aún espera inspirarse y proponer algunos temas y direcciones que puedan tener oportunidades de referencia para empresas de nueva creación e investigadores interesados.
Dessoberanía/descentralización
En la actualidad, los líderes de la industria de la IA solo ofrecen modelos de código cerrado y la estabilidad, transparencia y neutralidad de su prestación continua de servicios son incontrolables. La desoberanía/descentralización puede convertirse en un tema importante en la industria de la IA, a saber: basado en la estructura básica de desoberanía/descentralización, para proporcionar servicios de IA estables, transparentes y neutrales.
La desoberanía/descentralización es una "alternativa" y un "shock" que puede aumentar significativamente los costos inmorales de las empresas de IA centralizadas/soberanas e impedirles utilizar modelos de IA en aspectos militares, de culto, políticos y otros.
En casos extremos, una vez que los servicios de IA centralizados/soberanos ya no están disponibles o no son confiables por algún motivo, la IA dessoberana/descentralizada puede continuar brindando servicios de alta disponibilidad para evitar que países/regiones individuales e incluso la humanidad pierdan la IA. Los servicios se paralizan.
Uso práctico de la potencia informática.
Detrás del cambio de ETH de PoW a PoS está el dilema criticado de "la minería no genera valor". La combinación de Web3 y AI puede proporcionar un escenario práctico para la potencia informática, logrando así la digestión de la potencia informática disponible y promoviendo el crecimiento de la informática total. potencia, etc. Efecto.
Activos virtuales
La IA es un activo nativo de la potencia informática y el almacenamiento. La combinación de Web3 y la IA puede proporcionar un canal para convertir la IA en activos virtuales. Al mismo tiempo que ejemplifica el valor de la industria de la IA, también puede crear verdaderos activos virtuales nativos para Web3.
Variables para aplicaciones Web3
La combinación de Web3 e IA puede aportar nuevos puntos funcionales y oportunidades de crecimiento a las aplicaciones Web3, y las aplicaciones Web3 existentes se pueden rehacer por completo.
Escrito al final: Es septiembre, ¿todavía vale la pena iniciar un negocio con IA ahora?
Permítanme hablar primero de la conclusión: vale la pena y esta conclusión se puede utilizar hasta el Año Nuevo chino con una alta probabilidad.
La gente suele tener una percepción sesgada de la situación y yo no soy una excepción. Algunas personas son demasiado optimistas y otras demasiado pesimistas. El autor se comunicó una vez con dos equipos. Un equipo cree que podrá construir un agente de IA en el primer trimestre del próximo año, mientras que el otro cree que la IA solo es adecuada para la gestión de la base de conocimientos. Obviamente, el primero es demasiado optimista, mientras que este último es demasiado pesimista.
Al hacer planes a largo plazo, ser demasiado optimista o demasiado pesimista conducirá a trampas, y los comentarios que circulan ampliamente son a menudo comentarios muy sesgados, lo que hace que el pensamiento independiente sea extremadamente valioso. Por lo tanto, independientemente de si el lector puede aceptar las opiniones de este artículo, siempre que tenga un pensamiento y un juicio independientes durante el proceso de lectura, el autor estará extremadamente satisfecho.
Finalmente, haga publicidad. Si tiene una buena idea empresarial de IA o ya ha formado un proyecto, bienvenido a comunicarse con amigos de NGC (como yo) en cualquier momento.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
NGC Ventures: Es septiembre, ¿todavía vale la pena iniciar un negocio con IA ahora?
Autor original: Cherry, NGC Ventures
Prefacio
El primer borrador de este artículo lo completé mientras pescaba en el día de descanso de finales de agosto, luego de publicarlo apresuradamente recibí muchos consejos, por lo que el autor agregó, cambió y eliminó algunos contenidos para evitar hacer reír a la gente.
El contenido de este artículo es principalmente evaluar la situación actual de la industria de la IA desde la perspectiva de la inversión, reflexionar y conjeturar sobre las rutas de tecnología / productos de diferentes empresas y abstraer las estrategias de las empresas en la IA. industria. Por lo tanto, es inevitable que haya algunas omisiones cuando se trata de tecnologías específicas, así que tengan paciencia.
Pero en última instancia, varias grandes empresas que pueden publicar artículos todavía están destrozadas y nadie parece poder evaluar la exactitud del contenido de este artículo. Al igual que obtener GPT-3.5 con GPT-4, parece razonable, pero es un poco abstracto si lo piensas.
Por lo tanto, el autor recomienda que este artículo se considere como un "juicio" formado después de recopilar información sobre industrias inciertas. Dado que se trata de un juicio, la posición debe ser clara y la declaración debe tener sentido. En cuanto a si es correcto o no, deja que el tiempo lo pruebe.
El autor siempre cree que: la nueva industria es ruidosa, siempre es correcto usar el cerebro y atreverse a emitir juicios. Para las preguntas de verdadero o falso, la tasa correcta de adivinanzas a ciegas es del 50% y la probabilidad de adivinar incorrectamente tres veces seguidas es del 12,5%. Incluso hacer juicios al nivel de lanzar una moneda tiene sentido. No es terrible emitir un juicio, pero lo más terrible es que la precisión del juicio es menor que la de lanzar una moneda.
Antes de abrir oficialmente este artículo, me gustaría agradecer el siguiente trabajo, que proporcionó valiosa inspiración y fuentes de datos para este artículo. Por supuesto, dado que muchas inferencias en este artículo se basan en estos trabajos, si hay errores o la comprensión del autor es incorrecta, las inferencias en este artículo ya no serán sólidas y se pide a los lectores que juzguen por sí mismos. Este artículo no constituye un consejo de inversión y es difícil constituir un consejo de inversión.
Bien, comencemos oficialmente este artículo.
Maqueta: Lanzamiento de un cibercohete
El primer paso para debatir la IA en 2023 es discutir si aún es posible emprender proyectos de gran modelo.
El modelo grande (preentrenamiento) ahora se ha transformado en el problema de lanzar un cohete: siempre que se pueda quemar y la dirección sea la correcta, cualquiera puede hacerlo. Se puede decir que entrenar un modelo grande es lanzar un cibercohete.
Algo contrario a la intuición es que los inversores subestiman la dificultad de entrenar modelos grandes, pero sobrestiman la dificultad de lanzar cohetes reales. Con el mismo coste de 60 millones de dólares, los inversores pensarán que existe una segunda oportunidad de que falle el lanzamiento de un cohete, mientras que no poder entrenar un modelo grande se considera una pérdida de dinero.
GPT-4 todavía consume 60 millones de dólares estadounidenses en eficiencia de utilización de GPU de OpenAI (se informa que es aproximadamente igual al 30%). Esta es una cuestión de {rendimiento = eficiencia × costo}, y el rendimiento es un muro. Si otras empresas emergentes no pueden lograr un efecto de rendimiento superior al 30% × 60 millones = 18 millones de dólares estadounidenses, los usuarios también podrían usar GPT-4. directamente.
En la actualidad, las rondas de financiación de muchas empresas que afirman fabricar modelos grandes oscilan entre 1 y 5 millones de dólares estadounidenses. Dicho esto, incluso las empresas con mayor financiación sólo tienen suficiente munición para un único lanzamiento. E incluso si la utilización de la GPU en este lanzamiento alcanza el 100%, es difícil superar el GPT-4.
Desde esta perspectiva, es mejor lanzar cohetes, porque la mayoría de los cohetes actuales son vehículos de lanzamiento que transportan satélites al cielo y la capacidad de carga única es limitada, por lo que las pequeñas empresas de cohetes pueden aceptar pedidos de satélites que otros no han tenido tiempo. lanzar.
Los modelos grandes son diferentes: el costo marginal de la expansión horizontal de los modelos grandes es solo el costo de la potencia informática, y el costo de la potencia informática se puede expandir elásticamente, lo que significa que para las grandes empresas modelo, el beneficio de cada pedido es el beneficio gratuito. Casi no hay costos adicionales y la capacidad de ejecución es muy grande. Es difícil para una empresa modelo a gran escala, nueva y de mala calidad, recibir una demanda excesiva.
A menos que se reduzca considerablemente el coste de la formación, incluso si se conoce la arquitectura completa de GPT-4, a muchas empresas les resultará difícil fabricar un modelo grande que pueda comercializarse en el corto plazo.
Personalización: frente al problema de que "el ganador se lo lleva todo"
En la industria del hardware, un fenómeno común es lograr ganancias tempranas a través de necesidades personalizadas y luego lograr avances tecnológicos (o igualación) a través de ganancias tempranas. Sin embargo, la personalización en la industria de los grandes modelos no es una salida para los nuevos participantes.
Con respecto a este juicio, la explicación es muy simple: la gran mayoría de los modelos ajustados no pueden alcanzar a GPT-4. Incluso si lo logran, usar GPT-4 directamente para la generalización es más barato, requiere menos personal y requiere menos suerte. Menos requisitos de datos. Mientras siga existiendo la brecha de rendimiento entre el GPT-4 y otros modelos, la personalización no puede ser la salida para las grandes empresas de modelos.
Un ejemplo muy típico es Jasper, que utiliza GPT-3 optimizado para atender a clientes empresariales. Sin embargo, después de que OpenAI lanzó ChatGPT (GPT-3.5), sus usuarios perdieron rápidamente. Porque el resultado de Jasper se puede obtener simplemente ingresando GPT-3.5, en lugar de usar una "versión anterior" que tiene capacidades de generalización deficientes y está limitada al uso interno dentro de la empresa.
En comparación con las nuevas empresas, Jasper tiene al menos un período de ventana de desarrollo de GPT-3 a GPT-3.5. Sin embargo, las nuevas empresas ahora deben enfrentarse a la extrusión de GPT-3.5 de bajo costo y alta velocidad y GPT-4 de alto rendimiento al mismo tiempo.
Por lo tanto, la probabilidad de supervivencia de esperar acumular ganancias mediante la personalización para lograr avances tecnológicos es muy baja.
Ajuste: necesario, no seas supersticioso
La actual industria de la IA tiene expectativas poco realistas de realizar ajustes finos, expectativas que están sobreestimadas en términos de implementación técnica específica y ritmo macrotécnico.
El ajuste que se discute actualmente en la industria se refiere principalmente a "basarse en modelos previamente entrenados, para que pueda generar respuestas consistentes con las intenciones humanas". Este tipo de ajuste se puede llamar "alineación", que consiste en alinear las respuestas con la intención humana, en lugar de agregar inteligencia al modelo grande.
Según los resultados de la investigación de muchos artículos, el conocimiento de modelos grandes debería provenir principalmente del entrenamiento previo, mientras que el ajuste fino se utiliza más para la alineación.
La explicación simple es que el entrenamiento previo determina la capacidad cerebral y el ajuste determina el idioma nativo. Afinar el modelo previamente entrenado es un proceso de “eliminar el analfabetismo”.
Sin embargo, el ajuste fino se ve a menudo en la industria como un método para "agregar inteligencia" al modelo, es decir, mejorar el rendimiento del modelo y aumentar el conocimiento del modelo mediante el ajuste fino. Se cree que de esta manera, el "Santo Grial de inteligencia artificial". Esta línea de pensamiento es algo sesgada.
En primer lugar, el rendimiento del modelo en sí no ha mejorado, pero puede alinear mejor las intenciones humanas. Si la complejidad de la tarea excede el rendimiento del modelo, el ajuste fino no producirá los resultados esperados. Es como hacer que el cerebro humano realice cálculos cuánticos: no es cuestión de educación si no se puede hacer.
En segundo lugar, el "suplemento de conocimientos" se realiza en la parte de "alineación de intenciones", y el efecto es más similar a "repetir como un loro". Es decir: el modelo simplemente imita lo que dicen los expertos sin entender el significado. Aunque muchas industrias han podido obtener buenas soluciones "repitiendo como loros" (después de todo, la mayoría de las industrias no son complicadas...), obviamente este no es el resultado que debemos perseguir a largo plazo.
Finalmente, el entrenamiento para "complementar conjuntos de datos adicionales, mejorar el rendimiento del modelo y aumentar el conocimiento del modelo" debe considerarse como un modelo que tiene la capacidad de "aprendizaje incremental/aprendizaje continuo", es decir, todos los parámetros del modelo se pueden procesar a través de Optimización incremental de conjuntos de datos. Este no es el mismo concepto que el llamado "ajuste de instrucciones".
En términos generales, el ajuste es muy importante, pero es incorrecto adoptar una actitud "supersticiosa" hacia el ajuste actual, especialmente aquellos que están ansiosos por llamar al ajuste actual el Santo Grial, que es una especie de "La física actual está en el edificio. Sólo hay dos nubes oscuras flotando".
Dando un paso atrás, si la demanda de "inteligencia creciente" realmente se puede resolver ajustando las instrucciones, realizando una búsqueda vectorial simple, colocando directamente el conocimiento en el contexto y luego simplemente escribiendo algunas plantillas, existe una alta probabilidad. que habrá el mismo o incluso mejor efecto.
A todo el mundo le gusta el ajuste fino, tal vez esto sea una especie de resurgimiento de las habilidades de alquimia en los tiempos modernos...
Perspectivas para modelos grandes: cuatro operaciones aritméticas
(Tenga en cuenta que esta parte del contenido se basa completamente en datos revelados por Dylan Patel y la confiabilidad aún no se puede verificar)
El entrenamiento de GPT-4 se basa en la serie A de tarjetas N. La eficiencia del entrenamiento es del 30%. El tiempo de entrenamiento es de aproximadamente 2 meses. El costo es de aproximadamente 60 millones. La cantidad total de parámetros es {1,7 billones = 110 mil millones × 16 modelos expertos}. Puede manejar un solo problema. Los parámetros son alrededor de 280 mil millones.
En otras palabras, existen varios parámetros clave que conducirán a cambios en el patrón de entrenamiento de modelos grandes.
En resumen, el costo de entrenar un modelo con rendimiento de nivel GPT-4 desde cero puede tener de 10 a 20 veces más espacio para la optimización, que se reduce a entre 3 y 6 millones de dólares, lo que es muy rentable para las empresas emergentes. y las grandes empresas son más aceptables.
Este cambio puede tardar unos 2 años en completarse.
En la actualidad, la tecnología principal de modelos grandes todavía se basa en transformadores, la infraestructura no ha cambiado y la idea de refinar la alquimia y agregar parámetros para crear milagros no se ha agotado. El entrenamiento de GPT-4 se lleva a cabo sobre la base de altas limitaciones de potencia informática y el tiempo de entrenamiento no es lo suficientemente largo.
Si los parámetros crecen linealmente con el tiempo de entrenamiento, el límite superior de parámetros para un modelo con una arquitectura similar a GPT-4 puede rondar los 10 billones, es decir: el doble de tiempo de entrenamiento (× 2) y el doble de tarjetas gráficas paralelas ( × 2), la eficiencia del entrenamiento es la mitad de rápida (× 1,5), la eficiencia de los parámetros es la mitad (× 1,5) y el resultado final es diez veces mejor. Según el estilo de apetito por el riesgo de Silicon Valley, lo más probable es que este parámetro se alcance en un año, independientemente de si el rendimiento ha mejorado.
Sin embargo, después de alcanzar los 10 billones de parámetros, se desconoce por completo si LLM todavía puede utilizar la idea de aumentar los parámetros para lograr milagros.
Si el número de parámetros mejora el rendimiento del modelo en un margen decreciente, entonces 10 billones probablemente sean un obstáculo. Sin embargo, también existe la conjetura de que la mejora del rendimiento del modelo por la cantidad de parámetros aumenta marginalmente, similar a "si una persona es lo suficientemente inteligente, puede aprender todo rápidamente". Lo primero está bien, pero si lo segundo se hace realidad, el rendimiento del modelo puede mejorar exponencialmente y lo que sucederá entonces será completamente impredecible.
Es difícil predecir el elixir, pero sí fácil predecir el ritmo estratégico de una empresa. Un modelo con un parámetro total de 10 billones es un punto final a nivel de hito para la mayoría de las empresas, ya sea un gigante como Google/MS/APPL o un OpenAI más pequeño, y es posible detenerse y hacer alguna exploración técnica.
La preferencia de la empresa/capital por el riesgo se puede convertir en un "tiempo de resistencia": si todo el tiempo de resistencia quema intensamente los gastos, es difícil superar los 6 meses. La artesanía humana no crece lo suficientemente rápido y un ciclo suele durar cinco años o más. Por lo tanto, dentro de cinco años, se podrá estimar la cantidad definitiva de parámetros del modelo, que debería ser de 20 a 50 billones. A menos que se produzca nuevamente un gran avance en tecnología/arquitectura, la probabilidad de exceder este orden de magnitud es muy baja.
Multimodal: El elefante en la habitación
La multimodalidad es el elefante en la habitación y puede impactar profundamente el paisaje de la pista de carreras.
La definición simple de multimodalidad es: soportar la entrada y salida de información modal múltiple. Esta definición es muy vaga: por ejemplo, algunos productos en el mercado que afirman poder realizar entradas multimodales son en realidad una capa de OCR fuera de ChatBot. También hay modelos que cumplen plenamente con la definición de multimodalidad, pero su desempeño es decepcionante. Incluso la capacidad de entrada de imágenes multimodal de GPT-4 aún no se ha abierto ampliamente y se puede ver que esta función no es muy estable.
Sin embargo, el lanzamiento de la multimodalidad no está lejos. Existe una alta probabilidad de que GPT-5 admita la multimodalidad de forma nativa, es decir, necesite rediseñar la estructura y volver a capacitarse. Según el razonamiento anterior, los parámetros del modelo grande todavía tienen espacio para crecer de 10 a 50 veces, y debería ser suficiente incorporarle capacidades multimodales. Por lo tanto, se puede esperar que los modelos multimodales con alta disponibilidad y alto rendimiento aparezcan dentro de 2 años y, con optimismo, será casi 1 año.
La multimodalidad es el elefante en la habitación, todo el mundo sabe que eventualmente existirá, pero tantos productos/investigaciones/estrategias ignoran su existencia que hay un error de cálculo en partes clave.
Por ejemplo, en teoría, los modelos de una sola imagen pueden verse severamente oprimidos por los modelos multimodales, pero la mayoría de las investigaciones/inversiones actualmente ignoran esta cuestión, lo que lleva a la sobrevaloración de algunas empresas centradas en la imagen. Es probable que estas empresas pierdan barreras técnicas y se transformen en proveedores de servicios en el futuro. Su sistema de valoración debería referirse a proveedores de servicios y no a empresas de tecnología.
Si quieres contar la historia de "la inversión depende de las personas, el mismo equipo puede transformar el negocio", finge que no lo dije. Las leyendas siempre están ahí, pero no puedes creer en ellas cuando investigas.
¿Quién puede entrenar GPT-4? Puedes, pero no es necesario.
Refinar los elixires no lleva tanto tiempo y las grandes empresas están comprando tarjetas gráficas. Una cosa que es muy obvia es que en un año las grandes empresas podrán entrenar modelos de nivel GPT-4. Pero entrenar o no es otra cuestión.
En el campo de los juegos, existe una propuesta clásica llamada "Yuanshin jugando a Yuanshen", es decir: cuando los jugadores pueden elegir jugar a Yuanshen o un producto competidor de Yuanshen, si el producto de la competencia no es tan bueno como Yuanshen, entonces juegue Original God. .
Este enfoque de "el ganador se lo lleva todo" también se aplica a la industria de modelos a gran escala. Si una empresa sigue OpenAI, después de medio año de investigación y desarrollo, lanza su propio modelo grande con un rendimiento del 90% comparable al GPT-4, con la esperanza de llevarlo al mercado. En este momento, la empresa enfrentará los siguientes problemas:
Se puede observar que la presión sobre la empresa es considerable. En lugar de entrenar GPT-4, es mejor apostar directamente por el modelo de próxima generación (contra GPT-5). Entonces el problema pasará de "problema de productos competidores similares" a "problema de innovación tecnológica". Esta es una carga insoportable para las pequeñas empresas.
Por tanto, discutir "quién puede entrenar GPT-4" es una cuestión estratégicamente muerta: en lugar de pensar en este problema, es mejor encontrar una dirección con más certeza y oportunidades.
Consejos para nuevas empresas de IA: anteponga el rendimiento, evite quedarse
El autor ha escrito muchos artículos quejándose de langchain, la razón fundamental es que langchain no deja espacio para que los desarrolladores mejoren el rendimiento. Se llama "marco universal" y, para garantizar la generalidad, se han abandonado muchas mejoras de rendimiento de modelos grandes, como el control de formato logrado mediante múltiples rondas de diálogo y ajuste. Otros similares incluyen orientación/Auto-GPT/BabyAGI, etc., todos los cuales quieren construir un "marco que pueda durar toda la vida".
Un hecho objetivo es que OpenAI lanzó Function Calling en mayo, y muchos lugares problemáticos en el código tienen mejores soluciones de implementación, y el costo de implementar una mejor solución es refactorizar partes clave del código del producto. En agosto, OpenAI publicó permisos para ajustar GPT-3.5 y muchos enlaces que requieren un control preciso de la salida tienen nuevas soluciones potenciales.
Por lo tanto, las startups deben enfrentar una elección clave: ¿deberían elegir ① mejorar el rendimiento y refactorizar constantemente los productos, o ② reducir el uso de nuevas funciones y utilizar siempre funciones antiguas para el desarrollo?
Para el emprendimiento de aplicaciones de nuevas tecnologías, el “desarrollo” no sólo representa el proceso de escribir código, sino que también representa el “límite superior” de la funcionalidad/estrategia del producto. Cuanto mayor sea el rendimiento que se puede controlar, más funciones teóricas tendrá el producto y mayor será su flexibilidad estratégica.
El desarrollo de la tecnología es impredecible y las innovaciones tecnológicas menores pueden provocar cambios muy sensibles en el panorama competitivo. Las empresas emergentes deben tener capacidades antifrágiles para el desarrollo tecnológico.
——En palabras humanas: dé prioridad al rendimiento y evite detenerse. En el nivel de desarrollo, utilice más funciones nuevas; en el lado del producto, piense en qué funciones pueden realizar las nuevas funciones; en el lado estratégico, considere el impacto de las nuevas funciones en la estrategia.
En "Sobre el paso de Qin", se menciona que después del establecimiento de la dinastía Qin, las armas de metal de todo el mundo fueron confiscadas y moldeadas en doce figuras de bronce para eliminar la posibilidad de levantamientos civiles. Pero la dinastía Qin duró muy poco. Es más beneficioso prestar atención a los cambios que ignorarlos.
Consejos para nuevas empresas de IA: cree aplicaciones con confianza
Hay un peligro oculto muy común en la postulación de empresas de nueva creación: la entrada de grandes empresas. Las grandes empresas aquí incluyen no sólo los gigantes de las aplicaciones, como Meta/Byte/Tencent, sino también los upstream de la industria de la IA, como OpenAI.
Generalmente hay dos razones para que las grandes empresas entren en el mercado: desplegar oportunidades de productos y reducir las fases upstream y downstream.
"Desarrollar oportunidades de productos" es un significado literal: las grandes empresas sienten que vale la pena seguir esta dirección y lo hacen.
"Arriba y abajo" es en su mayor parte un movimiento impotente. Puede deberse a que he desarrollado un modelo grande que se compara con OpenAI, pero debido al problema del ganador del modelo grande, no hay usuarios, lo que genera costos elevados. sin ingresos y sin datos, lo que a su vez lleva a que el rendimiento se rezague gradualmente. En este momento, las únicas opciones son ir más allá, desarrollar aplicaciones específicas y utilizar su propia tecnología.
Según la experiencia histórica, debido a problemas de estructura organizacional, cuanto más cerca esté una empresa del downstream, más probable será que su tecnología se quede atrás, y cuanto más se retrase su tecnología, más tendrá que trabajar en el downstream. Estas llamadas empresas de tecnología eventualmente competirán por el mismo nicho ecológico que las empresas de capa de aplicación.
Sin embargo, en el campo de batalla de la capa de aplicación, debido al corto tiempo de la tecnología de IA, no existe una ventaja de escala efectiva y reutilizable, y el punto de partida de las grandes empresas y las nuevas empresas es similar. En comparación con las grandes empresas, las nuevas empresas son más eficientes y tienen conocimientos más profundos, lo que facilita su aprovechamiento.
Una cosa que vale la pena señalar es que casi todos los materiales promocionales de MS Azure ahora giran en torno a OpenAI, pero una empresa tan grande como Microsoft confía completamente en OpenAI como plataforma, lo que demuestra desde el lado que las startups tienen ventajas naturales en el campo de la IA.
Por supuesto, es posible que algunos proveedores de nube no puedan aceptar ser liderados por empresas emergentes y quieran comerse todo el mercado por sí mismos. Es caro, lento y no representa una amenaza inmediata.
El hecho es que, de hecho, existen algunas vías de corta duración para las aplicaciones de IA, pero todavía hay muchas vías de larga duración que no se han descubierto, y las aplicaciones de IA no son una opción en la que el ganador se lo lleva todo. Extenderse de aplicaciones a plataformas o tecnologías también es un camino más factible.
Por tanto, deberíamos adoptar una visión racional de la capacidad de las grandes empresas para invadir la capa de aplicaciones. Nuestra sugerencia es que las nuevas empresas de IA puedan crear aplicaciones con confianza.
Consejos para nuevas empresas de IA: preste atención a la línea de vida del producto
Como se mencionó anteriormente, las nuevas empresas de IA pueden desarrollar aplicaciones con confianza, pero deben considerar los problemas de rendimiento del modelo de IA y evitar estancarse. Esta situación se refleja directamente en el hecho de que los productos de IA pueden perder su base de demanda y marchitarse gradualmente en unos pocos meses, y esta situación puede ocurrir con frecuencia.
Las aplicaciones de IA necesitan utilizar los servicios de modelos grandes, y el rendimiento de los modelos grandes continúa mejorando. Esta mejora no es una mejora en una sola dimensión como la "velocidad", sino un cambio en todos los aspectos, como la calidad de la salida, la duración de la salida y la controlabilidad de la salida. Cada mejora significativa en la tecnología hará que los productos de la capa de aplicación existentes se queden atrás tecnológicamente y creen nuevas oportunidades y competidores.
**Nos referimos al momento en que la aplicación de IA mantiene las ventajas y la necesidad en estrategia/producto/tecnología como "salvavidas". **
A continuación se muestran algunos ejemplos de líneas de vida más cortas:
**Teniendo en cuenta el rápido desarrollo de la industria de la IA, la norma son líneas de vida limitadas. Por lo tanto, aceptar el hecho de que la línea de vida es limitada y tratar de elegir una dirección con una línea de vida más larga para el desarrollo conduce a mantener las ventajas a largo plazo y la necesidad del producto. **
Generalmente, la línea de vida se puede dividir simplemente en niveles de 3/6/12 meses.
*El ciclo de vida de los productos de plataforma no es necesariamente largo. Después de todo, las tiendas también son plataformas.
Las empresas emergentes solo necesitan un salvavidas de 6 meses para determinar su dirección, y es difícil conseguir un salvavidas de 12 meses.
Cuando la línea de vida del producto llega a su fin, generalmente se dan dos situaciones. La primera situación es que las ventajas desaparecen y es necesario reconstruir la tecnología de actualización del producto; consulte el "rendimiento primero" anterior; la segunda situación es que la necesidad desaparece y el producto será reemplazado gradualmente. En este momento, Al producto todavía le quedan varios meses de "vida útil operativa", suficientes para que las empresas de nueva creación elijan la siguiente dirección.
Consejos para nuevas empresas de IA: Web3+AI puede hacerlo
En la actualidad, existen muchos proyectos empresariales en torno al tema de Web3+AI, pero considerando la incertidumbre del desarrollo tecnológico y la etapa inicial del mercado, el tema de Web3+AI todavía tiene muchas variables en el futuro.
Este artículo tiene como objetivo encontrar certezas con una alta probabilidad de ser correctas entre las incertidumbres, por lo que el autor aún espera inspirarse y proponer algunos temas y direcciones que puedan tener oportunidades de referencia para empresas de nueva creación e investigadores interesados.
En la actualidad, los líderes de la industria de la IA solo ofrecen modelos de código cerrado y la estabilidad, transparencia y neutralidad de su prestación continua de servicios son incontrolables. La desoberanía/descentralización puede convertirse en un tema importante en la industria de la IA, a saber: basado en la estructura básica de desoberanía/descentralización, para proporcionar servicios de IA estables, transparentes y neutrales.
La desoberanía/descentralización es una "alternativa" y un "shock" que puede aumentar significativamente los costos inmorales de las empresas de IA centralizadas/soberanas e impedirles utilizar modelos de IA en aspectos militares, de culto, políticos y otros.
En casos extremos, una vez que los servicios de IA centralizados/soberanos ya no están disponibles o no son confiables por algún motivo, la IA dessoberana/descentralizada puede continuar brindando servicios de alta disponibilidad para evitar que países/regiones individuales e incluso la humanidad pierdan la IA. Los servicios se paralizan.
Detrás del cambio de ETH de PoW a PoS está el dilema criticado de "la minería no genera valor". La combinación de Web3 y AI puede proporcionar un escenario práctico para la potencia informática, logrando así la digestión de la potencia informática disponible y promoviendo el crecimiento de la informática total. potencia, etc. Efecto.
La IA es un activo nativo de la potencia informática y el almacenamiento. La combinación de Web3 y la IA puede proporcionar un canal para convertir la IA en activos virtuales. Al mismo tiempo que ejemplifica el valor de la industria de la IA, también puede crear verdaderos activos virtuales nativos para Web3.
La combinación de Web3 e IA puede aportar nuevos puntos funcionales y oportunidades de crecimiento a las aplicaciones Web3, y las aplicaciones Web3 existentes se pueden rehacer por completo.
Escrito al final: Es septiembre, ¿todavía vale la pena iniciar un negocio con IA ahora?
Permítanme hablar primero de la conclusión: vale la pena y esta conclusión se puede utilizar hasta el Año Nuevo chino con una alta probabilidad.
La gente suele tener una percepción sesgada de la situación y yo no soy una excepción. Algunas personas son demasiado optimistas y otras demasiado pesimistas. El autor se comunicó una vez con dos equipos. Un equipo cree que podrá construir un agente de IA en el primer trimestre del próximo año, mientras que el otro cree que la IA solo es adecuada para la gestión de la base de conocimientos. Obviamente, el primero es demasiado optimista, mientras que este último es demasiado pesimista.
Al hacer planes a largo plazo, ser demasiado optimista o demasiado pesimista conducirá a trampas, y los comentarios que circulan ampliamente son a menudo comentarios muy sesgados, lo que hace que el pensamiento independiente sea extremadamente valioso. Por lo tanto, independientemente de si el lector puede aceptar las opiniones de este artículo, siempre que tenga un pensamiento y un juicio independientes durante el proceso de lectura, el autor estará extremadamente satisfecho.
Finalmente, haga publicidad. Si tiene una buena idea empresarial de IA o ya ha formado un proyecto, bienvenido a comunicarse con amigos de NGC (como yo) en cualquier momento.