5.6.- NSA

PRISM, XKeyscore, y una gran cantidad de información clasificada que es gestionada por el programa de vigilancia de la Agencia de Seguridad Nacional ha salido a la luz desde que Edward Snowden comenzó sus fuga en mayo de 2013. ¿Cuántos datos hay? ¿Cómo la gestiona el gobierno? ¿Qué están aprendiendo acerca de ti? Seguidamente se muestra una guía de la minería de datos efectuada por la NSA.

La mayoría de las personas se introdujeron en el arcano mundo de la minería de datos cuando el contratista, de la Agencia Nacional de Seguridad (de EE.UU.), Edward Snowden presuntamente filtró documentos secretos que detallan cómo el gobierno de EE.UU. utiliza la técnica para rastrear a terroristas. El fallo de seguridad reveló que el gobierno reúne miles de millones de piezas de datos de las llamadas de teléfonos, correos electrónicos, fotos y vídeos de Google, Facebook, Microsoft y otros gigantes de las comunicaciones, a continuación, rastrea a través de la información para obtener pistas sobre amenazas a la seguridad nacional. La revelación causó un escándalo mundial sobre la inviolabilidad de la vida privada, la necesidad de seguridad y los peligros del secreto gubernamental. La gente con razón se han preocupado porque el gobierno obtiene los datos, de todos nosotros, pero no se ha prestado la misma atención sobre lo que en realidad se hace con ellos.

El panorama de la información

¿Qué cantidad de datos producimos? Un estudio reciente realizado por IBM estima que la humanidad crea 2.5 trillones de bytes de datos cada día, (si estos bytes de datos fueran centavos situados de forma plana, darían la vuelta a la tierra cinco veces.) Este total incluye la información almacenada -fotos, videos, mensajes de medios sociales, archivos de procesamiento de texto, registros de las llamadas telefónicas, registros financieros, y los resultados de los experimentos- y datos que normalmente existen un momento, como el contenido de llamadas telefónicas y chats de Skype, por ejemplo.

Información de Interés. El concepto detrás de la operación de extracción de datos de la NSA es que esta información digital puede ser analizada para establecer conexiones entre las personas, y estos vínculos pueden generar oportunidades de investigación. Sin embargo, con el fin de examinar los datos, tienen que ser recogidos de todos. Como dice el dicho de minería de datos: para buscar una aguja en un pajar, primero tienes que construir un pajar.

Los datos deben ser etiquetados antes de que sean almacenados. La minería de datos se basa en etiquetas de metadatos que permiten a los algoritmos identificar las conexiones. Los metadatos son datos sobre los datos -por ejemplo, los nombres y tamaños de los archivos de su ordenador. En el mundo digital, la etiqueta colocada en los datos se llama una etiqueta. Los datos de marcado es un primer paso necesario para la minería de datos, ya que permite a los analistas (o el software que utilizan) clasificar y organizar la información para que pueda ser registrada y procesada. El etiquetado también permite a los analistas analizar la información sin examinar su contenido. Se trata de una cuestión jurídica importante en la minería de datos de NSA porque las comunicaciones de ciudadanos estadounidenses y residentes permanentes legales en EE.UU. no pueden examinarse sin una orden judicial. Los metadatos en una etiqueta no tiene esa protección, así que los analistas los pueden utilizar para detectar comportamientos sospechosos sin temor a infringir la ley.

Búsqueda de patrones en el ruido. La firma de análisis de datos IDC estima que sólo el tres por ciento de la información en el universo digital está marcado cuando se crea, por lo que la NSA tiene un programa de software sofisticado que pone miles de millones de marcadores de metadatos a la información que recoge. Estas etiquetas son la columna vertebral de cualquier sistema que gestiona los vínculos entre los diferentes tipos de datos, tales como video, documentos y registros telefónicos. Por ejemplo, la minería de datos podría llamar la atención de un sospechoso en una lista de vigilancia que descargue propaganda terrorista, visitas a sitios web para fabricar bombas, y además compra una olla a presión. (Este patrón coincide con el comportamiento de los hermanos Tsarnaev, acusados de colocar bombas en el maratón de Boston.) Esta táctica supone que los terroristas tienen perfiles de datos muy definidos, algo que dudan muchos expertos en seguridad.

Software libre y secreto. La NSA ha sido un gran promotor de software que puede manejar grandes bases de datos. Uno de estos programas se llama Accumulo, y si bien no hay evidencia directa de que se está utilizando en el esfuerzo para controlar las comunicaciones mundiales, fue diseñado precisamente para marcado de miles de millones de piezas de datos dispares, no organizados. Es una herramienta personalizada de la agencia secreta, que se basa en la programación de Google, en realidad es de código abierto. Este año una compañía llamada Sqrrl la comercializa y espera que las industrias de la salud y las finanzas la van a usar para gestionar sus propios conjuntos de datos.

Los Mineros: ¿Quién lo hace? La NSA, y el gobierno federal, está autorizado para espiar las comunicaciones extranjeras. La agencia además tiene una gran cantidad de datos, trillones de piezas de comunicación generadas por gente de todo el mundo. La NSA no persigue a los delincuentes, terroristas y espías que identifica, sino que tamiza la información en nombre de otros actores gubernamentales como el Pentágono, la CIA y el FBI. Estos son los pasos básicos: Para empezar, uno de los 11 jueces del Tribunal Secret Foreign Intelligence Surveillance (FISA) admite una solicitud de una agencia gubernamental para autorizar un registro de los datos recogidos por la NSA. Una vez autorizados, la mayoría de las aplicaciones de las solicitudes primero van a la Unidad de Vigilancia de Comunicaciones Electrónicas del FBI (ECSU), de acuerdo con diapositivas tomadas por Snowden. Agentes del FBI revisan la solicitud para asegurarse de que el objetivo no son ciudadanos estadounidenses. ECSU pasa las peticiones correspondientes a la Unidad de Tecnología del FBI, que intercepta los datos que obtiene de la información de los servidores de la compañía de internet y luego la pasa a la NSA para examinar los programas de minería de datos. (Muchas empresas de comunicación han negado que abran sus servidores a la NSA, los funcionarios federales dicen que cooperan, No está claro que es lo correcto.). La NSA luego pasa la información pertinente a la agencia gubernamental que la solicitó.

Que es la NSA hasta el momento

Minería Phone-Metadata arrastrado a la Luz. La controversia comenzó cuando Snowden reveló que el gobierno de EE.UU. estaba recogiendo metadatos de los registros telefónicos de los clientes de Verizon, incluyendo a millones de estadounidenses. A petición del FBI, el juez Roger Vinson de la Corte FISA, emitió una resolución que obliga a la empresa a entregar sus registros telefónicos. No se recogió el contenido de la resolución, pero los funcionarios de seguridad nacional lo llaman "un sistema de alerta temprana" para la detección de complots terroristas.

Se hace público PRISM. Snowden expuso otro esfuerzo de vigilancia de la NSA, llamado US-984XN. Cada plataforma de recogida o fuente de información en bruto se le da un nombre, llamado Signals Intelligence Activity Designator (SIGAD) y un nombre en clave. SIGAD US-984XN es más conocido por su nombre en clave: PRISM. PRISM consiste en la colección de fotos digitales, datos almacenados, transferencias de archivos, correos electrónicos, chats, videos y conferencias de vídeo de nueve empresas de internet. Funcionarios estadounidenses dicen que esta táctica ayudó a atrapar a Khalid Ouazzani, un ciudadano nacionalizado en EE.UU. que el FBI alegó que conspiraba para volar la Bolsa de Valores de Nueva York. Ouazzani estaba en contacto con un extremista conocido en Yemen, que atrajo a la atención de la NSA. Identificó a Ouazzani como posible cómplice y le dio la información al FBI, que "subió a la vigilancia electrónica e identificó sus coconspiradores", según el testimonio ante el Congreso por el subdirector del FBI Sean Joyce. (Los detalles de cómo la agencia identificó a los otros no han sido revelados.) La trama NYSE se apagó mucho antes que el FBI interviniera, pero Ouazzani y otros dos se declararon culpables de lavado de dinero para apoyar a al-Qaeda. Nunca fueron acusados de nada relacionado con el complot de las bombas.

¿Cómo se crean los datos de minería? Las diapositivas reveladas por Snowden indican que la NSA también opera las herramientas de vigilancia en tiempo real. Analistas de la NSA pueden recibir "notificaciones en tiempo real de un evento de correo electrónico como un inicio de sesión o envio mensajes" y "notificaciones en tiempo real de una sesión de chat", dicen las diapositivas. Eso es uso muy sencillo, pero si la información en tiempo real puede detener los ataques sin precedentes está sujeto a debate. Alerta sobre el titular de una tarjeta de crédito de compras incompletos en tiempo real, es fácil, sin embargo la construcción de un modelo fiable de un ataque inminente en tiempo real es infinitamente más difícil.

¿Qué es XKeyscore? A finales de julio Snowden lanzó una presentación secreta de 32 páginas, que describe el software que puede buscar cientos de bases de datos de clientes potenciales. Snowden afirma que este programa permite a los analistas de bajo nivel acceder a las comunicaciones sin supervisión, eludiendo los controles de la corte FISA. La NSA y la Casa Blanca niegan vehementemente, y los documentos no indican ningún mal uso. Las diapositivas describen una poderosa herramienta que los analistas de la NSA pueden utilizar para encontrar enlaces ocultos en el interior de la información. "Mi objetivo es de habla alemana, pero se encuentra en Pakistán, ¿cómo puedo encontrarlo?", indica una diapositiva. Otra pregunta: "Mi objetivo utiliza Google Maps para ubicaciones de destinatarios, ¿puedo utilizar esta información para determinar su dirección de correo electrónico?" Este programa permite a los analistas realizar una consulta para buscar 700 servidores en todo el mundo a la vez, combinando diferentes fuentes para encontrar las respuestas a estas preguntas.

¿Hasta dónde puedo llegar con los datos?

Falsos positivos. Los perros detectores de bombas a veces indican explosivos que no están ahí. Este tipo de error se conoce como un falso positivo. En la minería de datos, el equivalente es un programa informático para husmear un conjunto de datos y llegar a la conclusión equivocada. Esto, cuando se tiene un conjunto masivo de datos puede ser una desventaja. Cuando un programa examina trillones de conexiones entre los objetivos potenciales, incluso una muy pequeña tasa de falsos positivos es igual a decenas de miles de clientes potenciales sin salida, que los agentes deben perseguir, por no hablar de las incursiones que no sean necesarios en la vida de personas inocentes.

Análisis para ver el futuro. ¿Alguna vez se preguntó el origen de recomendaciones de Netflix en el buzón de correo electrónico o listas de lectura sugeridas en Amazon viene? Los intereses previos dirigidos por un algoritmo para ofrecerte productos. Las grandes empresas creen más en este tipo de marketing que ha previsto aumentar las ventas y reducir los costos. Por ejemplo, este año Walmart compró una startup de análisis predictivo llamada Inkiru. La compañía elabora software que analiza datos para ayudar a los minoristas a crear campañas de marketing para los compradores, cuando son más propensos a adquirir ciertos productos.

¿Reconocimiento de Patrones o Profecía? En 2011, investigadores británicos crearon un juego de simulación, y el 60 por ciento de los jugadores "terroristas" fueron detectados por un programa llamado DScent, en base a sus "compras" y "visitas" en el sitio de destino. La capacidad de un equipo para ajustar automáticamente grabaciones de seguridad de la cámara con los registros de compras puede parecer un sueño a los agentes del orden que tratan de salvar vidas, pero es el tipo de seguimiento ubicuo que alarma a los defensores de las libertades civiles. Aunque ni la NSA ni ninguna otra agencia ha sido acusadas de abusar de los datos que recoge, el miedo de la opinión pública sobre su colección permanece. La pregunta es, ¿cuánto confíar en las personas que se sientan en los teclados para utilizar esta información de manera responsable? Su respuesta determina en gran medida cómo se siente acerca de la minería de datos de la NSA.